【吐槽】大模型太强了,以至于很多人感觉自己行了

4 min
AI 总结
$
|
文章总结图
文章总结图

📐 教程的共同套路

  1. 跟着官方示例走一遍 → 跑起来了 → 发布战报。
  2. 文档随便往里塞,chunk 尺寸抄默认。
  3. top-k 恒定 5,无论语料规模、问题类型都不调。
  4. embedding 选型思路没有,检索日志也不看。
  5. 不 rerank、不 query rewrite、不谈 evaluation。
  6. 不讲 error case,只会贴一句 “pip install 一下即可。”

最后确实能跑,但仅限于“能返回点字”。

🔥 真正的痛点都被跳过了

  • chunk 怎么切才不丢信息?是按段落、标题,还是结构化字段?有没有做 overlap?
  • 如何减少噪声检索?有没有 metadata 过滤、domain boost、负样本训练?
  • 混合检索(BM25 + embedding)怎么配权?召回失败时 fallback 是什么?
  • 需不需要 rerank?是多模态 cross-encoder 还是轻量 ranker?
  • 召回率如何提升?有没有增量构建、领域术语扩展?
  • 多文档融合顺序?是否做 vote / merge-and-reweight?
  • 用户问句何时改写?意图不明时是否加 Clarification?
  • 最终回答如何 grounding?有没 cite chunk、可追溯的 evidence?
  • 衡量好坏靠什么?有没有离线 benchmark、在线 A/B、error log?

这些才是 RAG 的核心,教程基本一字不提。

🏢 “企业级”标题党更离谱

我看到不少号称企业级 RAG 的项目:

  • chunk 策略没有,仍旧“每 500 字切一刀”。
  • rerank 没有,多阶段检索也没有。
  • 多文档处理没有,query rewrite 没有。
  • metadata 过滤、结构化知识融合统统缺席。

跑出来的效果跟“PDF 搜索 + LLM 总结”没区别,但标题写得比方案还飞。

🔍 没评测 = 没上线资格

真正该写的,是评测与观测:

  • 召回率到底多少?分数据域拆开了吗?
  • 捞不到内容时模型会怎么答?有没有 fallback、拒答策略?
  • 噪声 chunk 比例多大?排序器真有效吗?
  • 文档融合会不会把章节搅成粥?
  • prompt 有没有引导引用来源、限制胡说八道?
  • 哪类问题最容易翻车?操作手册、政策、数值还是实时信息?

没有这些指标,所谓“企业级”只是自嗨。

🧭 真正值得投入的点

  1. chunk 策略:按结构切、设置 overlap、保留元信息,必要时构建双索引(段落+表格)。
  2. 多阶段检索:先 BM25 粗筛、再 embedding 精召回、最后 rerank,必要时引入领域知识图谱。
  3. rerank:使用 cross-encoder、线性重排或规则 rerank,让噪声先滚出去。
  4. query rewrite:对口语化、拼写错误、上下文缺失的问句重写,还可做多视角查询。
  5. 文档融合:设定 evidence 数量、排序、引用格式,避免把多个来源黏成无出处的段落。
  6. evaluation:离线构造黄金问答集,在线埋点统计召回率、命中率、拒答率。
  7. observability:记录 retriever 命中文档、ranker 分数、LLM 最终回答,方便复盘。
  8. 防胡说:引用证据、限制回答模板、设置“检索失败就拒答”的硬规则。

这些才决定一个 RAG 到底能不能上线。

纯吐槽,切勿对号入座。