Little Bun

【吐槽】大模型太强了，以至于很多人感觉自己行了

2025-12-10 4 min

目录

AI 总结

$

|

文章总结图

📐 教程的共同套路

跟着官方示例走一遍 → 跑起来了 → 发布战报。
文档随便往里塞，chunk 尺寸抄默认。
top-k 恒定 5，无论语料规模、问题类型都不调。
embedding 选型思路没有，检索日志也不看。
不 rerank、不 query rewrite、不谈 evaluation。
不讲 error case，只会贴一句 “pip install 一下即可。”

最后确实能跑，但仅限于“能返回点字”。

🔥 真正的痛点都被跳过了

chunk 怎么切才不丢信息？是按段落、标题，还是结构化字段？有没有做 overlap？
如何减少噪声检索？有没有 metadata 过滤、domain boost、负样本训练？
混合检索（BM25 + embedding）怎么配权？召回失败时 fallback 是什么？
需不需要 rerank？是多模态 cross-encoder 还是轻量 ranker？
召回率如何提升？有没有增量构建、领域术语扩展？
多文档融合顺序？是否做 vote / merge-and-reweight？
用户问句何时改写？意图不明时是否加 Clarification？
最终回答如何 grounding？有没 cite chunk、可追溯的 evidence？
衡量好坏靠什么？有没有离线 benchmark、在线 A/B、error log？

这些才是 RAG 的核心，教程基本一字不提。

🏢 “企业级”标题党更离谱

我看到不少号称企业级 RAG 的项目：

chunk 策略没有，仍旧“每 500 字切一刀”。
rerank 没有，多阶段检索也没有。
多文档处理没有，query rewrite 没有。
metadata 过滤、结构化知识融合统统缺席。

跑出来的效果跟“PDF 搜索 + LLM 总结”没区别，但标题写得比方案还飞。

🔍 没评测 = 没上线资格

真正该写的，是评测与观测：

召回率到底多少？分数据域拆开了吗？
捞不到内容时模型会怎么答？有没有 fallback、拒答策略？
噪声 chunk 比例多大？排序器真有效吗？
文档融合会不会把章节搅成粥？
prompt 有没有引导引用来源、限制胡说八道？
哪类问题最容易翻车？操作手册、政策、数值还是实时信息？

没有这些指标，所谓“企业级”只是自嗨。

🧭 真正值得投入的点

chunk 策略：按结构切、设置 overlap、保留元信息，必要时构建双索引（段落 + 表格）。
多阶段检索：先 BM25 粗筛、再 embedding 精召回、最后 rerank，必要时引入领域知识图谱。
rerank：使用 cross-encoder、线性重排或规则 rerank，让噪声先滚出去。
query rewrite：对口语化、拼写错误、上下文缺失的问句重写，还可做多视角查询。
文档融合：设定 evidence 数量、排序、引用格式，避免把多个来源黏成无出处的段落。
evaluation：离线构造黄金问答集，在线埋点统计召回率、命中率、拒答率。
observability：记录 retriever 命中文档、ranker 分数、LLM 最终回答，方便复盘。
防胡说：引用证据、限制回答模板、设置“检索失败就拒答”的硬规则。

这些才决定一个 RAG 到底能不能上线。

纯吐槽，切勿对号入座。