📖 定义
Hallucination(幻觉)是指大型语言模型生成看似合理但实际上是错误的、不真实的或无法验证的信息。这些"幻觉"可能表现为捏造事实、错误的统计数据、不存在的引用、或逻辑上不合理但形式上流畅的陈述。
简单理解:AI就像一个超级自信的销售,它说得头头是道,但内容可能是它"现编"的。
⚙️ 为什么会产生幻觉?
1
训练数据偏差
模型从海量数据学习,可能继承错误信息
→
2
概率预测本质
模型输出的是"最可能的词",而非"正确答案"
→
3
知识边界模糊
模型不知道"不知道什么",会强行生成
🎯 缓解策略
RAG增强
接入外部知识库,提供可溯源的准确信息
事实核查
使用工具验证生成内容的真实性
提示词约束
在Prompt中明确要求"不确定时说不知道"
模型微调
使用高质量数据进行RLHF对齐训练
💻 代码示例
Python - 使用RAG减少幻觉
from langchain.chains import RetrievalQA
from langchain_community.llms import OpenAI
from langchain_community.vectorstores import Chroma
from langchain_community.embeddings import OpenAIEmbeddings
# 构建RAG系统减少幻觉
db = Chroma.from_documents(docs, OpenAIEmbeddings())
qa = RetrievalQA.from_chain_type(
llm=OpenAI(temperature=0), # 低温度减少随机性
chain_type="stuff",
retriever=db.as_retriever(),
return_source_documents=True # 返回来源便于核查
)
# 查询时同时获取来源
result = qa({"query": "量子计算的最新进展?"})
print(result["result"])
print("来源:", result["source_documents"])