核心概念知识库
知识库
RAG技术的核心实现
知识库 (Knowledge Base)
知识库是数字员工的"专业书架"。通过 RAG (Retrieval-Augmented Generation) 技术,我们将企业私有的非结构化数据转化为 AI 可理解、可检索的知识资产。
为什么需要知识库?
通用的 LLM(如 GPT-4)拥有广博的世界知识,但它们:
- 不懂你的企业: 不知道你的产品手册、内部流程或客户案例。
- 知识滞后: 模型的训练数据有截止日期。
- 幻觉问题: 在回答事实性问题时可能会一本正经地胡说八道。
知识库通过**"外挂大脑"**的方式解决了上述问题。
处理流程 (ETL Pipeline)
当您上传一份文档到知识库时,平台后台会执行以下标准流水线:
-
文档解析 (Parsing)
- 提取文本内容。
- 识别文档结构(标题、段落、表格)。
- 支持格式:PDF, Word (.docx), Excel, PowerPoint, Markdown, TXT。
-
智能切片 (Chunking)
- 将长文档切分为语义完整的片段(Chunk)。
- 策略:不仅基于字符数,还结合自然语言处理识别段落边界,保留上下文重叠 (Overlap)。
-
向量化 (Embedding)
- 使用 Embedding 模型(如 OpenAI text-embedding-3 或 BGE-M3)将文本片段转化为高维向量。
-
存储与索引 (Indexing)
- 存入向量数据库 (PostgreSQL + pgvector)。
- 构建 HNSW 索引以支持毫秒级检索。
检索策略
平台采用 混合检索 (Hybrid Search) 策略以保证召回率:
- 语义检索: 基于向量相似度,即使关键词不完全匹配也能找到相关内容("价格" ↔ "费用")。
- 关键词检索: 传统的 BM25 算法,用于精确匹配专有名词或特定数据。
最佳实践
建议在上传文档前,尽量保持文档结构清晰。对于包含大量数据表格的 Excel/CSV 文件,建议使用专门的"数据分析"技能而非存入通用文本知识库。
应用场景
- AI 客服: 上传产品说明书、FAQ,让机器人准确回答用户咨询。
- GEO 营销: 上传品牌白皮书、过往优秀文案,让 AI 学习品牌调性。
- 内部助手: 上传员工手册、报销流程,方便员工自助查询。