核心概念知识库

知识库

RAG技术的核心实现

知识库 (Knowledge Base)

知识库是数字员工的"专业书架"。通过 RAG (Retrieval-Augmented Generation) 技术，我们将企业私有的非结构化数据转化为 AI 可理解、可检索的知识资产。

为什么需要知识库？

通用的 LLM（如 GPT-4）拥有广博的世界知识，但它们：

不懂你的企业: 不知道你的产品手册、内部流程或客户案例。
知识滞后: 模型的训练数据有截止日期。
幻觉问题: 在回答事实性问题时可能会一本正经地胡说八道。

知识库通过**"外挂大脑"**的方式解决了上述问题。

处理流程 (ETL Pipeline)

当您上传一份文档到知识库时，平台后台会执行以下标准流水线：

文档解析 (Parsing)
- 提取文本内容。
- 识别文档结构（标题、段落、表格）。
- 支持格式：PDF, Word (.docx), Excel, PowerPoint, Markdown, TXT。
智能切片 (Chunking)
- 将长文档切分为语义完整的片段（Chunk）。
- 策略：不仅基于字符数，还结合自然语言处理识别段落边界，保留上下文重叠 (Overlap)。
向量化 (Embedding)
- 使用 Embedding 模型（如 OpenAI text-embedding-3 或 BGE-M3）将文本片段转化为高维向量。
存储与索引 (Indexing)
- 存入向量数据库 (PostgreSQL + pgvector)。
- 构建 HNSW 索引以支持毫秒级检索。

检索策略

平台采用 混合检索 (Hybrid Search) 策略以保证召回率：

语义检索: 基于向量相似度，即使关键词不完全匹配也能找到相关内容（"价格" ↔ "费用"）。
关键词检索: 传统的 BM25 算法，用于精确匹配专有名词或特定数据。

最佳实践

建议在上传文档前，尽量保持文档结构清晰。对于包含大量数据表格的 Excel/CSV 文件，建议使用专门的"数据分析"技能而非存入通用文本知识库。

应用场景

AI 客服: 上传产品说明书、FAQ，让机器人准确回答用户咨询。
GEO 营销: 上传品牌白皮书、过往优秀文案，让 AI 学习品牌调性。
内部助手: 上传员工手册、报销流程，方便员工自助查询。

Previous

技能系统

Next

RPA集成

On this page

知识库 (Knowledge Base)为什么需要知识库？处理流程 (ETL Pipeline)检索策略应用场景