思渡AI Logo
核心概念知识库

知识库

RAG技术的核心实现

知识库 (Knowledge Base)

知识库是数字员工的"专业书架"。通过 RAG (Retrieval-Augmented Generation) 技术,我们将企业私有的非结构化数据转化为 AI 可理解、可检索的知识资产。

为什么需要知识库?

通用的 LLM(如 GPT-4)拥有广博的世界知识,但它们:

  1. 不懂你的企业: 不知道你的产品手册、内部流程或客户案例。
  2. 知识滞后: 模型的训练数据有截止日期。
  3. 幻觉问题: 在回答事实性问题时可能会一本正经地胡说八道。

知识库通过**"外挂大脑"**的方式解决了上述问题。

处理流程 (ETL Pipeline)

当您上传一份文档到知识库时,平台后台会执行以下标准流水线:

  1. 文档解析 (Parsing)

    • 提取文本内容。
    • 识别文档结构(标题、段落、表格)。
    • 支持格式:PDF, Word (.docx), Excel, PowerPoint, Markdown, TXT。
  2. 智能切片 (Chunking)

    • 将长文档切分为语义完整的片段(Chunk)。
    • 策略:不仅基于字符数,还结合自然语言处理识别段落边界,保留上下文重叠 (Overlap)。
  3. 向量化 (Embedding)

    • 使用 Embedding 模型(如 OpenAI text-embedding-3 或 BGE-M3)将文本片段转化为高维向量。
  4. 存储与索引 (Indexing)

    • 存入向量数据库 (PostgreSQL + pgvector)。
    • 构建 HNSW 索引以支持毫秒级检索。

检索策略

平台采用 混合检索 (Hybrid Search) 策略以保证召回率:

  • 语义检索: 基于向量相似度,即使关键词不完全匹配也能找到相关内容("价格" ↔ "费用")。
  • 关键词检索: 传统的 BM25 算法,用于精确匹配专有名词或特定数据。
最佳实践

建议在上传文档前,尽量保持文档结构清晰。对于包含大量数据表格的 Excel/CSV 文件,建议使用专门的"数据分析"技能而非存入通用文本知识库。

应用场景

  • AI 客服: 上传产品说明书、FAQ,让机器人准确回答用户咨询。
  • GEO 营销: 上传品牌白皮书、过往优秀文案,让 AI 学习品牌调性。
  • 内部助手: 上传员工手册、报销流程,方便员工自助查询。