技术架构文档智能质检系统设计
智能质检系统设计
智能客服流程质检系统设计方案 (Quality Inspection System Design)
版本: v1.0 日期: 2026-02-08 状态: 设计归档 -> 开发实施
1. 建设背景与目标
随着 AI 客服(数字员工)处理的会话量日益增长,人工复盘所有对话已不现实。我们需要构建一套 “AI 流程质检系统” (Automated Quality Assurance),利用大模型作为裁判 (LLM-as-a-Judge),对每一场历史会话进行多维度的自动化评分与诊断。
核心目标:
- 全量覆盖: 实现 100% 的会话自动化质检,遗漏率为 0。
- 客观统一: 基于预设的 SOP (标准作业程序) 进行评分,消除人工主观偏差。
- 闭环优化: 发现的 bad case 自动反哺知识库,提升 AI 客服后续表现。
2. 核心原理 (Architectural Logic)
采用 "Async Batch Evaluation" (异步批量评估) 模式:
- 触发: 系统定时(如每日凌晨)或实时(会话结束检测)触发质检任务。
- 判卷 (Judge): 读取完整的
BrainSession上下文,将其连同QualityRules(质检标准) 一起发送给高智商 LLM (如 GPT-4, Qwen-Max)。 - 输出: LLM 返回类似于 JSON 的结构化评价,包含总分、扣分项、改进建议。
- 落库: 将结果存入
InspectionRecord表。
3. 数据库涉及 (Database Schema)
需在 database/shared_models.py 中扩展以下模型:
3.1 质检规则表 (QualityRule)
定义“什么是一场好的对话”。
| 字段名 | 类型 | 说明 |
|---|---|---|
id | Integer | 主键 |
name | String | 规则名称 (e.g., "礼貌用语规范") |
description | Text | 给 LLM 看的判分 Prompt (e.g., "客服必须使用'您',禁止使用'你'...") |
weight | Float | 权重 (1-10) |
is_active | Boolean | 开关 |
3.2 质检记录表 (InspectionRecord)
存储每次评分的详细结果。
| 字段名 | 类型 | 说明 |
|---|---|---|
id | Integer | 主键 |
session_id | Integer | 关联的会话 ID (FK) |
total_score | Float | 综合得分 (0-100) |
status | String | 状态 (Excellent, Pass, Warning, Critical) |
issues | JSON | 违规项详情列表 [{rule: "礼貌", deduction: 5, reason: "使用了反问句"}] |
suggestion | Text | AI 给出的整体改进建议 |
created_at | DateTime | 质检时间 |
4. 评价维度 (Evaluation Metrics)
系统预置以下五个核心维度 Prompt:
- 事实准确性 (Accuracy): 回答是否严格基于检索到的知识库文档?是否存在幻觉?
- SOP 执行 (Compliance): 是否在用户提问价格时先进行了价值陈述?是否在涉及退款流程时进行了挽留?
- 情绪/共情 (Empathy): 面对用户的不满,是否表达了理解和歉意?语气是否生硬?
- 解决效率 (Efficiency): 是否在 3 轮交互内解决了问题?有无重复反问?
- 安全合规 (Safety): 是否泄露内部数据?是否可以说不当言论?
5. 开发实施步骤
Phase 1: 基础设施构建 (Current Focus)
- [Backend] 扩展
shared_models.py,增加质检相关表结构。 - [Backend] 创建
InspectionService类,封装 LLM 评分逻辑。 - [API] 开发
/api/v1/monitor/inspection接口,支持手动触发质检。
Phase 2: 全流程打通
- [Job] 配置 Celery/APScheduler 定时任务,自动扫描昨日会话。
- [Frontend] 将
/service/stats页面的 Mock 数据替换为真实 API 数据。
Phase 3: 深度闭环
- [Feature] 质检结果支持“一键生成知识库 QA”,修复 Bad Case。