数字人模块设计方案 (Digital Human Module Design)

1. 产品定位与核心价值

将【数字人 (Digital Human)】定位为 “AI 视觉与媒体工厂”，与【数字员工 (Digital Employee)】的“业务执行者”定位进行解耦。

核心价值在于解决内容生产的工业化、自动化、一致性问题，并提供7x24小时无人直播能力。

2. 核心功能规划 (Product Features)

模块一：AI 视频创作流水线 (AI Video Production Pipeline)

目标：从一个灵感（Idea）到成品视频的端到端生产。

功能层级	核心功能点	业务价值
策划层	智能脚本与分镜 (Script & Storyboard)- 基于主题/商品生成不仅包含台词，还包含画面描述(Prompt)、运镜指令(Camera) 的结构化脚本。- 自动拆解分镜头，生成静态分镜草图 (Storyboard)。	解决“不知道拍什么”的问题，确立视频骨架。
资产层	角色一致性管理 (Identity Consistency)- 数字人克隆：上传少量真人视频/照片，训练 LoRA 或提取 IP-Adapter 特征，确保生成角色的长相、服装、神态高度统一。- 声音复刻：提取音色特征 (Timbre)，实现高质量声音克隆。	解决“每一帧脸都不一样”的 AI 视频通病。
生成层	高保真视频生成 (High-Fidelity Generation)- 文生视频/图生视频：基于分镜图生成动态片段 (I2V)，控制动作幅度。- 口型同步 (Lip-Sync)：驱动静态/动态人脸与音频严格对齐。- 场景融合：人像与虚拟背景、商品图的自然合成。	这是核心生产力，替代实拍与后期剪辑。
后期层	自动化剪辑 (Auto-Editing)- 自动配乐、字幕对齐、转场特效合成。	输出成品，直接可用。

模块二：数字人无人直播间 (AI Live Streaming Station)

目标：7x24小时带货/宣讲、实时互动、低成本运营。

功能层级	核心功能点	业务价值
场控层	智能场控 (Director Agent)- 剧本编排：设计“开场白-产品介绍-互动问答-促单-结束语”的循环剧本。- 场景切换：根据讲解内容自动切换背景图、贴片广告、近景特写。	控制直播节奏，避免枯燥。
互动层	实时弹幕互动 (Live Interaction)- 监听直播间弹幕，检索知识库 (RAG)，生成回复并实时驱动数字人语音回答。- 情绪驱动：根据弹幕氛围（如很多用户刷“下单了”），触发激动的肢体动作与表情。	提升留存率与转化率。
推流层	虚拟推流引擎 (Virtual Stream Engine)- 支持 RTMP/SRT 协议推流至抖音、快手、视频号。- 绿幕抠像合成、画中画展示。	兼容主流直播平台。

3. 技术解决方案 (Solution Design)

为了实现上述高度复杂的功能，单一的模型无法满足，必须构建 “工作流编排系统”。

核心架构图

graph TD
    User[用户] --> FE[前端创作台<br>(Web Console)]
    FE --> API[后端服务<br>(Digital Brain)]
    
    subgraph "视频创作流水线 (Offline Pipeline)"
        API --> ScriptAgent[编剧 Agent<br>(LLM: 分镜撰写)]
        ScriptAgent --> SD[图像生成<br>(ComfyUI/SDXL)]
        SD --"ControlNet/IP-Adapter"--> Consistent[一致性控制]
        Consistent --> I2V[视频生成<br>(SVD/AnimateDiff/Runway)]
        ScriptAgent --> TTS[语音合成<br>(CosyVoice/GPT-SoVITS)]
        I2V & TTS --> LipSync[口型驱动<br>(MuseTalk/Wav2Lip-HQ)]
        LipSync --> Editor[自动剪辑<br>(FFmpeg/MoviePy)]
    end
    
    subgraph "无人直播引擎 (Real-time Engine)"
        Stream[直播流服务器<br>(SRS/OBS)]
        Comment[弹幕监听器] --> Brain[互动大脑]
        Brain --> Stream
        Stream --"合成画面"--> Platforms[抖音/B站/视频号]
    end

4. 具体技术路径与选型 (Technical Path)

A. 视频创作：解决“一致性”与“流程化”

一致性解决方案 (The Consistency Problem)
- 核心技术: Stable Diffusion + IP-Adapter + ControlNet。
- 路径:
  - 训练一个基础的 LoRA 模型（针对特定 IP 形象）。
  - 在生成每一帧/每个分镜时，使用 IP-Adapter (FaceID) 强约束面部特征。
  - 使用 ControlNet (OpenPose/Depth) 控制角色的动作姿态，确保动作准确（如“手指指向商品”）。
- 实现方式: 后端集成或调用 ComfyUI API。ComfyUI 是目前最适合构建这种复杂工作流的后端引擎，支持节点式编排，易于复用 Save/Load 工作流。
动作与口型生成 (Motion & Lip-Sync)
- 方案一 (高质量慢速): 使用 SadTalker 或 Wav2Lip-HQ 生成头部运动和口型。
- 方案二 (全身驱动): 使用 AnimateDiff 或 MagicAnimate，结合参考视频 (Reference Video) 驱动静图动起来。
- 音频: 部署 GPT-SoVITS (当前开源效果最佳的少样本克隆模型) 或 CosyVoice。
自动化剪辑 (Auto-Editing)
- 使用 Python 的 MoviePy 库或直接调用 FFmpeg 命令行。
- 将生成的 Video Clips + Audio + Subtitles (.srt) + BGM 按时间轴拼接。

B. 直播系统：解决“实时性”与“互动”

直播推流 (Streaming)
- 并不需要实时渲染 3D 模型（成本太高）。
- 技术路径: “预生成素材 + 实时插播” 混合模式。
  - 闲时: 循环播放高质量预生成的“讲解视频”。
  - 问答时: 快速生成“短回复视频” (利用 MuseTalk 这种实时性好的口型模型) 或仅切换为“通用倾听动作”+“TTS语音”。
- 推流工具: 使用 FFmpeg 将合成的画面推送到 RTMP 服务器。
互动中枢 (Interaction Brain)
- 弹幕抓取: 针对不同平台编写爬虫/WebSocket监听脚本 (或使用开源项目如 DouyinLiveRecorder 的弹幕模块)。
- 决策: 当捕获关键词（“多少钱”、“怎么卖”）时，打断当前播放队列，优先插入“价格回复”片段。

5. 落地步骤建议 (Implementation Steps)

建议优先攻克 “视频生成流水线”，因为这是直播功能素材的来源。

Phase 1: 搭建 AIGC 媒体引擎 (Media Engine)

后端: 在 services/digital-brain 下新建 media_engine 模块。
集成: 部署一个 ComfyUI 服务作为图像/视频渲染后端。
开发: 编写 Python 脚本调用 ComfyUI API，实现 Text -> List[Images] 的分镜生成功能。

Phase 2: 开发“创作工坊”前端

脚本编辑器: 左侧写文案，右侧自动拆解为分镜卡片。
角色训练: 上传头像，后端调用训练/提取特征接口，保存为“数字资产”。
渲染队列: 提交生成任务，展示进度条，预览生成的视频片段。

Phase 3: 直播推流工具

播放列表管理: 将 Phase 2 生成的视频排列组合。
FFmpeg 推流: 实现一个后台进程，按顺序读取视频文件并推流到指定 RTMP 地址。

数字人模块设计方案 (Digital Human Module Design)

On this page