思渡AI 文档中心

产品简介

数字人梦工厂 (Digital Human Dream Factory) 致力于解决企业在短视频制作与直播带货中的“拍摄难、出镜难、成本高”等痛点。通过 AI 技术生成的超写实 3D 数字人与 2D 虚拟主播，不仅形象逼真、口型准确，更能实现 7x24 小时不间断的直播互动。

核心价值

产能革命: 无需真人出镜、无需搭建影棚、无需复杂后期，仅需一段文本或语音，即可生成高质量的口播视频。

核心能力

1. 视频内容生成

文生视频 (Text-to-Video): 输入营销文案，选择预置的模特形象与声音，分钟级生成口播短视频。
多语言适配: 支持中、英、日、韩等 20+ 种语言的唇形驱动，助力品牌出海。

2. 7x24h 直播带货

自动直播: 数字主播不知疲倦，全天候在抖音、TikTok 等平台进行商品讲解与带货。
实时互动: 连接 LLM 大脑，能够实时识别直播间弹幕，并进行生动的语音回复与情绪表达。

3. 形象定制 (Avatar Clone)

真人复刻: 支持 2D 视频克隆（仅需 5 分钟真人出镜视频素材）与 3D 高精度建模，快速训练出 1:1 的数字分身。
声音克隆: 高保真还原真人的音色、语调与说话习惯。

4. 数字资产与模型库 (Digital Assets & Roster)

丰富模型库: 平台目前已收录超过 128 款超写实 3D 与高保真 2D 通用数字人模型，涵盖不同年龄、职业、风格，每月持续上新。
自定义资产管理: 提供安全隔离的企业专属资产存储库，支持团队协作与细颗粒度权限分配。统一管理克隆出的 2D/3D 数字人模型、克隆声音资源、专属企业知识库和直播/视频背景素材资源。

5. API 与生态集成

灵活接入: 提供全套 OpenAPI，方便企业将数字人视频合成、实时对话能力低代码接入到自己的 CRM、OA 或对客小程序中。

应用场景

品牌自播

品牌不再受限于主播排班，使用数字人填补深夜流量空窗期，实现全时段覆盖。

知识付费 / 培训

讲师录制一次课程后，可使用数字分身快速生成后续的更新内容，极大降低课程制作成本。

本地生活推广

批量生成数百条针对不同门店、不同套餐的探店视频，通过矩阵账号分发获取同城流量。

政务解说与客服

应用于政务服务大厅的大屏设备与便民程序中，提供生动、专业的政策解说与全天候政务引导服务，提升窗口工作效率。

产品使用指南

1. 形象克隆 (Clone)

拍摄素材: 请真人在纯色背景下，正对镜头朗读一段 5 分钟的文案。保持头部不动，口型夸张清晰。
训练与部署: 上传素材至“形象工场”。系统会自动训练声音和面部模型（约需 2 小时）。训练完成后，该形象即可在“主播库”中选用。

1.5 声音克隆 (Voice Clone)

极速复刻: 仅需录制及上传 3-5 分钟干净、清晰的无杂音人声干音音频。
情感与语调支持: 生成的专有音色可在文本驱动时自动带入情绪标注（如：开心、悲伤、严厉等），使播报声情并茂。
多语言兼容: 一次中文声音克隆，可通过跨语种合成技术，使用该克隆音色讲流利的英文、日文、支持出海业务。

2. 视频制作 (Studio)

新建项目: 选择横屏 (16:9) 或竖屏 (9:16) 画布。
拖拽式编辑 (Drag-and-Drop Studio): 在可视化数字人工作台中，用户可通过拖拽轻松排版视频背景、数字人尺寸、前景挂件及贴纸，实现“所见即所得”的内容制作。
驱动模式:
- 文本驱动: 输入文案，调整语速、停顿。
- 音频驱动: 上传录好的真人音频，数字人仅匹配口型（适合对情绪要求极高的场景）。
背景装修: 添加背景图、前景贴纸（如：限时折扣）、背景音乐。

3. 直播间搭建

选品配置: 在直播控制台添加商品卡片，关联讲解话术。
互动规则: 配置“关键词回复”。当弹幕出现“多少钱”时，数字人优先回复价格话术；当没人提问时，轮播商品讲解。

4. 开放 API 与开发者集成

平台不仅提供开箱即用的前端控制台，还为企业开发者提供丰富的后端能力支持：

RESTful API 接口: 支持通过接口唤起“文本转视频”、“语音转视频”的渲染任务，并能够通过 Webhook 异步接收生成结果。
实时流媒体交互 (Live Streaming API): 支持构建基于 WebSocket 或 WebRTC 的实时数字人对话应用，可无缝对接到您的专属小程序、App 或线下大屏中。
SDK 支持: 提供前端多端播放器 SDK，支持数字人透明通道 (Alpha Channel) 在 Web 及原生客户端的高效渲染与播放。

5. 数据面板与分析 (Analytics)

互动数据统计: 统计直播中的有效弹幕数、AI 回复频次及触发关键词的次数，帮助复盘直播效果。
资产消耗报表: 清晰展示视频渲染时长、API 调用次数及存储容量，方便团队管理者进行成本核算与配额管理。

控制台(Console)操作使用手册

前往数字人控制台 (本地开发环境为 localhost:3001) 体验全链路的数字人生成服务。

1. 概览大盘 (Dashboard)

控制台首页为您展示了核心的数据概览与快捷入口：

快捷操作区: 一键进入“生成视频”、“创建数字人”、“声音克隆”等高频功能。
数据统计: 直观展示您的视频总时长、剩余算力额度和 API 调用等数据。
近期作品: 快速查看最近合成的视频任务状态（渲染中/失败/已完成）。

2. 我的视频 (Videos)

在 /digital-human/videos 页面下管理您的所有视频产出：

任务状态监控: 实时跟踪正在“渲染中”的视频进度。
在线预览与下载: 对已完成的视频提供在线播放器预览，支持将最终视频下载至本地（支持含有透明通道的视频格式）。
视频草稿箱: 能够对尚未完成配置的存钱视频工程进行存档，以便随时续作。

3. 数字资产管理 (Assets)

在 /digital-human/assets 页面统筹您的各类底层多媒体资源：

公有数字人库: 查阅并使用平台提供的 100+ 公共虚拟主播/数字模特资源。
我的克隆形象: 用户自主提交训练的专属真人克隆模型将出现在此，可直接调用进行视频合成。
我的声音库: 对自定义上传并训练出的情感音色资产及音色标签进行管理与重命名。
专属背景/挂件: 管理企业统一上传使用的直播间背景底图、贴纸、品牌 Logo 印记。

4. 视频工作台 (Studio / 生成视频)

根据不同的创作需求，我们提供了两种不同的视频创作流（Studio）：

4.1 拖拽式人工编辑台 (Manual Studio)

路径: /digital-human/studio/manual 为对视频画面排版要求较高的用户提供“所见即所得”的画板界面：

画面布局: 自由设定视频分辨率（横屏 / 竖屏），通过拖放交互将数字人资产布置在画面的任意位置及层级中。
文字 / 音频输入: 在数字人时间轴下配置待播报的文本或上传用户自身提供的人声对口型驱动。
特效叠加: 手动添加背景图、设置转场或者添加前景动态贴纸遮罩等信息，支持逐帧精细控制。

4.2 AI 智能极速生成 (AI Studio)

路径: /digital-human/studio/ai 适合具有大批量同质内容生成、渴望极速变现的用户：

一句话生成: 凭借思渡大模型知识大脑，仅需提供“产品概念”或大纲，一键由 AI 洗稿并生成符合直播逻辑的营销文案脚本。
自动排版组合: 选定主体或声音后，系统自适应推荐背景图片、自动断句并直接交付成片。极大减少人工调试视频的时间成本。

最佳实践

黄金前3秒: 短视频开头务必使用疑问句或强反差画面，留住用户。数字人的表情（如：惊讶、点头）需与文案情绪点对齐。
音频质量: 声音是数字人的灵魂。建议使用专业麦克风录制训练素材，避免环境噪音。
人机混播: 在直播黄金时段（如 20:00-22:00）使用真人主播，其他时段切换为数字人，最大化 ROI。

常见问题 (FAQ)

Q: 数字人说话口型对不上怎么办？
- A: 请确保 TTS 音频清晰无杂音。在“驱动设置”中，调节 Lip Sync Latency（一般设为 -50ms 至 +50ms 微调）。
Q: 直播需要什么样的电脑配置？
- A: 推荐使用 NVIDIA RTX 3060 以上显卡，16GB 内存。如果是推流 4K 画质，建议 RTX 4070 及以上。
Q: 可以导出绿幕视频吗？
- A: 可以。生成视频时选择 Transparent Background (MOV/ProRes) 格式，方便导入 Pr/Ae 进行后期合成。

数字人

On this page