如何用AI创建虚拟博主？声音克隆+数字人实战教程

《AI创作工坊(第2期)：我如何零基础，用AI声音克隆和数字人，创建了一个虚拟“读书博主”？》

欢迎回到我们的《AI创作工坊》第二期。

在上一期，我们一起为一家“不存在的书店”——“字间宇宙”，赋予了完整的视觉生命。我们有了Logo，有了色彩，有了品牌的气质。但一个品牌，尤其是关于“书”的品牌，只有视觉是不够的，它还需要一个能与读者沟通、分享思想的“灵魂”。

于是，我产生了一个新的、更大胆的想法：我能否为这家书店，创造一位“不存在的”主理人、一位永不疲倦的虚拟“读书博主”？

你是不是也有过这样的念头？

你想做一个视频博主（Vlogger），分享你对电影、书籍、生活的热爱，但一想到要把自己的脸暴露在镜头前，一种莫名的“镜头恐惧症”就攫住了你。你担心自己的外貌不够出众，担心自己的声音不够好听，担心在镜头前会紧张得说不出话。

或者，你是一个内向的人，你热爱分享，但你更希望能在一个“虚拟形象”的面具之下，更自由、更没有负担地表达自己。

再或者，你根本没有时间去化妆、布光、拍摄、剪辑……你只想把精力，完全投入到内容的“思想”本身。

在过去，这些障碍，足以让99%的创作念头，胎死腹中。

但现在，AI给了我们一种全新的、近乎于“魔法”的可能性。它让我们，第一次可以将“思想”与“肉身”分离开来。它允许我们，在不暴露自己任何个人物理特征的情况下，创造一个能替我们发声、替我们出镜的“虚拟分身”。

今天，就让我为你完整地记录，我是如何在一个周末的时间里，零基础、零成本地，为我们的“字间宇宙”书店，创造出它的第一位虚拟读书博主——“书雨”。

Table of Contents

第一步：声音的“复刻”——克隆一个有温度的嗓音

一个博主的灵魂，首先在于她的声音。我不想要那种冰冷的、一听就是机器合成的“AI播报腔”。我希望“书雨”的声音，是独特的，是温暖的，是能让人安静下来的。我希望，她能用“我”的声音说话。

我的工具：当今最强大的AI声音克隆与生成工具——ElevenLabs。

它的免费额度，足够我们创造并使用一个自定义的声音。

这个过程，比你想象的要简单得多，甚至带有一种神圣的仪式感：

准备“声音样本”： 我找了一个安静的房间，打开手机的录音机，选择了一段我很喜欢的、关于阅读的散文，然后用我最自然、最放松、最充满感情的语调，朗读了大约5分钟。这份录音，就是我声音的“DNA样本”。
上传并克隆： 我登录ElevenLabs，进入它的“Voice Lab”（声音实验室），选择“Instant Voice Cloning”（即时声音克隆）。我上传了刚才那段5分钟的录音，给这个声音命名为“Shu Yu’s Voice”，然后点击“生成”。
见证奇迹： 大约一分钟后，我的声音“克隆体”就诞生了。我颤抖着在文本框里，打下了一行字：“你好，世界。” 然后点击播放。

那一刻的感觉，难以言喻。从音箱里传出的，确确实实是“我”的声音，但它说的，却是我从未亲口说过的话。那种熟悉又陌生的感觉，让我第一次真切地体会到，AI是如何将一个人的生物特征“数字化”的。我的声音，从此变成了一段可以被随时调用的代码。

第二幕：形象的“捏造”——创造一个过目不忘的面孔

有了声音，我的虚拟博主“书雨”，还需要一张能代表“字间宇宙”书店气质的脸。

我的工具：我的首席“角色概念艺术家”——Midjourney。

为了让“书雨”的形象能够长期保持统一（这是我们上一篇文章的核心主题），我需要先为她撰写一份详尽的“人物设定Prompt”。

我的“书雨”核心Prompt： 一张“书雨”的超写实照片，她是一位28岁的虚拟读书博主，留着带有几缕蓝色挑染的黑色长发，眼神智慧而温柔，戴着一副简约的金属细框眼镜，身穿一件舒适的米色高领毛衣，正坐在一间灯光温暖、背景是巨大书架的图书馆里，神情专注。

我用这个核心Prompt，生成了一张我非常满意的“书雨”的正面标准像。这张图，将成为我们接下来所有创作的“母版”和“基因来源”。

接着，我利用上一篇文章里提到的“垫图”技巧，以这张标准像为参考，为“书雨”生成了另外几张不同情绪和姿态的“写真”——一张在微笑，一张在认真地做笔记，一张在窗边凝望。

现在，“书雨”不仅有了声音，还有了具体的、统一的、令人信服的形象。

第三幕：思想的“注入”——撰写第一期读书分享稿

万事俱备，现在需要为“书雨”的第一期节目，注入真正的“思想”——也就是，稿子。

我的工具：我的“金牌编剧”——ChatGPT。

为了让节目内容更有深度，我决定让她分享一本我自己非常喜欢的科幻小说——《三体》。

我的Prompt： “你现在就是‘书雨’，一位知性、温柔、能将复杂概念用诗意语言讲清楚的读书博主。你的观众，是那些热爱深度阅读和思考的年轻人。请你为你的第一期视频节目，撰写一份3分钟左右的、关于《三体》的读书分享脚本。要求：开头要有一个能瞬间抓住人心的引子，中间要有一个你自己独特的解读角度，结尾要向观众提出一个能引发他们思考和讨论的开放性问题。”

几分钟后，一篇完美的脚本就诞生了。它不仅逻辑清晰，而且遣词造句完全符合我为“书雨”设定的知性人设。我只需要做一些微小的修改，就能直接进入下一步。

第四幕：生命的“合成”——生成最终的视频

这是最激动人心的一步，我们将把声音、形象、思想，三位一体，合成一个“活生生”的、正在说话的“书雨”。

我的工具：我的“虚拟人合成导演”——HeyGen。

HeyGen是一款强大的AI数字人视频平台，它的免费额度可以让你生成几分钟的短视频，足够我们完成第一期节目。

它的工作流，堪称“魔法”：

上传“演员”： 我进入HeyGen的后台，选择“照片阿凡达”（Photo Avatar）功能，然后把我用Midjourney生成的那张“书雨”的正面标准像，上传了上去。HeyGen的AI算法，在几分钟内，就让这张静态的照片，拥有了能说话、能做微表情的“生命”。
上传“声音”： 我把我用ElevenLabs克隆好的“书雨”的声音，也就是我自己的声音，生成了一段完整的、念诵《三体》分享稿的音频文件，然后把它上传到HeyGen里。
开始“合成”： 最后一步，我把“书雨”的形象和我的声音，进行匹配。HeyGen的AI会自动分析音频的起伏和停顿，然后驱动“书雨”的嘴唇、头部、甚至眼神，做出极其逼真、自然的动作。

当我点击“生成视频”，等待几分钟后，我下载到了一个让我起鸡皮疙瘩的文件。视频里，“书雨”正坐在她的书房里，用“我”的声音，看着镜头，侃侃而谈地分享着她对《三体》的理解。她会眨眼，会点头，会在说到关键处，微微地扬起嘴角。

那一刻，我知道，她“活”了。

我把这段核心的“人物说话”视频，导入到免费的剪辑软件**剪映 (CapCut)里，为她配上了一些由Midjourney生成的、与《三体》相关的概念图作为过场画面，并用Suno**为她生成了一段空灵、神秘的背景音乐。

就这样，我的第一个“虚拟博主”——“书雨”，正式诞生了。

整个过程，我没有打开过一次相机，没有布置过一次灯光，甚至没有亲口念过一句最终的台词。我所做的，只是提出构想，下达指令，然后进行审美上的“选择”与“组合”。

这背后开启的可能性，是巨大的。

它意味着，那些因为外貌、声音、或者镜头恐惧而不敢表达自己的创作者，有了一个全新的、安全的“身份面具”。它意味着，那些没时间打理形象的专业人士，可以把自己的思想，注入到一个永远得体、不知疲倦的“虚拟分身”里，去7x24小时地分享知识。

它让“内容创作”，前所未有地，回归到了它的本质——思想。

当然，这也带来了一系列关于“真实性”和“伦理”的深刻问题，值得我们警惕和探讨。但今天，作为《AI创作工坊》的一名“工匠”，我更想让你看到的，是那扇被AI一脚踹开的、通往“无限创意可能”的大门。

现在，轮到你了。如果，你也可以创造一个“虚拟分身”，你希望“他”或“她”，拥有什么样的声音、什么样的面孔，去替你向这个世界，说些什么呢？

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

{{userData.name}}已认证

《AI创作工坊(第2期)：我如何零基础，用AI声音克隆和数字人，创建了一个虚拟“读书博主”？》

第一步：声音的“复刻”——克隆一个有温度的嗓音

第二幕：形象的“捏造”——创造一个过目不忘的面孔

第三幕：思想的“注入”——撰写第一期读书分享稿

第四幕：生命的“合成”——生成最终的视频

AI视频制作教程：普通人如何零成本“拍”出科幻大片？

《Autocut.video实战评测：它真是你一直在找的“自动剪辑神器”吗？》

AI环保先锋：智能技术如何守护我们的地球家园

AI法律助手：如何用智能工具保护你的合法权益

AI旅行规划师：重新定义你的每一次完美出行

AI家居革命：如何用智能技术打造你的未来生活空间

AI宠物管家：智能科技如何重新定义宠物养育体验