《AI创作工坊(第2期):我如何零基础,用AI声音克隆和数字人,创建了一个虚拟“读书博主”?》

《AI创作工坊(第2期):我如何零基础,用AI声音克隆和数字人,创建了一个虚拟“读书博主”?》

欢迎回到我们的《AI创作工坊》第二期。

在上一期,我们一起为一家“不存在的书店”——“字间宇宙”,赋予了完整的视觉生命。我们有了Logo,有了色彩,有了品牌的气质。但一个品牌,尤其是关于“书”的品牌,只有视觉是不够的,它还需要一个能与读者沟通、分享思想的“灵魂”。

于是,我产生了一个新的、更大胆的想法:我能否为这家书店,创造一位“不存在的”主理人、一位永不疲倦的虚拟“读书博主”?


你是不是也有过这样的念头?

你想做一个视频博主(Vlogger),分享你对电影、书籍、生活的热爱,但一想到要把自己的脸暴露在镜头前,一种莫名的“镜头恐惧症”就攫住了你。你担心自己的外貌不够出众,担心自己的声音不够好听,担心在镜头前会紧张得说不出话。

或者,你是一个内向的人,你热爱分享,但你更希望能在一个“虚拟形象”的面具之下,更自由、更没有负担地表达自己。

再或者,你根本没有时间去化妆、布光、拍摄、剪辑……你只想把精力,完全投入到内容的“思想”本身。

在过去,这些障碍,足以让99%的创作念头,胎死腹中。

但现在,AI给了我们一种全新的、近乎于“魔法”的可能性。它让我们,第一次可以将“思想”与“肉身”分离开来。它允许我们,在不暴露自己任何个人物理特征的情况下,创造一个能替我们发声、替我们出镜的“虚拟分身”。

今天,就让我为你完整地记录,我是如何在一个周末的时间里,零基础、零成本地,为我们的“字间宇宙”书店,创造出它的第一位虚拟读书博主——“书雨”。

第一步:声音的“复刻”——克隆一个有温度的嗓音

一个博主的灵魂,首先在于她的声音。我不想要那种冰冷的、一听就是机器合成的“AI播报腔”。我希望“书雨”的声音,是独特的,是温暖的,是能让人安静下来的。我希望,她能用“我”的声音说话。

我的工具:当今最强大的AI声音克隆与生成工具——ElevenLabs

它的免费额度,足够我们创造并使用一个自定义的声音。

这个过程,比你想象的要简单得多,甚至带有一种神圣的仪式感:

  1. 准备“声音样本”: 我找了一个安静的房间,打开手机的录音机,选择了一段我很喜欢的、关于阅读的散文,然后用我最自然、最放松、最充满感情的语调,朗读了大约5分钟。这份录音,就是我声音的“DNA样本”。
  2. 上传并克隆: 我登录ElevenLabs,进入它的“Voice Lab”(声音实验室),选择“Instant Voice Cloning”(即时声音克隆)。我上传了刚才那段5分钟的录音,给这个声音命名为“Shu Yu’s Voice”,然后点击“生成”。
  3. 见证奇迹: 大约一分钟后,我的声音“克隆体”就诞生了。我颤抖着在文本框里,打下了一行字:“你好,世界。” 然后点击播放。

那一刻的感觉,难以言喻。从音箱里传出的,确确实实是“我”的声音,但它说的,却是我从未亲口说过的话。那种熟悉又陌生的感觉,让我第一次真切地体会到,AI是如何将一个人的生物特征“数字化”的。我的声音,从此变成了一段可以被随时调用的代码。

第二幕:形象的“捏造”——创造一个过目不忘的面孔

有了声音,我的虚拟博主“书雨”,还需要一张能代表“字间宇宙”书店气质的脸。

我的工具:我的首席“角色概念艺术家”——Midjourney

为了让“书雨”的形象能够长期保持统一(这是我们上一篇文章的核心主题),我需要先为她撰写一份详尽的“人物设定Prompt”。

我的“书雨”核心Prompt: 一张“书雨”的超写实照片,她是一位28岁的虚拟读书博主,留着带有几缕蓝色挑染的黑色长发,眼神智慧而温柔,戴着一副简约的金属细框眼镜,身穿一件舒适的米色高领毛衣,正坐在一间灯光温暖、背景是巨大书架的图书馆里,神情专注。

我用这个核心Prompt,生成了一张我非常满意的“书雨”的正面标准像。这张图,将成为我们接下来所有创作的“母版”和“基因来源”。

接着,我利用上一篇文章里提到的“垫图”技巧,以这张标准像为参考,为“书雨”生成了另外几张不同情绪和姿态的“写真”——一张在微笑,一张在认真地做笔记,一张在窗边凝望。

现在,“书雨”不仅有了声音,还有了具体的、统一的、令人信服的形象。

第三幕:思想的“注入”——撰写第一期读书分享稿

万事俱备,现在需要为“书雨”的第一期节目,注入真正的“思想”——也就是,稿子。

我的工具:我的“金牌编剧”——ChatGPT

为了让节目内容更有深度,我决定让她分享一本我自己非常喜欢的科幻小说——《三体》。

我的Prompt: “你现在就是‘书雨’,一位知性、温柔、能将复杂概念用诗意语言讲清楚的读书博主。你的观众,是那些热爱深度阅读和思考的年轻人。请你为你的第一期视频节目,撰写一份3分钟左右的、关于《三体》的读书分享脚本。要求:开头要有一个能瞬间抓住人心的引子,中间要有一个你自己独特的解读角度,结尾要向观众提出一个能引发他们思考和讨论的开放性问题。”

几分钟后,一篇完美的脚本就诞生了。它不仅逻辑清晰,而且遣词造句完全符合我为“书雨”设定的知性人设。我只需要做一些微小的修改,就能直接进入下一步。

第四幕:生命的“合成”——生成最终的视频

这是最激动人心的一步,我们将把声音、形象、思想,三位一体,合成一个“活生生”的、正在说话的“书雨”。

我的工具:我的“虚拟人合成导演”——HeyGen

HeyGen是一款强大的AI数字人视频平台,它的免费额度可以让你生成几分钟的短视频,足够我们完成第一期节目。

它的工作流,堪称“魔法”:

  1. 上传“演员”: 我进入HeyGen的后台,选择“照片阿凡达”(Photo Avatar)功能,然后把我用Midjourney生成的那张“书雨”的正面标准像,上传了上去。HeyGen的AI算法,在几分钟内,就让这张静态的照片,拥有了能说话、能做微表情的“生命”。
  2. 上传“声音”: 我把我用ElevenLabs克隆好的“书雨”的声音,也就是我自己的声音,生成了一段完整的、念诵《三体》分享稿的音频文件,然后把它上传到HeyGen里。
  3. 开始“合成”: 最后一步,我把“书雨”的形象和我的声音,进行匹配。HeyGen的AI会自动分析音频的起伏和停顿,然后驱动“书雨”的嘴唇、头部、甚至眼神,做出极其逼真、自然的动作。

当我点击“生成视频”,等待几分钟后,我下载到了一个让我起鸡皮疙瘩的文件。视频里,“书雨”正坐在她的书房里,用“我”的声音,看着镜头,侃侃而谈地分享着她对《三体》的理解。她会眨眼,会点头,会在说到关键处,微微地扬起嘴角。

那一刻,我知道,她“活”了。

我把这段核心的“人物说话”视频,导入到免费的剪辑软件**剪映 (CapCut)里,为她配上了一些由Midjourney生成的、与《三体》相关的概念图作为过场画面,并用Suno**为她生成了一段空灵、神秘的背景音乐。


就这样,我的第一个“虚拟博主”——“书雨”,正式诞生了。

整个过程,我没有打开过一次相机,没有布置过一次灯光,甚至没有亲口念过一句最终的台词。我所做的,只是提出构想,下达指令,然后进行审美上的“选择”与“组合”。

这背后开启的可能性,是巨大的。

它意味着,那些因为外貌、声音、或者镜头恐惧而不敢表达自己的创作者,有了一个全新的、安全的“身份面具”。它意味着,那些没时间打理形象的专业人士,可以把自己的思想,注入到一个永远得体、不知疲倦的“虚拟分身”里,去7x24小时地分享知识。

它让“内容创作”,前所未有地,回归到了它的本质——思想

当然,这也带来了一系列关于“真实性”和“伦理”的深刻问题,值得我们警惕和探讨。但今天,作为《AI创作工坊》的一名“工匠”,我更想让你看到的,是那扇被AI一脚踹开的、通往“无限创意可能”的大门。

现在,轮到你了。如果,你也可以创造一个“虚拟分身”,你希望“他”或“她”,拥有什么样的声音、什么样的面孔,去替你向这个世界,说些什么呢?

声明:本站所有文章,如无特殊说明或标注,均为本站原创发布。任何个人或组织,在未征得本站同意时,禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
AI 视频动画教程

AI视频制作教程:普通人如何零成本“拍”出科幻大片?

2025-8-20 17:29:55

AI 核心知识库

Glasp:YouTube学习革命的Chrome扩展程序

2025-1-13 11:54:45

0 条回复 A文章作者 M管理员
    暂无讨论,说说你的看法吧