logo80lv
Articlesclick_arrow
Research
Talentsclick_arrow
Events
Workshops
Aboutclick_arrow
profile_loginLogIn

突破语言障碍:适用于所有语种的音频驱动面部动画

Speech Graphics 团队分享了其自动语音转面部动画系统的最新更新。这次更新强化了普通话、韩语和法语语言模块。

介绍

唇部同步和所有计算机生成图像一样:如果做得足够好、不着痕迹,人们就不会注意到它本身。它会以最自然的方式增强故事感染力。反之,拙劣的唇形同步会瞬间打破沉浸感,让观众出戏。

Speech Graphics 致力于将音频中的所有声音制作成动画,以前所未有的精度生成逼真、精准的面部动画。我们的尖端技术基于语音生成的通用生物模型,可以生成任何语言(甚至是虚构语言)的表情丰富、身临其境的动画!

但为了实现最高品质的唇语同步,我们针对不同语言的独特语音体系开发了专属模块。我们非常高兴地向大家介绍三个 SGX 语言模块的更新: 普通话 2.1韩语 2.0法语 1.3。这些优化使SGX能更精准处理各语言特有的发音特征,打造愈发真实自然的动画效果。

语言专属模型 vs 通用模型

Speech Graphics的产品采用双模型架构来实现唇形同步:通用模型与语言专属模型。

通用模型适配所有人类语言——连精灵语等虚构语言也不在话下!该模型基于多语种数据进行训练,根据人类声道的普遍特性及其能产生的声音,基于音频重建肌肉运动。只需输入音频,即可自动生成精准的唇形动画。

语言专属模型则能呈现更极致的唇形同步以及面部动画效果,其奥秘在于深度解析特定语言(甚至方言)的语音。

试想一个场景:你去尝试复述一个人所讲的陌生语言。如果你的耳朵足够敏锐,或许能复现个七七八八 —— 这正是通用模型的工作原理。但如果你通晓这种语言,你就能精准还原每个单词的标准发音!我们的语言模块正是为此而生,通过构建内置的语言知识,让技术真正"理解"发音规则,从而生成量身定制的唇形动画。

我们的专业语言学家与母语顾问团队是模块开发的核心力量。他们凭借深厚的语音学造诣(即研究人类发音与感知的学科),协助我们解析不同语言的发音特征。经过研究、模型迭代与实际发音验证,最终确保动画与真实语言发音的口型完美契合。

对本地化项目而言,语言适配的精准度尤为关键。当今全球观众已不满足于传统配音或字幕,他们期待用母语享受更原汁原味的娱乐内容。我们的使命,正是让每一种语言的本地化作品都自然且真实。

现在,让我们揭秘普通话、韩语与法语模块的全新升级!

普通话2.1版本:翘舌音增强,唇形更自然

普通话唇形同步的核心挑战之一在于准确呈现翘舌音(拼音中的zh、ch、sh、r)。这类发音具有几大特征:舌身后卷(术语"retroflex"即源自"向后弯曲"之意)、双唇如吹奏小号般外展、牙齿紧密靠拢。这些口腔形态会影响整个音节(zhi、chi、shi、ri),使辅音特征延续至元音部分。翘舌音在普通话中极为常见,高频出现在"是(shì)"、"十(shí)"、"日(rì)"等组成的词汇中,因此其准确度对动画效果至关重要。

基于这些语言学洞察,普通话2.1版本显著优化了翘舌音及对应音节的发音表现(如上方视频所示)。此次升级后,普通话使用者在动画中将感受到更自然、更具表现力的母语呈现。

韩语2.0版本:新增拉丁字符支持,实现书写系统无缝混合

SGX语言模块需要输入音频的同时提供对应文本转录。这些转录文本能够为音频中的发音提供最完整的信息,并以该语言原生文字系统书写(韩语采用谚文/Hangul)。然而在现代实际应用中,拉丁字符与谚文混用的情况十分普遍——尤其在缩写、外来词和品牌名称中。例如:"Speech Graphics를 사용하면 순식간에 얼굴 애니메이션을 만들 수 있어!"(意为"使用Speech Graphics,瞬间即可生成面部动画!")

为更好反映现代语言使用习惯,我们在韩语2.1版本新增了对拉丁字符的支持,可处理谚文与拉丁字符混合的转录文本。如上方的视频所示,韩语使用者并非直接按外语发音读出拉丁文字,而是会将其自然韩语化。我们的语言模块精确捕捉这一特征,确保这些插入词汇的发音呈现符合现实情况。

此项升级使韩语模块与日语模块功能对齐——日语同样是频繁在原生文字系统中混用拉丁字符的语言。

法语1.3版本:优化鼻化元音发音表现

法语以其丰富的鼻化元音(nasal vowels)著称——这类元音发音时气流同时通过口腔与鼻腔,形成独特的鼻腔共鸣效果。典型如"an"、"on"、"un"、"in"等组合,例如短语"un bon vin blanc"(意为"一款优质白葡萄酒")。最新语音学研究显示:当代法语使用者对这些元音的发音方式已发生演变。在法国本土方言中:"un"与"in"的发音界限完全消失,所有鼻化元音的发声位置向口腔高位迁移,这与传统语言描述已产生明显差异。法语1.3版本反应了这些发音演变,与真实说话者发"an/on/un/in"时的面部表情完全吻合。由于鼻化元音在法语中的高频出现,通过精准还原唇部、下颌与舌位的协同动作来呈现这些元音,已成为打造自然法语唇形同步的关键要素。

推动面部动画技术的未来演进

此次升级标志着我们在"通过音频精准驱动面部动画"的使命中又迈出重要一步。通过不断完善我们的模型,我们突破了面部动画的极限,实现了超逼真的唇部同步,增强了跨国界的故事叙述。

点击此处详细了解 Speech Graphics 的 SGX 和其他产品。别忘了在微信公众号、小红书抖音以及微博上关注我们“80Level (全网同名),我们为您提供游戏行业的最新新闻、精彩的艺术作品赏析等。

Join discussion

Comments 0

    You might also like

    We need your consent

    We use cookies on this website to make your browsing experience better. By using the site you agree to our use of cookies.Learn more