09 July 2025

突破语言障碍：适用于所有语种的音频驱动面部动画

#80 Level China #Animation #Game Development

If you click on the links in this post and make a purchase we may receive a commission. Please read our disclaimer.

Speech Graphics 团队分享了其自动语音转面部动画系统的最新更新。这次更新强化了普通话、韩语和法语语言模块。

介绍

唇部同步和所有计算机生成图像一样：如果做得足够好、不着痕迹，人们就不会注意到它本身。它会以最自然的方式增强故事感染力。反之，拙劣的唇形同步会瞬间打破沉浸感，让观众出戏。

Speech Graphics 致力于将音频中的所有声音制作成动画，以前所未有的精度生成逼真、精准的面部动画。我们的尖端技术基于语音生成的通用生物模型，可以生成任何语言（甚至是虚构语言）的表情丰富、身临其境的动画！

但为了实现最高品质的唇语同步，我们针对不同语言的独特语音体系开发了专属模块。我们非常高兴地向大家介绍三个 SGX 语言模块的更新： 普通话 2.1、韩语 2.0 和法语 1.3。这些优化使SGX能更精准处理各语言特有的发音特征，打造愈发真实自然的动画效果。

语言专属模型 vs 通用模型

Speech Graphics的产品采用双模型架构来实现唇形同步：通用模型与语言专属模型。

通用模型适配所有人类语言——连精灵语等虚构语言也不在话下！该模型基于多语种数据进行训练，根据人类声道的普遍特性及其能产生的声音，基于音频重建肌肉运动。只需输入音频，即可自动生成精准的唇形动画。

语言专属模型则能呈现更极致的唇形同步以及面部动画效果，其奥秘在于深度解析特定语言（甚至方言）的语音。

试想一个场景：你去尝试复述一个人所讲的陌生语言。如果你的耳朵足够敏锐，或许能复现个七七八八 —— 这正是通用模型的工作原理。但如果你通晓这种语言，你就能精准还原每个单词的标准发音！我们的语言模块正是为此而生，通过构建内置的语言知识，让技术真正"理解"发音规则，从而生成量身定制的唇形动画。

我们的专业语言学家与母语顾问团队是模块开发的核心力量。他们凭借深厚的语音学造诣（即研究人类发音与感知的学科），协助我们解析不同语言的发音特征。经过研究、模型迭代与实际发音验证，最终确保动画与真实语言发音的口型完美契合。

对本地化项目而言，语言适配的精准度尤为关键。当今全球观众已不满足于传统配音或字幕，他们期待用母语享受更原汁原味的娱乐内容。我们的使命，正是让每一种语言的本地化作品都自然且真实。

现在，让我们揭秘普通话、韩语与法语模块的全新升级！

普通话2.1版本：翘舌音增强，唇形更自然

普通话唇形同步的核心挑战之一在于准确呈现翘舌音（拼音中的zh、ch、sh、r）。这类发音具有几大特征：舌身后卷（术语"retroflex"即源自"向后弯曲"之意）、双唇如吹奏小号般外展、牙齿紧密靠拢。这些口腔形态会影响整个音节（zhi、chi、shi、ri），使辅音特征延续至元音部分。翘舌音在普通话中极为常见，高频出现在"是（shì）"、"十（shí）"、"日（rì）"等组成的词汇中，因此其准确度对动画效果至关重要。

基于这些语言学洞察，普通话2.1版本显著优化了翘舌音及对应音节的发音表现（如上方视频所示）。此次升级后，普通话使用者在动画中将感受到更自然、更具表现力的母语呈现。

韩语2.0版本：新增拉丁字符支持，实现书写系统无缝混合

SGX语言模块需要输入音频的同时提供对应文本转录。这些转录文本能够为音频中的发音提供最完整的信息，并以该语言原生文字系统书写（韩语采用谚文/Hangul）。然而在现代实际应用中，拉丁字符与谚文混用的情况十分普遍——尤其在缩写、外来词和品牌名称中。例如："Speech Graphics를 사용하면 순식간에 얼굴 애니메이션을 만들 수 있어!"（意为"使用Speech Graphics，瞬间即可生成面部动画！"）

为更好反映现代语言使用习惯，我们在韩语2.1版本新增了对拉丁字符的支持，可处理谚文与拉丁字符混合的转录文本。如上方的视频所示，韩语使用者并非直接按外语发音读出拉丁文字，而是会将其自然韩语化。我们的语言模块精确捕捉这一特征，确保这些插入词汇的发音呈现符合现实情况。

此项升级使韩语模块与日语模块功能对齐——日语同样是频繁在原生文字系统中混用拉丁字符的语言。

法语1.3版本：优化鼻化元音发音表现

法语以其丰富的鼻化元音（nasal vowels）著称——这类元音发音时气流同时通过口腔与鼻腔，形成独特的鼻腔共鸣效果。典型如"an"、"on"、"un"、"in"等组合，例如短语"un bon vin blanc"（意为"一款优质白葡萄酒"）。最新语音学研究显示：当代法语使用者对这些元音的发音方式已发生演变。在法国本土方言中："un"与"in"的发音界限完全消失，所有鼻化元音的发声位置向口腔高位迁移，这与传统语言描述已产生明显差异。法语1.3版本反应了这些发音演变，与真实说话者发"an/on/un/in"时的面部表情完全吻合。由于鼻化元音在法语中的高频出现，通过精准还原唇部、下颌与舌位的协同动作来呈现这些元音，已成为打造自然法语唇形同步的关键要素。

推动面部动画技术的未来演进

此次升级标志着我们在"通过音频精准驱动面部动画"的使命中又迈出重要一步。通过不断完善我们的模型，我们突破了面部动画的极限，实现了超逼真的唇部同步，增强了跨国界的故事叙述。

点击此处详细了解 Speech Graphics 的 SGX 和其他产品。别忘了在微信公众号、小红书、抖音以及微博上关注我们“80Level” （全网同名），我们为您提供游戏行业的最新新闻、精彩的艺术作品赏析等。

Ready to grow your game’s revenue?

Talk to us

Comments

0

Leave Comment

Ready to grow your game’s revenue?

Talk to us

Comments

0

We need your consent