哔哩哔哩(B站)近期在国际化战略上迈出了重要一步,引发了业界的广泛关注。自今年5月宣布将原国际版APP与国内版合并后,B站的一系列海外布局动作频频。
在世界人工智能大会上,B站揭晓了其专为海外用户打造的“AI原声翻译功能”,旨在提升海外用户在游戏、科技、二次元等领域的观看体验。这一功能的推出,标志着B站在完成APP合并、海外用户页面多语种适配后,正式吹响了进军海外市场的号角。
据悉,“AI原声翻译”功能不仅实现了基础文本互译,如自动替换中文字幕为英文、弹幕翻译及按钮英文适配,更突破性地实现了UP主声线、音色、气口的完美还原,避免了传统机器翻译的生硬感。同时,该功能还能根据翻译语言模拟口型,使海外用户在观看中文UP主视频时,能够感受到如同原声的体验。未来,B站计划将日语等其他语言纳入“AI原声翻译”功能,进一步增强其在海外市场的适应能力。
B站“AI原声翻译功能”中的跨语言声音还原技术,源自其内部代号为“IndexTTS2”的语音生成模型。该模型通过引入一种新颖、通用且兼容自回归架构的语音时长及情感控制方法,实现了对语音时长的精确调控,降低了翻译难度。同时,模型对情感表达与说话人身份进行了有效解耦,能够高质量地复刻原片语音中的情感。
为了应对“AI原声翻译功能”在游戏、二次元等专名梗点密集领域的挑战,B站技术团队基于大语言模型(LLM)构建了翻译引擎,并独创性地基于语音时长匹配、原声翻译标准与UP主独特风格,构建了多目标奖励模型。通过采用对抗式强化学习(RL)训练,驱动模型持续进化与精准适配,确保了翻译风格的精准保留与语音时长的完美对应。
B站还引入了Deep Research深度挖掘技术,专注于解决专有名词与流行梗点的翻译难点,确保译文准确、地道且传神。在字幕擦除方面,B站结合了先进的多模态大模型OCR技术和基于STTN网络的视频重绘技术,实现了字幕区域的精准检测与高还原度擦除,进一步提升了用户的观看体验。