亚马逊云科技揭秘大模型智能文档翻译实践
在近期的一次技术分享会上,亚马逊云科技解决方案开发团队的专家胡一凯,深入探讨了智能文档翻译领域的创新实践。此次分享不仅揭示了亚马逊云科技如何利用前沿技术解决客户在文档翻译中的痛点,还展示了其在保证术语准确性和文风一致性方面的独到见解。
胡一凯以一个跨国医疗器械公司的案例为切入点,该公司需要将大量核磁共振说明书从英文翻译成中文。面对客户对术语准确性高达90%的要求,亚马逊云科技团队面临了两大挑战:如何在翻译过程中确保术语的精准传达,以及如何使译文符合客户的内部文风。
针对术语准确性问题,胡一凯介绍了团队从朴素方法到复杂算法的演进过程。最初,团队尝试将术语直接嵌入模型上下文中,虽然在小规模术语库时效果尚可,但随着术语数量的增加,这种方法逐渐显露出局限性。为了突破这一瓶颈,团队引入了AC自动机算法,通过内存中的键值匹配实现快速检索,有效解决了术语数量和大模型上下文长度的限制。然而,随着数据量进一步增大,AC自动机也面临内存消耗和搜索时间的挑战。最终,团队采用了OpenSearch Percolator缓存技术,以术语为索引,实现高效检索,同时支持模糊匹配,完美适应了大规模术语库的需求。
在解决文风一致性问题上,团队同样展现了创新思维。胡一凯提到,客户希望新的翻译能够延续之前的文风,但微调大模型或训练罗拉成本高昂。为此,团队引入了样例库的概念,并结合RAG(检索增强生成)和FuseShot技术,构建了一个Web知识库。这种方法不仅降低了启动成本,还显著提升了翻译效果,使得译文更加贴合客户的文风要求。
胡一凯还分享了团队在处理PDF和Word文档翻译过程中的工程化挑战及解决方案。针对PDF文档,团队解决了不同语言信息浓度差异、格式遵循和空间利用等问题,确保翻译后的文档在渲染时保持原有格式和可读性。而对于Word文档,由于其底层是XML结构,团队利用开源包进行解析和渲染,大大简化了翻译流程。
整个智能文档翻译系统采用Amazon CDK编写,支持在用户云环境中一键部署,大大缩短了部署时间。用户只需上传术语库和样例库,即可进行文档翻译和预览,极大地提高了工作效率。
胡一凯强调,专业翻译领域存在飞轮效应。用户通过整理内部语料和文风历史语料形成数据资产,利用亚马逊云科技的翻译工序进行翻译,并通过人工反馈不断丰富内部语料,形成了一个正向循环。这些数据资产不仅可以应用于智能文档翻译,还可以拓展到智能写作审核、AI校对等新领域。
此次分享不仅展示了亚马逊云科技在智能文档翻译领域的深厚实力,也彰显了其致力于满足客户多元化需求、推动技术创新的不懈追求。