-
背景
文章指出LLMs特别是GPT-4在机器翻译方面取得了优异成绩,但仍存在多处错误。通过对其错误反馈信息进行自我纠正,可以显著提高翻译性能。此外,之前的自我纠正研究缺少对原始翻译的清晰评估,反馈缺乏明确指导,且质量提升有限。 -
已有的工作 已有的研究没有综合考虑翻译自我纠正在诸多方面的潜在优化,如明确评估、有效反馈和模型自身的修正能力。
- 提出了一个叫做TER的LLM基础上的自我纠正翻译框架
-
挑战1:翻译评估不清晰和反馈无效 通过额外的评估模块和明晰反馈,TER框架优化了翻译过程中自我纠正的系统性和可理解性。
-
挑战2:翻译质量提升有限 TER框架在多种语言对和不同的LLMs上显著改善了翻译质量,特别是在高资源和低资源以及基于英语和非英语的翻译方面。
-
在各种语言对和不同的LLMs上评估了TER框架,包括ChatGPT、Gemini和Claude。结果显示TER在语义相关指标上比基线方法更有效,如COMET和BLEURT。此外,论文对TER的三个组件——Translate(翻译)、Estimate(评估)和Refine(修正)在自我纠正和跨模型纠正的不同策略下,进行了综合性能分析,并对评估组件进行了详细分析,以明确各种翻译错误类型。
论文成功提出了第一个基于LLMs的自我纠正翻译框架TER,并验证了其在多种语言对和不同模型间的翻译质量改进效果。它为机器翻译领域带来了新的视角,特别是在自我纠正在高资源、低资源语言和不同中心语言之间翻译的应用。