拿了30个冠军的腾讯翻译模型,实际表现又如何?

   2025-09-20 kongyu650
核心提示:为了确保训练数据的质量和多样性,研发团队建立了一套数据质量评估体系。该体系从知识价值、真实性和写作风格三个维度对文本进行


为了确保训练数据的质量和多样性,研发团队建立了一套数据质量评估体系。该体系从知识价值、真实性和写作风格三个维度对文本进行打分,并根据数据来源的特性,对不同维度的权重进行调整。比如翻译专业知识的网站,就会优先选择知识价值得分高的数据。


同时,为了保证内容覆盖面的均衡,还建立了学科、行业和内容主题三个层面的标签系统,用以调整不同领域数据的比例,并过滤掉低质量或不相关的内容。通过这一阶段的训练,Hunyuan-7B-Base模型在通用知识、逻辑推理、数学、编程和多语言能力上奠定了基础。


接下来的第二个环节是面向机器翻译的预训练。这个阶段在通用基座模型的基础上,加入了大量为翻译任务筛选的单语和双语语料,目的是使模型的能力向翻译领域倾斜和深化。单语数据主要来源于mC4和OSCAR等公开数据集,并经过了严格的清洗流程,包括语言识别、文档级别去重以及使用语言模型过滤掉高困惑度的低质量文本。


双语平行语料则来自OPUS和ParaCrawl等公开数据集,团队使用CometKiwi等无需参考译文的质量评估工具进行筛选,以保证句对的质量。为了确定不同来源数据的最佳混合比例,团队采用了一种名为RegMix的策略,通过在小规模模型上进行实验,找到能够使训练损失最小化的数据配比,并将其应用于正式的训练中。


此外,为了防止模型在学习新知识时遗忘通用预训练阶段学到的能力,训练数据中还包含了20%的原始预训练语料作为重放数据。


完成两个预训练阶段后,模型进入第三个环节,即后训练阶段。这一阶段通过监督微调(SFT)和强化学习(RL)等技术,将模型的翻译能力进行精细化调优和对齐。监督微调分为两个步骤。第一步使用约300万句对的平行语料,旨在增强模型的基础翻译能力和遵循指令的能力。


这些数据来自多个来源,包括Flores-200开发集、往年的WMT评测测试集、人工标注的中文与少数民族语言互译数据集,以及使用DeepSeek-V3-0324模型生成的合成数据。数据同样经过CometKiwi和GEMBA等质量评估指标的筛选。第二步则使用一个规模更小但质量更高的数据集(约26.8万句对)对模型进行进一步的精炼。这些数据经过了更严格的筛选过程,并对多轮评估中得分一致性较差的样本进行了人工校验。


监督微调之后是强化学习阶段。机器翻译任务的输出具有语义多样性,难以用简单的规则进行评估,这为强化学习的应用带来了挑战。为解决此问题,混元MT采用了GRPO算法,并设计了一个复合奖励函数。


 
举报收藏 0打赏 0评论 0
 
更多>同类资讯
  • kongyu
    加关注0
  • 没有留下签名~~
推荐图文
推荐资讯
点击排行
网站首页  |  关于我们  |  联系方式  |  用户协议  |  隐私政策  |  版权声明  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号