腾讯开源混元多语言翻译模型—— Hunyuan-MT

发布于:2025-09-06 ⋅ 阅读:(20) ⋅ 点赞:(0)

在这里插入图片描述

模型介绍

混元翻译模型包含翻译模型Hunyuan-MT-7B和集成模型Hunyuan-MT-Chimera。翻译模型用于将源语言翻译成目标语言,集成模型则对多个翻译结果进行融合,生成质量更高的译文。主要支持33种语言互译,包括5种中国少数民族语言。

核心特点与优势

  • 在WMT25竞赛中,该模型参与的31个语言方向里30个获得第一
  • Hunyuan-MT-7B在同等规模模型中达到业界领先性能
  • Hunyuan-MT-Chimera-7B是业界首个开源的翻译集成模型,将翻译质量提升至新高度
  • 完整提出了翻译模型训练框架:pretrain → 跨语言预训练(CPT) → 有监督微调(SFT) → 翻译增强 → 集成调优,在同等规模模型中达到SOTA效果

模型链接

模型名称 描述 下载链接
Hunyuan-MT-7B 混元7B翻译模型 🤗 模型下载
Hunyuan-MT-7B-fp8 混元7B翻译模型(fp8量化版) 🤗 模型下载
Hunyuan-MT-Chimera 混元7B翻译集成模型 🤗 模型下载
Hunyuan-MT-Chimera-fp8 混元7B翻译集成模型(fp8量化版) 🤗 模型下载

提示词

中<=>外翻译的提示词模板


把下面的文本翻译成<target_language>,不要额外解释。

<source_text>

XX<=>XX 翻译的提示模板,不包括中文<=>XX。


Translate the following segment into <target_language>, without additional explanation.

<source_text>

Hunyuan-MT-Chmeria-7B的提示模板


Analyze the following multiple <target_language> translations of the <source_language> segment surrounded in triple backticks and generate a single refined <target_language> translation. Only output the refined translation, do not explain.

The <source_language> segment:
```<source_text>```

The multiple <target_language> translations:
1. ```<translated_text1>```
2. ```<translated_text2>```
3. ```<translated_text3>```
4. ```<translated_text4>```
5. ```<translated_text5>```
6. ```<translated_text6>```

 

与transformers一起使用

首先,请安装transformers,推荐版本v4.56.0

pip install transformers==v4.56.0

以下代码片段展示了如何使用transformers库加载和应用模型。

!!! 如果想用transformers加载fp8模型,需要将config.json中的"ignored_layers"改为"ignore",并将compressed-tensors升级至compressed-tensors-0.11.0。

我们以tencent/Hunyuan-MT-7B为例。

from transformers import AutoModelForCausalLM, AutoTokenizer
import os

model_name_or_path = "tencent/Hunyuan-MT-7B"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")  # You may want to use bfloat16 and/or move to GPU here
messages = [
    {"role": "user", "content": "Translate the following segment into Chinese, without additional explanation.\n\nIt’s on the house."},
]
tokenized_chat = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=False,
    return_tensors="pt"
)

outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])

我们推荐使用以下参数集进行推理。请注意,我们的模型没有默认的系统提示。

{
  "top_k": 20,
  "top_p": 0.6,
  "repetition_penalty": 1.05,
  "temperature": 0.7
}

支持的语言:

Languages Abbr. Chinese Names
Chinese zh 中文
English en 英语
French fr 法语
Portuguese pt 葡萄牙语
Spanish es 西班牙语
Japanese ja 日语
Turkish tr 土耳其语
Russian ru 俄语
Arabic ar 阿拉伯语
Korean ko 韩语
Thai th 泰语
Italian it 意大利语
German de 德语
Vietnamese vi 越南语
Malay ms 马来语
Indonesian id 印尼语
Filipino tl 菲律宾语
Hindi hi 印地语
Traditional Chinese zh-Hant 繁体中文
Polish pl 波兰语
Czech cs 捷克语
Dutch nl 荷兰语
Khmer km 高棉语
Burmese my 缅甸语
Persian fa 波斯语
Gujarati gu 古吉拉特语
Urdu ur 乌尔都语
Telugu te 泰卢固语
Marathi mr 马拉地语
Hebrew he 希伯来语
Bengali bn 孟加拉语
Tamil ta 泰米尔语
Ukrainian uk 乌克兰语
Tibetan bo 藏语
Kazakh kk 哈萨克语
Mongolian mn 蒙古语
Uyghur ug 维吾尔语
Cantonese yue 粤语

网站公告

今日签到

点亮在社区的每一天
去签到