模型介绍
混元翻译模型包含翻译模型Hunyuan-MT-7B和集成模型Hunyuan-MT-Chimera。翻译模型用于将源语言翻译成目标语言,集成模型则对多个翻译结果进行融合,生成质量更高的译文。主要支持33种语言互译,包括5种中国少数民族语言。
核心特点与优势
- 在WMT25竞赛中,该模型参与的31个语言方向里30个获得第一
- Hunyuan-MT-7B在同等规模模型中达到业界领先性能
- Hunyuan-MT-Chimera-7B是业界首个开源的翻译集成模型,将翻译质量提升至新高度
- 完整提出了翻译模型训练框架:pretrain → 跨语言预训练(CPT) → 有监督微调(SFT) → 翻译增强 → 集成调优,在同等规模模型中达到SOTA效果
模型链接
模型名称 | 描述 | 下载链接 |
---|---|---|
Hunyuan-MT-7B | 混元7B翻译模型 | 🤗 模型下载 |
Hunyuan-MT-7B-fp8 | 混元7B翻译模型(fp8量化版) | 🤗 模型下载 |
Hunyuan-MT-Chimera | 混元7B翻译集成模型 | 🤗 模型下载 |
Hunyuan-MT-Chimera-fp8 | 混元7B翻译集成模型(fp8量化版) | 🤗 模型下载 |
提示词
中<=>外翻译的提示词模板
把下面的文本翻译成<target_language>,不要额外解释。
<source_text>
XX<=>XX 翻译的提示模板,不包括中文<=>XX。
Translate the following segment into <target_language>, without additional explanation.
<source_text>
Hunyuan-MT-Chmeria-7B的提示模板
Analyze the following multiple <target_language> translations of the <source_language> segment surrounded in triple backticks and generate a single refined <target_language> translation. Only output the refined translation, do not explain.
The <source_language> segment:
```<source_text>```
The multiple <target_language> translations:
1. ```<translated_text1>```
2. ```<translated_text2>```
3. ```<translated_text3>```
4. ```<translated_text4>```
5. ```<translated_text5>```
6. ```<translated_text6>```
与transformers一起使用
首先,请安装transformers,推荐版本v4.56.0
pip install transformers==v4.56.0
以下代码片段展示了如何使用transformers库加载和应用模型。
!!! 如果想用transformers加载fp8模型,需要将config.json中的"ignored_layers"改为"ignore",并将compressed-tensors升级至compressed-tensors-0.11.0。
我们以tencent/Hunyuan-MT-7B为例。
from transformers import AutoModelForCausalLM, AutoTokenizer
import os
model_name_or_path = "tencent/Hunyuan-MT-7B"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto") # You may want to use bfloat16 and/or move to GPU here
messages = [
{"role": "user", "content": "Translate the following segment into Chinese, without additional explanation.\n\nIt’s on the house."},
]
tokenized_chat = tokenizer.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=False,
return_tensors="pt"
)
outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])
我们推荐使用以下参数集进行推理。请注意,我们的模型没有默认的系统提示。
{
"top_k": 20,
"top_p": 0.6,
"repetition_penalty": 1.05,
"temperature": 0.7
}
支持的语言:
Languages | Abbr. | Chinese Names |
---|---|---|
Chinese | zh | 中文 |
English | en | 英语 |
French | fr | 法语 |
Portuguese | pt | 葡萄牙语 |
Spanish | es | 西班牙语 |
Japanese | ja | 日语 |
Turkish | tr | 土耳其语 |
Russian | ru | 俄语 |
Arabic | ar | 阿拉伯语 |
Korean | ko | 韩语 |
Thai | th | 泰语 |
Italian | it | 意大利语 |
German | de | 德语 |
Vietnamese | vi | 越南语 |
Malay | ms | 马来语 |
Indonesian | id | 印尼语 |
Filipino | tl | 菲律宾语 |
Hindi | hi | 印地语 |
Traditional Chinese | zh-Hant | 繁体中文 |
Polish | pl | 波兰语 |
Czech | cs | 捷克语 |
Dutch | nl | 荷兰语 |
Khmer | km | 高棉语 |
Burmese | my | 缅甸语 |
Persian | fa | 波斯语 |
Gujarati | gu | 古吉拉特语 |
Urdu | ur | 乌尔都语 |
Telugu | te | 泰卢固语 |
Marathi | mr | 马拉地语 |
Hebrew | he | 希伯来语 |
Bengali | bn | 孟加拉语 |
Tamil | ta | 泰米尔语 |
Ukrainian | uk | 乌克兰语 |
Tibetan | bo | 藏语 |
Kazakh | kk | 哈萨克语 |
Mongolian | mn | 蒙古语 |
Uyghur | ug | 维吾尔语 |
Cantonese | yue | 粤语 |