腾讯开源混元多语言翻译模型—

在这里插入图片描述

模型介绍

混元翻译模型包含翻译模型Hunyuan-MT-7B和集成模型Hunyuan-MT-Chimera。翻译模型用于将源语言翻译成目标语言，集成模型则对多个翻译结果进行融合，生成质量更高的译文。主要支持33种语言互译，包括5种中国少数民族语言。

核心特点与优势

在WMT25竞赛中，该模型参与的31个语言方向里30个获得第一
Hunyuan-MT-7B在同等规模模型中达到业界领先性能
Hunyuan-MT-Chimera-7B是业界首个开源的翻译集成模型，将翻译质量提升至新高度
完整提出了翻译模型训练框架：pretrain → 跨语言预训练(CPT) → 有监督微调(SFT) → 翻译增强 → 集成调优，在同等规模模型中达到SOTA效果

模型链接

模型名称	描述	下载链接
Hunyuan-MT-7B	混元7B翻译模型	🤗 模型下载
Hunyuan-MT-7B-fp8	混元7B翻译模型（fp8量化版）	🤗 模型下载
Hunyuan-MT-Chimera	混元7B翻译集成模型	🤗 模型下载
Hunyuan-MT-Chimera-fp8	混元7B翻译集成模型（fp8量化版）	🤗 模型下载

提示词

中<=>外翻译的提示词模板


把下面的文本翻译成<target_language>，不要额外解释。

<source_text>

XX<=>XX 翻译的提示模板，不包括中文<=>XX。


Translate the following segment into <target_language>, without additional explanation.

<source_text>

Hunyuan-MT-Chmeria-7B的提示模板


Analyze the following multiple <target_language> translations of the <source_language> segment surrounded in triple backticks and generate a single refined <target_language> translation. Only output the refined translation, do not explain.

The <source_language> segment:
```<source_text>```

The multiple <target_language> translations:
1. ```<translated_text1>```
2. ```<translated_text2>```
3. ```<translated_text3>```
4. ```<translated_text4>```
5. ```<translated_text5>```
6. ```<translated_text6>```

与transformers一起使用

首先，请安装transformers，推荐版本v4.56.0

pip install transformers==v4.56.0

以下代码片段展示了如何使用transformers库加载和应用模型。

!!! 如果想用transformers加载fp8模型，需要将config.json中的"ignored_layers"改为"ignore"，并将compressed-tensors升级至compressed-tensors-0.11.0。

我们以tencent/Hunyuan-MT-7B为例。

from transformers import AutoModelForCausalLM, AutoTokenizer
import os

model_name_or_path = "tencent/Hunyuan-MT-7B"

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForCausalLM.from_pretrained(model_name_or_path, device_map="auto")  # You may want to use bfloat16 and/or move to GPU here
messages = [
    {"role": "user", "content": "Translate the following segment into Chinese, without additional explanation.\n\nIt’s on the house."},
]
tokenized_chat = tokenizer.apply_chat_template(
    messages,
    tokenize=True,
    add_generation_prompt=False,
    return_tensors="pt"
)

outputs = model.generate(tokenized_chat.to(model.device), max_new_tokens=2048)
output_text = tokenizer.decode(outputs[0])

我们推荐使用以下参数集进行推理。请注意，我们的模型没有默认的系统提示。

{
  "top_k": 20,
  "top_p": 0.6,
  "repetition_penalty": 1.05,
  "temperature": 0.7
}

支持的语言：

Languages	Abbr.	Chinese Names
Chinese	zh	中文
English	en	英语
French	fr	法语
Portuguese	pt	葡萄牙语
Spanish	es	西班牙语
Japanese	ja	日语
Turkish	tr	土耳其语
Russian	ru	俄语
Arabic	ar	阿拉伯语
Korean	ko	韩语
Thai	th	泰语
Italian	it	意大利语
German	de	德语
Vietnamese	vi	越南语
Malay	ms	马来语
Indonesian	id	印尼语
Filipino	tl	菲律宾语
Hindi	hi	印地语
Traditional Chinese	zh-Hant	繁体中文
Polish	pl	波兰语
Czech	cs	捷克语
Dutch	nl	荷兰语
Khmer	km	高棉语
Burmese	my	缅甸语
Persian	fa	波斯语
Gujarati	gu	古吉拉特语
Urdu	ur	乌尔都语
Telugu	te	泰卢固语
Marathi	mr	马拉地语
Hebrew	he	希伯来语
Bengali	bn	孟加拉语
Tamil	ta	泰米尔语
Ukrainian	uk	乌克兰语
Tibetan	bo	藏语
Kazakh	kk	哈萨克语
Mongolian	mn	蒙古语
Uyghur	ug	维吾尔语
Cantonese	yue	粤语

腾讯开源混元多语言翻译模型—— Hunyuan-MT

模型介绍

核心特点与优势

模型链接

提示词

中<=>外翻译的提示词模板

XX<=>XX 翻译的提示模板，不包括中文<=>XX。

Hunyuan-MT-Chmeria-7B的提示模板

与transformers一起使用

网站公告

今日签到

热门文章

最新发布