OpenBayes 一周速览丨Self Forcing 实现亚秒级延迟实时流视频生成;边缘AI新秀,LFM2-1.2B采用创新性架构超越传统模型

发布于:2025-08-01 ⋅ 阅读:(24) ⋅ 点赞:(0)

公共资源速递  This Weekly Snapshots !

5 个公共数据集:

* AF-Chat 音频对话文本数据集 

* ArtVIP 机器交互式图像数据集 

* Updesh 印度语合成文本数据集 

* Medical Information 药品信息数据集 

* Nemotron-Math-HumanReasoning 数学推理数据集

6 个公共教程:

* Self Forcing 实时视频生成

* MOSS:文本到口语对话生成

* PE3R:高效感知三维重建框架

* LFM2-1.2B:高效边缘部署的文本生成模型

* AudioBox-Aesthetics 音频美学评估 Demo

* Osmosis-Structure-0.6B:结构化输出的小语言模型

访问官网立即使用:openbayes.com

公共数据集

1. AF-Chat 音频对话文本数据集

AF-Chat 数据集包含约 7.5 万个多回合、多音频对话(平均 4.6 个片段和 6.2 个回合;范围为 2-8 个片段和 2-10 个回合),涵盖语音、环境声音和音乐。该数据集根据每个音频的源数据集划分为不同的子集(声音、音乐 4ALL、百万歌曲数据集,适用于虚拟助手、客服和其他需要情感识别与响应的对话系统。

* 在线使用:

https://go.openbayes.com/Ptvi3

2. ArtVIP 机器交互式图像数据集

ArtVIP 数据集包含 26 个类别的 206 个铰接物体,涵盖家居用品、大型家具、大家电、小家电和小家具,还提供了 6 个数字孪生环境和 6 个完全交互环境,包括儿童房、饭厅、厨房、带客厅的厨房、大客厅和小客厅。它通过精确的几何网格和高分辨率纹理确保视觉真实感,通过精细调整的动态参数实现物理保真度,同时率先在资产中嵌入模块化交互行为,并实现了像素级可供性标注。

* 在线使用:

https://go.openbayes.com/rzr7h

数据集示例

3. Updesh 印度语合成文本数据集

Updesh 数据集包含 6,800,000 条推理数据及 2,100,000 条生成数据,其涉及的语言有阿萨姆语、孟加拉语、古吉拉特语、印地语、卡纳达语、马拉雅拉姆语、马拉地语、尼泊尔语、奥迪亚语、旁遮普语、泰米尔语、泰卢固语、乌尔都语。

* 在线使用:

https://go.openbayes.com/oCUQC

4. Medical Information 药品信息数据集

Medical Information 数据集包含 44 个不同治疗类别的数据,涵盖超过 192,000 种药品,旨在提供准确、权威的药品信息、支持药物分类和治疗标签,提升临床试验管理的预测和效率。

* 在线使用:

https://go.openbayes.com/r5GCr

5. Nemotron-Math-HumanReasoning 数学推理数据集

Nemotron-Math-HumanReasoning 数据集包含来自 OpenMathReasoning 数据集的 50 道数学题、200 个人工撰写的解答,以及由 QwQ-32B-Preview 额外生成的 50 个解答。

* 在线使用:

https://go.openbayes.com/W6LIO

公共教程

1.Self Forcing 实时视频生成

Self Forcing 是一种用于自回归视频扩散模型的全新训练范式,它解决了长期存在的曝光偏差问题,即基于真实上下文训练的模型必须在推理过程中生成基于自身不完美输出的序列。该模型采用了新的处理方法,通过在训练期间执行带有键值(KV)缓存的自回归 rollout,将每帧的生成条件设定为先前自生成的输出。大量实验表明,他们的方法能够在单个 GPU 上实现亚秒级延迟的实时流视频生成,同时达到甚至超越速度明显较慢且非因果扩散模型的生成质量。

* 在线运行:

https://go.openbayes.com/6DHF9

项目示例

2. MOSS:文本到口语对话生成

MOSS-TTSD 能够将两位说话者之间的对话脚本转换为自然、富有表现力的对话语音。该模型支持语音克隆和长单段语音生成,使其成为 AI 播客制作的理想选择。

* 在线运行:

https://go.openbayes.com/BVVOI

项目示例

3. PE3R:高效感知三维重建框架

PE3R 基于多项前沿计算机视觉研究成果开发,仅需输入 2D 图像即可快速完成 3D 场景重建,在 RTX 3090 显卡上单场景平均重建时间仅需 2.3 分钟,较传统方法效率提升 65% 以上。

* 在线运行:

https://go.openbayes.com/DC5uv

项目示例

4. LFM2-1.2B:高效边缘部署的文本生成模型

LFM2-1.2B 采用了新型混合架构,创新性地结合了乘法门控和短卷积,包含 16 个块(10 个双门控短程 LIV 卷积块和 6 个分组查询注意力块),解决了传统模型在处理效率和性能上的不足。其训练基于 10 万亿 tokens 的预训练语料,采用知识蒸馏、大规模监督微调(SFT)和自定义直接偏好优化(DPO)等多阶段训练策略,在知识、数学、指令遵循和多语言能力等多个基准类别上,性能优于同规模模型,甚至能与更大参数规模的模型相竞争。

* 在线运行:

https://go.openbayes.com/AH2Sc

项目示例

5. AudioBox-Aesthetics 音频美学评估 Demo

Audiobox-Aesthetics 基于深度学习技术,实现对语音、音乐和环境声音的多维度自动分析,通过 4 个核心维度全面评估音频质量,为音频创作者、工程师和研究人员提供专业级的量化分析。

* 在线运行:

https://go.openbayes.com/uWgm8

项目示例

6. Osmosis-Structure-0.6B:结构化输出的小语言模型

Osmosis-Structure-0.6B 旨在完成结构化输出生成任务,尽管其参数规模仅为 0.6B,但与支持的框架结合使用时,该模型在提取结构化信息方面展现出卓越的性能。

* 在线运行:

https://go.openbayes.com/61Jj7

项目示例