公共资源速递 This Weekly Snapshots !
7 个公共教程:
* HealthGPT:AI医疗助手
* Magenta RT:实时音乐生成
* Ovis-U1-3B:多模态理解与生成模型
* Holo1-7B:自然语言精准定位 UI元素
* PlayDiffusion:开源音频局部编辑模型
* Gemma-3n-E4B-it:先进的轻量级开放模型
* 用 Ollama 和 Open WebU 部署 Kimi-Dev-72B-GGUF
访问官网立即使用:openbayes.com
公共教程
1. HealthGPT:AI 医疗助手
HealthGPT 采用创新的异构低秩适应(H-LoRA)技术,将视觉理解与生成任务的知识存储在独立的插件中,避免任务间的冲突。HealthGPT 提供两种版本:HealthGPT-M3(38 亿参数)和 HealthGPT-L14(140 亿参数),分别基于 Phi-3-mini 和 Phi-4 预训练语言模型。模型引入了分层视觉感知(HVP)和三阶段学习策略(TLS),优化视觉特征的学习和任务适应能力。
* 在线运行:
项目示例
2. Magenta RT:实时音乐生成
Magenta RT 采用了 MusicLM 的分阶段训练管道,并集成了一个名为 MusicCoCa 的新模块,能够实现实时的语义控制,涵盖音乐流派、乐器选择和风格演变。生成速度达到每 2 秒音频只需要 1.25 秒,实现了接近实时的数据生成(RTF 约为 0.625)。这一突破性发布标志着 Google 在 AI 音乐创作领域的又一重要进展,为音乐创作者和开发者提供了全新的创作工具。
* 在线运行:
3. Ovis-U1-3B:多模态理解与生成模型
Ovis-U1-3B 模型集成多模态理解、文本到图像生成和图像编辑三种核心能力,基于先进的架构和协同统一训练方式,实现高保真图像合成和高效的文本视觉交互。在多模态理解、生成和编辑等多个学术基准测试中,Ovis-U1 均取得领先的成绩,展现出强大的泛化能力和出色的性能表现。
* 在线运行:
项目示例
4. Holo1-7B:自然语言精准定位 UI 元素
Holo1-7B 旨在像人类用户一样与 Web 界面交互。作为更广泛的代理架构的一部分,Holo1 可以充当策略模型、定位模型或验证模型,帮助代理理解和操作数字环境。
* 在线运行:
项目示例
5. PlayDiffusion:开源音频局部编辑模型
PlayDiffusion 模型将音频编码为离散的标记序列,对需要修改的部分进行掩码处理,用扩散模型在给定更新文本的条件下对掩码区域进行去噪,实现高质量的音频编辑。模型能无缝保留上下文,确保语音的连贯性和自然性,同时支持高效的文本到语音合成。PlayDiffusion 的非自回归特性在生成速度和质量上优于传统的自回归模型,为音频编辑和语音合成领域带来新的突破。
* 在线运行:
项目示例
6. Gemma-3n-E4B-it:先进的轻量级开放模型
Gemma-3n-E4B-it 旨在为移动设备和边缘计算场景提供高性能、低资源消耗的本地化 AI 能力。能够处理多模态输入,包括文本、图像、视频和音频输入,并生成文本输出。
* 在线运行:
项目示例
7. 用 Ollama 和 Open WebU 部署 Kimi-Dev-72B-GGUF
Kimi-Dev-72B 在 SWE-bench Verified 编程基准测试中达到 60.4% 的性能,凭借其仅 72 亿的参数量,一举夺魁,超越了近期发布、参数量高达 671 亿的新版 DeepSeek-R1,成为当前开源模型中的 SOTA。
* 在线运行:
项目示例