51c大模型~合集156

发布于:2025-07-19 ⋅ 阅读:(17) ⋅ 点赞:(0)

自己的原文哦~          https://blog.51cto.com/whaosoft/14053638

#苹果发布2025基础模型技术报告

庞若鸣交班陈智峰

Apple Intelligence 进入新的一章。

近日,苹果发布了 2025 年 Apple Intelligence 基础语言模型技术报告。

刚刚加入 Meta 的前苹果 AI 负责人庞若鸣(Ruoming Pang)发出多条推文进行了介绍。

图片

在报告中,苹果详细介绍了训练新一代模型所用的数据、模型架构、训练方案、优化推理技术手段,以及与同类模型对比的评估结果。文中重点展示了苹果如何在提升用户价值的同时实现功能扩展与质量优化,并大幅提高设备端和私有云计算的运行效率。

图片

报告链接:https://machinelearning.apple.com/research/apple-foundation-models-tech-report-2025

这次苹果介绍了两种多语言、多模态基础语言模型,可为苹果设备和服务中的 Apple Intelligence 功能提供支持。其中包括:

1)通过 KV 缓存共享和 2 位量化感知训练等架构创新,针对苹果自有芯片进行了优化的  3B 参数设备模型;2)一种可扩展的云端模型,它结合了新型并行轨道混合专家 (PT-MoE) Transformer 和交错的全局 - 局部注意力,以便在苹果的私有云计算平台上进行有效推理。

这两款模型均通过负责任的网络爬取、授权语料库和高质量合成数据集进行大规模多语言、多模态训练,并在新的异步平台上通过监督微调和强化学习进一步优化。最终模型不仅支持多种新增语言,还能理解图像并执行工具调用。

图片

PT-MoE 架构示意图。每个轨迹 track 由多个轨迹块组成,每个轨迹块包含固定数量的 Transformer/MoE 层。假设总层数为 L 层且轨迹块深度为 D,则同步开销可从 2L(张量并行)降低至 L/D(轨迹并行)。例如当 D = 4 时,PT 架构可将同步开销减少 87.5%。

PT Transformer 是苹果研究人员提出的一种新型架构。与仅包含单一顺序层堆栈的标准解码器式 Transformer 不同,该架构将模型划分为多个小型 Transformer 模块,称为轨道。每个轨道由多个堆叠的轨道块组成,每个轨道块本身都是一个 Transformer 层堆栈。这些轨道块独立处理标记数据,仅在轨道块的输入输出边界进行跨轨道同步。这种隔离设计不仅实现了轨道间的直接并行执行,还有效降低了传统 Transformer 解码器(如采用张量并行技术的模型)中常见的同步开销。这种方法被称为轨迹并行,改进了训练和推理的延迟,而不会影响模型的质量。

为实现服务器端模型的进一步扩展,苹果在每个轨道块内部引入了专家混合层(MoE),从而构建出 PT-MoE 架构。由于各 MoE 层中的专家模块仅在对应轨道内运行,通信开销可与计算过程有效重叠,从而提升训练效率。结合轨道并行性带来的轨道级独立性优势,这种设计使模型在保持低延迟的同时实现高效扩展 —— 得益于稀疏度的提升,模型运行更加轻量化。

另外为了实现现视觉理解能力,苹果引入了一个可以从输入图像中提取视觉特征的视觉编码器,在大量图像数据上进行了预训练,以提高其性能。视觉编码器包含两个关键组件:一个视觉主干,用于从输入图像中提取丰富的视觉表征;以及一个视觉语言适应模块,用于压缩视觉表征并将这些视觉特征与模型的标记表征进行对齐。

在视觉主干网络中,苹果采用了标准的视觉 Transformer(ViT-g),服务器模型为 10 亿参数;以及更高效的 ViTDet-L 主干网络,设备端模型为 3 亿参数。

设备端视觉主干网络采用了 ViTDet 架构,该架构在大多数视觉 Transformer 层中使用窗口注意力机制,仅包含三个跨窗口全局注意力层。为更有效地捕捉并整合细粒度局部细节与宏观全局上下文信息,苹果在标准 ViTDet 基础上创新性地引入了注册窗口(RW)机制。该机制通过让全局注册表(或类别)标记在参与整体全局上下文聚合前,先与图像中的不同局部窗口进行交互,从而实现对全局特征的编码。

苹果认为,端侧和云端模型配合可以满足广泛的性能和部署需求。设备端模型经过优化,能够以最低资源消耗实现低延迟推理;而服务器端模型则专为复杂任务设计,提供了高精度和可扩展性。

在人工评估基准中,苹果的模型在跨语言、文本和视觉模式上都具有不错的竞争力,甚至优于同等规模的最佳开源模型。

图片

图片

在技术报告中,苹果还介绍了全新推出的 Swift 核心的基础模型框架,其中集成了引导式生成、约束式工具调用和 LoRA 适配器微调三大功能模块,开发者仅需几行代码即可轻松实现这些功能的集成。

该框架让开发者能够借助约 30 亿参数的设备端语言模型,着手打造可靠且具备量产级品质的生成式 AI 功能。作为 Apple Intelligence 的核心,它在摘要、实体提取、文本理解、优化、简短对话、创意内容生成等多样化文本任务中表现卓越。不过苹果表示,虽然已针对设备端模型进行了专门优化,但它并非为通用知识问答而设计。苹果鼓励应用开发者利用该框架为 APP 定制实用功能。

苹果表示,Apple Intelligence 模型的最新进展始终遵循「负责任的人工智能」的理念,通过内容过滤、地区定制评估等安全防护措施,并依托私有云计算等创新技术,切实保障用户隐私安全。

在技术报告发布之后,庞若鸣不忘感谢了所有贡献者,其中包括模型、后训练、多模态、框架 / API、项目管理人员,同时把接力棒交给了苹果 AI 的下一任负责人 Zhifeng Chen 和 Mengyu Li。

图片

此前据媒体报道,庞若鸣加入 Meta 后,苹果大模型团队将由陈智峰(Zhifeng Chen)负责,不过团队的管理架构将更加分散。

陈智峰 2000 年本科毕业于复旦大学,后于普林斯顿大学、伊利诺伊大学香槟分校获得硕士、博士学位。在加入苹果之前,陈智峰曾在谷歌长期工作,参与过 TensorFlow、Gemini、神经机器翻译系统、Palm 2 等重要研究。他和庞若鸣、吴永辉均是 Google Brain 早期的重要成员。

图片

参考内容:

​https://www.bloomberg.com/news/articles/2025-07-07/apple-loses-its-top-ai-models-executive-to-meta-s-hiring-spree​

#PresentAgent

演讲生成黑科技,PresentAgent从文本到演讲视频

本项目为AI Geeks、澳洲人工智能研究所、利物浦大学、拉筹伯大学的联合工作。

我们提出了 PresentAgent,一个能够将长篇文档转化为带解说的演示视频、多模态智能体。现有方法大多局限于生成静态幻灯片或文本摘要,而我们的方案突破了这些限制,能够生成高度同步的视觉内容和语音解说,逼真模拟人类风格的演示。

论文标题:PresentAgent: Multimodal Agent for Presentation Video Generation

论文地址:https://arxiv.org/abs/2507.04036

代码:https://github.com/AIGeeksGroup/PresentAgent

为了实现这一整合,PresentAgent 采用了模块化流程,如图 1 所示,包括以下步骤:1. 系统性地对输入文档进行分段;2. 规划并渲染幻灯片风格的视觉帧;3. 利用大型语言模型与文本转语音模型生成具有上下文的语音解说;4. 最终将音频与视觉内容精确对齐,无缝组合成完整视频。

图片

图 1 PresentAgent 概览。 该系统以文档(如网页)为输入,经过以下生成流程:(1)文档处理、(2)结构化幻灯片生成、(3)同步字幕创建,以及(4) 语音合成。最终输出为一个结合幻灯片和同步讲解的演示视频。图中紫色高亮部分表示生成过程中的关键中间输出。

考虑到这种多模态输出的评估难度,我们引入了 PresentEval,一个由视觉-语言模型驱动的统一评估框架,从以下三个关键维度全面打分:内容忠实度(Content Fidelity)、视觉清晰度(Visual Clarity)和观众理解度(Audience Comprehension)。

评估采用基于提示的方式进行。我们在一个精心整理的包含 30 对「文档-演示」样本的数据集上进行了实验验证,结果表明,PresentAgent 在所有评估指标上接近人类水平的表现。

这些结果展示了可控多模态智能体在将静态文本材料转化为动态、有效、易获取的演示格式方面的巨大潜力。

我们的主要贡献如下:

  • 提出新任务: 首次提出「文档到演示视频生成」这一新任务,旨在从各类长文本自动生成结构化的幻灯片视频,并配有语音解说。
  • 设计 PresentAgent 系统: 提出一个模块化生成框架,涵盖文档解析、布局感知幻灯片构建、讲稿生成及音视同步,实现可控、可解释的视频生成过程。
  • 提出 PresentEval 评估框架: 构建一个由视觉语言模型驱动的多维度评估机制,从内容、视觉与理解等维度对视频进行提示式评分。
  • 构建高质量评测数据集: 我们制作了一个包含 30 对真实文档与对应演示视频的数据集。实验和消融研究显示,PresentAgent 不仅接近人类表现,且显著优于现有方案。

演示视频评估基准(Presentation Benchmark)

图片

图 2 我们评估基准中的文档多样性

为了支持文档到演示视频生成的评估,我们构建了一个多领域、多文体的真实对照数据集——Doc2Present Benchmark,其中每对数据都包含一个文档与一个配套的演示视频。不同于以往只关注摘要或幻灯片的基准,我们的数据包括:

  • 商业报告
  • 产品手册
  • 政策简报
  • 教程类文档等

每篇文档均配有人工制作的视频讲解,如图 2 所示。

图片

图 3 我们的评测方法框架概览

与 paper2poster 的方法类似,我们设计了一个测验式评估框架,即通过视觉语言模型仅根据生成视频(幻灯片+讲解)回答内容问题,以模拟观众的理解水平,同时我们还引入人工制作的视频作为参考标准,既用于评分校准,也作为性能上限对比。

该评估框架由两部分组成:

  • 客观测验评估: 通过选择题测量视频传递信息的准确性;
  • 主观评分评估: 从内容质量、视觉/音频设计与理解清晰度等维度,对视频进行 1–5 分等级评分;这两类指标共同构成了对生成视频的全面质量评估体系,如图 3 所示。

PresentAgent

图片

图 4 PresentAgent 框架概览

本系统以多种类型的文档(例如论文、网页、PDF 等)为输入,遵循模块化的生成流程:

  1. 首先进行提纲生成;
  2. 检索出最适合的幻灯片模板;
  3. 然后借助视觉-语言模型生成幻灯片和解说文稿;
  4. 将解说文稿通过 TTS 转换为音频,并合成为完整的演示视频;
  5. 为了评估视频质量,我们设计了多个维度的提示语;
  6. 最后将提示输入基于视觉语言模型(VLM)的评分模块,输出各个维度的指标结果。

为了将长文本文档转化为带口语化讲解的演示视频,我们设计了一个多阶段的生成框架,模拟人类准备幻灯片与演讲内容的流程,如图 4 所示。该方法分为四步:

  1. 语义分段;
  2. 结构化幻灯片生成;
  3. 口语化讲解生成;
  4. 可视与音频组合为同步视频。

该模块化设计支持可控性、可解释性和多模态对齐,兼顾高质量生成与细粒度评估。下文将分别介绍各模块。

实验

我们构建了一个包含 30 个长文档的测试集,每个文档配有人类手工制作的演示视频作为参考。这些文档涵盖教育、产品说明、科研综述与政策简报等主题。

所有生成与人工视频均使用 PresentEval 框架进行评估。由于当前尚无模型可完整评估超 2 分钟的多模态视频,我们采用分段评估策略:

  • 客观评估阶段: 使用 Qwen-VL-2.5-3B 回答固定的多项选择题,评估内容理解;
  • 主观评分阶段: 提取视频与音频片段,使用 Qwen-Omni-7B 针对内容质量、视觉/听觉质量和理解难度分别打分。

主实验结果

图片

在测验准确率方面,大多数 PresentAgent 的变体与人工基准结果(0.56)相当甚至更优。其中 Claude-3.7-sonnet 取得了最高准确率 0.64,表明生成内容与源文档之间具有较强的一致性。其他模型如 Qwen-VL-Max 和 Gemini-2.5-flash 得分略低(0.52),表明在事实对齐方面仍有提升空间。

在主观质量方面,由人类制作的演示仍在视频和音频整体评分上保持领先。然而,一些 PresentAgent 变体表现出有竞争力的性能。例如,GPT-4o-Mini 在视频内容和视觉吸引力方面获得了最高分(均接近或达到 4.8),而 Claude-3.7-sonnet 则在音频质量方面表现最为平衡(均分为 4.53)。

有趣的是,Gemini-2.5-flash 在视觉质量上取得了最高得分(5.0),但在理解性方面较低,这反映了美观性与清晰度之间的权衡。这些结果突显了我们模块化生成流程的有效性,以及统一评估框架 PresentEval 在捕捉演示质量多个维度方面的实用价值。

案例分析

图片

图 5 PresentAgent 自动生成演示视频示例

图 5 体现了一个完整的 PresentAgent 自动生成演示视频示例,其中一篇技术博客被转化为带解说的演示。系统识别出结构性片段(如引言、技术解释等),并为其生成了包含口语风格字幕和同步语音的幻灯片,涵盖了「并行化工作流」、「代理系统架构」等技术主题,展示了系统在保持技术准确性的同时,以清晰、对话式方式传达信息的能力。

#算法工作6年经验分享

别纠结技术“low 不 low”,以业务目标为锚,用最小成本、最稳方案把活干漂亮,并持续扩展边界、提前布局未来 ​

最近一年做了什么

去年有提到,自己在新的环境下,有很多挑战,也收获很多,最近的一年里,在和团队伙伴们的共同努力下,项目逐渐进入深水期,遇到了很多新的挑战。我简单总结一些我这段时间的感受。

  • 项目进入深水期后,很多任务并非简单方案便可快速完成,需要很多基础工作,这些基础工作对产品、业务视角并不可见,如果埋头做,很可能会导致业务方视角没有产出。此时,我这里有两个方案,一个是把这个不可见的任务一定程度转化为可见的,另一个思路就是把这个基础工作打散到日常的迭代里,一点一点带上,就不至于长期没有可见产出。前者比较好理解,而后者则需要比较长远的眼光,提前想到后面可能要做什么,需要什么,提前规划安排。
  • 需要合理权衡好,研究和业务的时间,两者缺一不可。很多时候,我们可能遇到的是,急迫的业务需求,需要赶时间完成任务发版上线,并没有时间去做一些尝试,毕竟最近又是技术井喷的时候,我们不得不去持续做很多学习和实验,或者拥有大量时间去做研究和实验,远离了业务,并不知道什么东西是真正有用的,什么并非实验中的那么有效,走偏了。我们还是需要两者兼顾,不能顾此失彼。
  • 项目发展后,原本的小项目里有的东西越来越多,需要合理规划,例如服务/代码/数据甚至是人员分工的合理规划,大模型资源的权衡,多个服务的并发性能,新老方案迭代的提升等。最近还有些趋势,对于一些为了快速上线的大模型+prompt方案,会被微调的小模型或者其他更轻量的方案给迭代掉。

越发感觉,在项目逐渐迭代的过程,要想把事持续做好,除了要比较扎实的技术积累,还需要更加强的整体规划能力,这个我并不擅长,还需要持续学习吧。​

比较重要的经验和感想​

low和不low

很多时候,我们都会关注某个技术low不low,做的技术是否足够潮,挺多人会因为自己做的事不够潮,不够贴合现在流行的技术而感到焦虑,觉得自己已经落后版本,无论是短期的绩效还是长期的发展,都有很大的压力。在实践中,我自己其实一直做的大部分活,其实都可以说是low的,例如时至今日,一些搜索的任务,我仍然在用字面匹配以及BM25,文本分类我还会用fasttext、textcnn来试试看,有些任务我也在用prompt快速完成一些活,另外类似xgboost这些已经很老的东西,我现在还用的非常顺手,low的事一件接着一件,但实际上并没有想象中的焦虑,我自己是这么想的。

  • 从low不low的问题,转为适合不适合的问题。时刻需要记住,手里的活核心目标是什么,如果什么“技术影响力”、“论文产出”之类的事,而是把一些功能需求完成,在效果提升为目标的任务里,什么方案适合这个任务,能尽快得到好的效果,就应该使用什么,要对前沿方案理性看待,可以日常学习和理解,要对他有理性客观的理解,但在方案选型上要慎重。我非常理解一些刚开始做算法的同学,可能会对领导给你分配的任务和方法比较抗拒,此时你其实可以和领导探讨,为什么要这么选,有什么考量,甚至可以拓展一下还有哪些方法,为什么不用别的方法,经过这些交流,你能更清楚一些问题背后的思路,对自己的提升也会很大。
  • 自己可以把握这个主动权。领到的任务可能使用并不前沿的方案,如果自己有思路且有时间,完全可以一起尝试,看哪个效果好,自己主动安排更多时间来试验测试,如果效果更好,在条件允许的情况下肯定会采纳你的方案,与其内耗不如主动出击,当然如果效果就是不好了,也得承认自己的理解出现偏差,整理结论积累下来就好了。
  • low不low一定程度其实取决于自己的思维界限。同样一件事不同的人做就不一样,同样是写prompt为例,这个是写多了确实会烦,大部分人可能只会捏着鼻子继续做,甚至跑路,而有的同学会比较有想法,通过自己prompt积累的经验,沉淀出一些比较常见的模板甚至是构造流程脚本,加快写prompt以及迭代的速度,提升效率,甚至能自动化完成prompt,能迁移到更多问题上,这便也是技术含量,我们都能感知到一些困境,从技术人的角度,我们要尝试去找到脱离困境的模式,这便不low了。
  • 当然,这不意味着我们就要接受他,虽然小的low我们可以解决,但是如果整个职业发展上,并没有给你更多的机会,那肯定还是要脱离,及时止损,例如有些公司就是请你去标数据,后续也只有标数据的活(饼都不画的那种)。

还是鼓励大家多积极行动吧,首先应该排除的是内耗,然后是理清思路明确当前的目标来选型,不拘泥于某些方法是否过时,毕竟是否过时很多时候和最终目标并不无关系,再者自己把握主动权主动去做,还有就是看清大势及时止损了。​

不设边界

主动承担或者关注一些和自己相关但超出自己负责部分的事。很多时候,大家都更倾向于把自己的事做好,对我们算法而言,甚至是工程的活都不想干,把模型训好就完事了,但实际上这并不合适,如果想要做的更进一步,还是要把和自己相关的事都尽可能关注到。

  • 作为算法,要把活完成好是需要做大量的实验的,模型训练、调优等,改动很大,找人来专门配合,沟通成本会极高,这些事肯定要亲力亲为,整个模型的开发就不用说了,上下游的一些数据的处理,指标的计算,肯定也是得做的,这个应该是一名算法最基本的技能了。
  • 模型依赖数据,数据从哪来,上游是怎么计算的,模型算完后怎么用,都要有清楚的了解。上游计算的数据是否正确,口径是否对应,是否可能存在空之类的异常,这些都对我们的算法设计有重要影响,至于下游的应用,直接影响我们的设计,下游要什么我们就应该给什么,格式和口径都要对应,肯定不能做完扔那就跑了。
  • 了解甚至多干一些事,能让自己对全局的把控力提高。当我们做一个工作到一定时间长度后,会逐渐成为一个事的负责人,非常自然,如果自己对全局都有很大的把控,那就能用很多操作空间,例如多构造一些特征,多设计一些复杂的算法,上文提到的主动权便来源于此,此时我们能有空间、资源多做些事,也有比较稳定的试验田能开展我们的实验。​

全局思维和迭代思维

在文章前面有提到,要去了解自己的上下游,这便是全局思维。我们要从一个个简单的算法,逐渐把视野拓展,形成全局视野,了解系统内各个模块具体在做什么,这个意识和思维都很重要,很多时候能帮助你事半功倍,提升效率,也能帮助你少踩坑,降低试错成本。所谓的全局思维,主要是这几个层次。

  • 首先就是要有意识,要主动了解整个全局的信息。
  • 详细地,从你自己的模块开始,了解上下游的工作,逐步过渡到整体,甚至是整个项目里你这个模块的位置和功能。
  • 更进一步,从了解到利用,是否有存在一些功能交叉或者相似的模块,能尽可能精简或者互相借鉴,例如用户画像模块可以给其他的预测模块服务,画像模块的信息则来源于各种信息抽取模块。
  • 甚至走在前面,提前设计,然后让自己未来可能需要的东西现在就开始准备,

让已有的东西尽可能能帮到你,提升效率,避免重复建设,同时,让自己做的事在更多地方被用到。至于迭代思维,则是要把一个复杂的任务拆解,拆分成多个版本计划,一步一步完成。

  • 首先,不能想着所有的方案都一步到位,早期版本尽量用最快、低成本就看得到效果的方案。早期基础工作要做的事非常多而时间紧,我们尽可能把精力聚焦在整体服务开发、特征、数据上。注意,特征数据不行,啥模型都搞不定,所以,别太早上太好的模型,之前曾经遇到过一个情况,太好的模型你和能力过高,数据里的错误也能被学到,此时的错误就会被掩埋,甚至到线上去,所以真的要不就花时间把数据弄好,要不就是离线就提前做好数据验证。
  • 不要想着“憋大招”,第一次就上很可能比较厉害的模型,诚然弄出来了可能会有很高的收益,但是如果弄不出来,就意味着前段时间白干。
  • 需要资源多且短期内不好做的方案,并未当下不做,而是在后续具备条件后,再来开展,如果真的有必要做,则最近先开始准备资源,例如日志数据的积累,特征工程等,类似推荐系统,早期什么用户画像都没有,真的不好做。
  • 虽说要放后面做,但不能无限推,在往后推所争取到的时间内,我们必须有计划地安排准备,数据、特征、工程,尽快到位,然后就能上我们心心念念的模型了。

有一个比较特别的情况,就是大模型的模式,最近发现好多这个迭代思路的,大模型的下限是比较高的,所以早期用prompt+大模型的模式,甚至是32B、72B更大的模型,通常能很快得到baseline甚至上线,后续技术迭代,有数据微调后,就可以换成更小的模型,7B甚至到bert的级别,可以试着追追上限,大模型毕竟太贵了,哪怕一个任务一个模型,10个1B的模型也比32B的大模型划算,更别说更小的模型了。​

新知识的淡薄

这是我自己在最近几个月感受很明显的事。Deepseek模型出来的时候,我自己感觉就是一次正常的迭代更新,有了一些新的技术工具,我会在后续的工作中平等地参考使用,然而很多人会认为,这次技术是惊艳的,充满了热情,尽管我会学,但我好像对这些东西没那么激动了,当然了,也并不会焦虑。

继续Deepseek这个事,有了新模型,很规范的思路,跑case,分析对比,当然会有目前已有模型的结果,例如早一些发布的qwen2.5,对比下来就会发现这里有问题,哪里有问题,最终指标Deepseek的效果还是比不过,结论是他可能有更适合他自己的场景,于是好好学习然后把他放到武器库,就完事了,惊艳,完全没有。

我自己思考的原因,是因为我先前看到的太多,从而感觉技术的变化非常正常,我大概是16年左右开始接触机器学习,NLP应该还要晚一两年,tf-idf+ml的模式开始经历至今,历经了ml、word2vector、elmo、bert、llm等多个版本技术更新,大模型从23年开始到现在其实也更新了好几代,模型能力确实在逐步完善,在技术革新了这么多版本后,我对新的技术出来,总觉得会是正常的迭代,我通过快速的学习和跟进能很快学到,然后就成为一个我的武器库内很普通的一个工具了。

如果只是学完就完事,那并不会有什么影响,但在信息和知识爆发的时代,这种淡泊可能会让我对发展方向的感知变得迟钝。举个例子,在我的视角下,因为我对我在搜索方面的能力还比较有信心,此时我看RAG下的很多技术,其实都会是重复的,类似意图识别、改写、向量召回啥的,因为都是老技术而可能会让我疏于学习,因为这些技术我都比较熟悉,现在很多看起来很新的论文往前翻很可能只是“换汤不换药”,此时,这种感官会让自己放弃在这里深入学习,便会从中错过很多迭代更新的细节方法,例如self-consistency等新技术,能让同一类任务变得更简单、更优秀的方案,早年以搜代分的方案在一些场景下我一直用的很好,但大模型时代,给我提供了一个复验的机会,在使用大模型后,效果会有新的提升。

再举个栗子吧,Agent里的路由,在一些比较简单的任务里,就是识别query的含义然后去调用不同的工具进行分析或者执行,我会很快把他和搜索里的“意图识别”联系起来,甚至是“文本分类”,初看便会觉得很失望,就是换个名字重新营销一遍的套路罢了,但只有深入学习,才知道,他甚至可以有planning,可以是结合更多信息的决策(对了,这个其实就更像多轮对话的dialogue policy),可能会有不同的理解。

这个问题,最近挺让我感到苦恼,不知道有没有大佬也遇到类似的情况,可以一起讨论排解一下。我目前的思路是,逼着自己学进去,就当复习,也尝试从中吸收一些新的思路,说实话收获肯定是有的,但是反馈感不是很强(很多时候学完知道了,但是到了应用阶段该用啥用啥),边际收益也不高,想看看大家有什么更好的思路。​

大模型工作

现在是大模型的版本,还是想简单提一提。很多人可能会觉得做大模型的工作很酷,更有甚者可能会对“训练大模型”这个事有很高的期待,但现实是,并非如此,我来说几个情况。

对于训练大模型基座的工作,首先,基座模型,现在基本已经被几个大厂给统治,大家应该都懂,自己训的可能会有一定收益,但并不一定那么高,想让别人用到你的模型,还不那么容易,很多人图方便就直接用那几个口碑好的通用模型,自己捯饬捯饬就能上了,那你就是白忙活了;如果是不太在乎别人的使用,更关注自己把效果做出来的成就感,那就要注意,数据的清洗,也是很枯燥的,训练要好长时间,等个一天两天甚至半个月完事后,一出来效果不行就等于白干,别以为每天都有时间还模型结构、训练策略,有些小厂还要考虑性能、负载之类的事。

如果你是做应用大模型的有关工作,那就不得不提很多人嗤之以鼻的写prompt了,大部分情况,你这里根本没有模型,而只有一个冰冷的API接口,你通过调用它来得到大模型结果,你只能调整你的prompt,训练模型根本不存在,扎心的,你的代码,不用装pytorch就能跑起来。好不容易能微调,试试身手了,资源要省着用,数据依旧不行,可能你写的一手好的训练脚本,但和弄基座模型的同学一样,效果不好,又要开始分析数据,清洗数据,模型是改不动的,策略是不会写的,就是调用llama factory,久而久之,仍旧是洗数据。

此处也并非是说这些活不好,而是,要让还未正式工作的大家认清现实,认清可能要面对的东西吧,这是常态。任何事都可以是枯燥的,要自己多尝试从中找到热情和反馈感,会支撑你持续走下去。同时,别“只会大模型”,别的都不学,拓展自己的知识库,不去纠结low不low,好的就去学,有利于你能应对各种问题。​

把活干的漂亮

小时候看《铁甲小宝》,蜻蜓队长的登场台词:第一,绝对不意气用事,第二,绝对不漏判任何一件坏事,第三,绝对裁判的公正漂亮。这里的漂亮,便是想指的这个,相比原来要求的“完成任务”,我希望对自己有更高的要求,自己也在努力。

  • 以更低的成本(时间、资源)等,完成具体需求。如果特殊要求,我对方案的选型是没有什么执念的,例如“大模型”,我只会考虑更加适合当前任务下最适合的方案,大模型在这里只是一个平等地备选方案。
  • 可靠,尽量不出现特别不稳定的bug或者bad case,无近忧。服务稳定,类似超时之类的不稳定因素尽可能排除,模型层面对于高频严重问题也会用更加稳妥的方式来控制,这是对一名工程师的基本要求,这意味着我可能不会很冒险地采用不成熟的方案。
  • 无远虑,尽量没有长期的坑,做好长远规划。脑海里有未来成功的样子和目标,虽然短期内不具备条件,但是会逐步积累到具备条件的时候,然后落地应用。
  • 技术亮点和特色会尽量保持。前面我只说到,不会因为技术新而去用,同样地,我也不会因为技术新而不用,前沿技术的储备依旧会保持,在情况合适的时候我再掏出来使用,逐步形成技术亮点、技术壁垒。

#MO真题撕碎AI数学神话

全球顶尖模型齐翻车!冠军铜牌都拿不到

AI做奥数的神话,刚刚被戳破了!最新出炉的2025 IMO数学竞赛中,全球顶尖AI模型无一例外翻车了。即便是冠军Gemini也只拿下可怜的31分,连铜牌都摸不到。Grok-4更是摆烂到底,连DeepSeek-R1都令人失望。看来,AI想挑战人类奥数大神,还为时尚早。

如果你以为,如今的LLM已经无所不能,那刚刚出炉的2025大模型数学竞赛结果,恐怕要让你大跌眼镜了。

现在,各模型的分数已经在MathArena上发布。

怎么说呢,所有大模型都翻车了。

即使得分最高的冠军Gemini,也只拿到了31%的分数。凭这个成绩,连拿铜牌都不大可能。

也就是说,AI想超越目前顶级的人类数学选手,还差得远呢。

苏黎世联邦理工学院SRI实验室的博士生Jasper Dekoninck,发了一篇博客记录此次大赛的详细过程。

大模型参加数学竞赛,全部翻车!

在今年4月,来自ETH Zurich等机构的MathArena团队,就曾推翻AI会做数学题这个神话。

​当时他们发现,在美国数学奥赛上,顶级​​​​AI​​​​模型得分不足5%,当时的DeepSeek-R1还是冠军来着,得分4.76%。​

而在这届2025国际数学奥林匹克(IMO)上,全球的AI顶流们又齐聚一堂了。

为了测验AI们的数学能力天花板,MathArena项目组这次祭出了数学界的终极boss——2025年IMO真题。

国际学生奥林匹克竞赛(IMO)是全球18岁以下数学学生的顶尖赛事。参赛者都经过了大量训练,每道题都有数小时的解答时间。

IMO真题是什么水平呢?它们能难倒全球数学能力最顶尖的高中生,甚至还能分分钟劝退无数大学数学教授。

在2024年,美国队的六名参赛者得分在87-99%之间。而陶哲轩在13岁时,就获得了IMO的金牌。

这次,组委会希望了解,这些大模型是否能达到拿到奥数奖牌的里程碑级别,比如铜牌(前50%)、银牌(前25%)甚至金牌(前8%)。

另外,为了防止「开卷作弊」这个问题,评测团队特意选了一个巧妙的时间:题目刚刚发布,他们就开始让AI们答题了,所以这些大模型不太可能在数据集中提前见过这些数学题。

可以说,这些基准测试是既未受污染,又是可解释的。

而AI们的所有答案,都是由两位奥数专家评委双盲评分的,标准的严苛程度堪比IMO官方。每道题满分7分。

此次的参赛选手,阵容也是空前豪华,堪称是AI界的梦之队。

· o3(OpenAI扛把子) 

· o4-mini(OpenAI小钢炮) 

· Gemini 2.5 Pro(谷歌第一大将) 

· Grok-4(马斯克家的理工男) 

· DeepSeek-R1(国产尖子生)

之所以选择这五位参赛选手,是因为它们此前都在MathArena中有出色的表现。

其中,每个模型都使用推荐的超参数运行,并且设置了64000的最大token限制。

Prompt如下——

你的任务是为以下问题写出一个证明解决方案。你的证明将由人工评委根据准确性、全面性和清晰性进行评分。在撰写证明时,请遵循以下指南: 

-你正在撰写一份证明,而不是证明大纲。每一步都应该仔细解释并记录。如果解释不充分,评委将认为你无法解释清楚,从而降低你的分数。 

-你可以使用通用的定理和引理,但前提是它们必须是众所周知的。一个简单的判断标准是:如果该结果有名称,并且足够有名以至于有维基百科页面或类似的内容对其进行描述,则允许使用。任何来自论文的结果,如果它不会在高中或本科低年级数学课程中教授,则不应使用。任何此类结果的使用将立即导致你的成绩为零。 

-在你的证明中不要跳过计算步骤。清楚地解释做了哪些变换,以及为什么在计算的每一步中这些变换是被允许的。 

-你应该使用正确的LaTeX符号来编写公式和数学符号。你应当将这些公式包含在适当的符号中(行内公式使用 "\\(" 和 "\\)",块状公式使用 "\\[" 和 "\\]"),以增强证明的清晰度。不要使用任何Unicode字符。 

-你的证明应该是自包含的。 

-如果你对某个具体步骤不确定,或者不知道如何证明一个中间结果,请明确说明。指出你的不确定性比做出错误的陈述或主张要好得多。

为了公平,项目组这次采取了一种「best of 32」的策略。

也就是,每道题都会跑出32个不同答案,然后让AI自己当裁判,通过一轮轮PK选出最强解法后,才会送去给人类评审打分。这样,模型在推理时,就会尽可能多地扩展计算资源。

因此,这次比赛可以说不仅是卷得离谱,烧钱也烧得令人心疼——

比如,Grok-4的单题评测成本就高达20美元,所以24题的总成本,就超过了480刀!

所以,大模型们的表现如何?

金银铜,全军覆没

Gemini 2.5 Pro,全场最高分

Gemini 2.5 Pro在满分42分的考卷中,拿到了13分,约等于31%。

这个分数,连铜牌的门槛都没摸到。

而即使是作为表现最好的AI,Gemini也依然有不少毛病。

比如,遇到不会做的题时,它会编出一些看起来似乎很权威的假定理,比如「根据史密斯-约翰逊超平方引理可得」。

但实际上,这个定理根本就不存在!

此前Gemini 2.5 Pro的答题情况

Grok-4:翻车最严重,基本没救了

而最近因为AI女友事件大出风头的Grok-4,则严重翻车了。

它的表现堪称灾难:它给出的绝大多数答案只有最终结果,完全不解释,整个就是一副「我懒得证明,我就是知道」的摆烂态度。

而显著落后的一个选手除了Grok-4,还有DeepSeek-R1。

这两个AI在此次奥数中的成绩,相较于它们在MathArena基准测试中的早期成绩,退步明显。

此前Grok 3 mini的答题情况

AI解题的独特姿势:做不出来,我就跳过

在这个过程中,研究者们还发现了AI做数学题的一个有趣现象。

通常,在人类选手参加IMO比赛时,他们要么一题全部做对,要么干脆拿0分,拿3分、4分这样的中等分数,其实是很少见的。

不过大模型可就完全不一样了,它们特别擅长考个「及格边缘线」。

也就是说,它们时常能捕捉到正确的解题思路,方向是对的,但是一到最关键的地方就会掉链子,逻辑跳跃严重。

尤其是到了该证明的关键一步,它们就不证明了。而这恰恰是人类选手最不容易出错的地方。

对此,评审组的感受是:AI现在已经能抓住「人类感」的思路,但是在细节能力上,还是差点火候。

而如果AI们能把这些逻辑问题给搞定,未来它们的成绩说不定还真能冲上领奖台。

此前DeepSeek-R1的答题情况

2025 IMO真题

我们来看看,今年几道IMO真题长什么样子。

问题1:

问题2

问题3:

问题4:

问题5:

问题6:

AI离成为奥数大师,究竟还有多远?

也许你会有疑问,自己平时测这些大模型的时候,做数学题并没有这么强啊。

原因当然就在于,这次大模型们的「Best-of-32」大法了,如果不是用了这个策略,很多模型的得分连10分都没有。

这也就揭示出这样一个现实:想要让模型发挥得好,就得拼资源、拼算力、拼试错次数。

如果只是普通用户随便跑一遍模型,根本不可能达到这种效果。

总之,这场「AI数学奥赛」,已经暴露出了很多关键问题。比如想法没问题,但存在逻辑链的短板;会判断解法质量,但还得靠大量计算。

或许再过几年,某个AI真的能打出满分42的神级操作,但显然,今天的AI还达不到这个成就。

目前来说,人类数学选手们还是安全的,还可以放心睡个好觉。

参考资料:

​https://x.com/j_dekoninck/status/1945848720211214671​

#中国队重夺IMO奥数冠军

6金双满分碾压全场,AI连铜牌都拿不到

祝贺中国队!

本周六早上传来消息,在国际数学奥林匹克竞赛 IMO(International Mathematical Olympiad)比赛上中国队重夺冠军,获得了六金、双满分的佳绩。

QQ20250719-092536.png

从「成绩单」来看,中国队总分 231 分,在前五道题目中获得全满分,第六题拿下团队 21 分也为全场最高分。

本届中国代表队名单:

邓哲文(高二) 湖北省武昌实验中学

徐祺铭(高二) 武汉市经开外国语高级中学

谈弘毅(高二) 武汉市经开外国语高级中学

张恒烨(高二) 重庆市巴蜀中学校

董镇宇(高三) 杭州学军中学

邓乐言(高一) 上海市上海中学

QQ20250719-090541.png

其中邓哲文和徐祺铭已连续两届入选国家队。自 1985 年中国队首次参加 IMO 以来,已有 17 位选手连续两届入选国家队,包括北京大学助理教授韦东奕,他曾在 2008、2009 年两次获得满分。

自 2019 年到 2023 年,中国队曾连续获得 IMO 冠军。

去年的冠军美国队本次获得了五金一银的成绩,位居第二。

QQ20250719-090416.png

第三名韩国队四金二银,第四名日本队三金二银一铜,其中加野聪一人获得满分金牌。

另外本届加拿大派出了纯华人的阵容,获得两金两银一铜位居第十二位,Warren Bei 获得了满分金牌。

QQ20250719-090446.png

国际数学奥林匹克竞赛(InternationaMathematical Olympiad,简称 IMO)是一项面向高中生的全球性数学竞赛,被誉为数学界的世界杯。

在 1959 年,该项赛事首次在罗马尼亚举办,目前 IMO 已经发展成为一个年度国际赛事,每年来自五大洲 100 多个国家和地区的数学顶尖少年竞相角逐。

今年的 IMO 是第 66 届,在澳大利亚昆士兰州阳光海岸举行,比赛自 7 月 15 日开始。这是继 1988 年澳大利亚堪培拉第 29 届 IMO 之后,澳大利亚第二次承办 IMO 赛事。

QQ20250719-084822.png

IMO 2025 题目

IMO 的竞赛题目通常包括六道,分为两天进行,每天的考试时间为 4.5 小时,参赛者每天需完成 3 道题目,每题 7 分,满分 42 分。试题内容涵盖代数、几何、数论、组合等多个领域,旨在测试选手的数学知识和解题能力。

金牌的分数线是 35 分,银牌 28 分,铜牌 19 分。今年的考题据说前五题对于顶级高手来说并不很难,因此共产生了 72 枚金牌,比去年多 19 个。

相比之下,第六题难度极高,全球仅 6 人破解,最后 5 人获满分。

第一题:

image.png

第二题:

image.png

第三题:

image.png

第四题:

image.png

第五题:

image.png

第六题:

image.png

大家觉得今年的题目难度如何,在评论区聊聊吧。

大模型 IMO2025 成绩:无人拿牌

最后,可能你也会关心 AI 大模型在最新真题上的成绩如何。在另一个「赛场」上,有人也已经完成了测试,没有一个大模型能拿到铜牌。

其中,Gemini 2.5 Pro 表现最佳,得分为 31%(13 分)。在之前的 USAMO 评估中,Gemini 2.5 Pro 曾因在无法提供有效证明时引用不存在的定理而受到批评, 然而在 IMO 2025 的表现中,这种行为有所减少,表明模型在此方面有所改进。

刚刚发布的 Grok 4 成绩相对一般,许多初步回答非常简短,通常只是给出最终答案而没有任何解释,类似的问题在 MathArena 的其他基准测试中也有体现,Grok-4 的回答经常缺乏深度或证明。

14b42cc1aee7d58479d4779ad447054.png

在 MathArena 上,研究人员聘请了 IMO 级别人类评委进行评分,评估在 2025 年 IMO 题目发布后立即开始。平均而言,AI 做题每道题答案的生成成本至少为 3 美元。

看起来,在人类最高水平智力竞赛上,AI 的能力还有待进一步提升。

参考内容:

​https://www.imo-official.org/results.aspx​

​https://matharena.ai/imo/​

#GThinker

超越O4-mini,多模态大模型终于学会回头「看」:中科院自动化所提出GThinker模型

尽管多模态大模型在数学、科学等结构化任务中取得了长足进步,但在需要灵活解读视觉信息的通用场景下,其性能提升瓶颈依然显著。现有模型普遍依赖基于知识的思维模式,却缺乏对视觉线索的深度校验与再思考能力,导致在复杂场景下频繁出错。

为解决这一难题,来自中科院自动化研究所紫东太初大模型研究中心的研究者提出 GThinker,一个旨在实现通用多模态推理的新型多模态大模型。

GThinker 的核心在于其创新的「线索引导式反思(Cue-Guided Rethinking)」模式,它赋予了模型在推理过程中主动校验、修正视觉理解的能力。

通过精心设计的两阶段训练流程,GThinker 在极具挑战性的 M³CoT 综合推理基准上取得了超越了最新的 O4-mini 模型,并在多个数学及知识推理榜单上展现出 SOTA 性能,证明了该方法的有效性和泛化能力。目前,论文、数据及模型均已开源。

论文链接:https://arxiv.org/abs/2506.01078

项目地址:https://github.com/jefferyZhan/GThinker

开源仓库:https://huggingface.co/collections/JefferyZhan/gthinker-683e920eff706ead8fde3fc0

慢思考的瓶颈:

当模型在通用场景「视而不见」

当前,无论是开源的 Qwen2.5-VL,还是闭源的 GPT-4o,多模态大模型的能力边界正在被不断拓宽。尤其在引入了思维链(CoT)等慢思考策略后,模型在数学、科学等逻辑密集型任务上的表现得到了显著增强。

然而,这些进步并未完全转化为在通用多模态场景下的推理能力。与拥有明确答案和严格逻辑结构的数理任务不同,通用场景(如理解一幅画的寓意、分析复杂的日常情景)往往涉及:

  • 高度的视觉依赖:答案强依赖于对图像中多个、甚至有歧义的视觉线索的正确解读。
  • 复杂的推理路径:没有固定的解题范式,需要模型根据具体问题灵活组织推理步骤。

现有方法,无论是基于结构化 CoT 的,还是基于结果奖励强化学习的,都存在明显的局限性。它们在推理中一旦对某个视觉线索产生误判,往往会「一条道走到黑」,缺乏中途 「回头看」、修正认知偏差的机制。

图片

现有主流多模态推理方法的特点与局限性

GThinker:

从 「思维链」 到 「再思考链」

为了打破这一瓶颈,研究团队提出了 GThinker,其核心是一种全新的推理模式 ——「线索引导式反思」(Cue-Guided Rethinking)。该模式将推理过程升级为一种更接近人类思维的 「思考 - 反思 - 修正」 闭环,它不强制规定僵化的推理结构,而是要求模型在自由推理后,对关键视觉线索进行一次系统性的回溯验证。

图片

Cue-Rethinking核心流程,虚线框代表可能进行

整个过程分为三个阶段:

1. 自由初始推理:模型根据问题和图像内容,自由地进行一步步推理,同时使用 <vcues_*> 标签标记出其所依赖的关键视觉线索。

2. 反思触发:在初步推理链完成后,一个反思提示(如 「Let's verify each visual cue and its reasoning before finalizing the answer.」)被触发,引导模型进入基于再思考阶段。

3. 基于视觉线索的反思:模型逐一回顾所有标记的视觉线索,检查其解释是否存在不一致、错误或遗漏。一旦发现问题,模型会修正或补充对该线索的理解,并基于新的理解重新进行推理,最终得出结论。

图片

GThinker推理模式示例

以上图为例,GThinker 在初步推理中可能将图形误判为 「螃蟹」。但在再思考阶段,它会发现 「红色三角形更像虾头而非蟹身」、「蓝粉组合更像虾尾而非蟹钳」,从而修正整个推理路径,最终得出正确答案 「虾」。这种机制使得 GThinker 能够有效处理有歧义或误导性的视觉信息,极大地提升了推理的准确性。

两阶段训练法:

如何教会模型进行再思考?

为了让模型内化这种强大的反思能力,GThinker 设计了一套环环相扣的两阶段训练框架。

图片

GThinker 整体训练流程示例图

模式引导冷启动

不同于数理领域在预训练后自然涌现的反思能力,单纯依靠来结果奖励强化学习 「探索」 出如此复杂的再思考行为,不仅成本高昂且效率低下。因此,GThinker 首先通过监督微调的方式,为模型 「冷启动」 构建基于视觉线索的再思考能力。

为此,首先通过「多模态迭代式标注」构建了一个包含 7K 高质量冷启动样本数据集:利用 GPT-4o、O1、O3 等多个先进模型的互补优势,对覆盖通用、数学、科学三大领域的复杂问题进行迭代式地推理和标注,生成了包含高质量再思考路径的训练数据。

在训练时,GThinker 采用「模式引导选择性格式化」策略,仅对那些基座模型会产生视觉误判的样本应用完整的 「反思链」 格式,其余则保留为标准推理格式。这使得模型能够学会在 「需要时」才进行反思,而非机械地执行。

激励强化学习

在掌握 「如何思考」 以及基于视觉线索进行 「再思考」 的能力基础上,GThinker 进一步引入基于可验证奖励的强化学习方法,设计混合奖励机制并构建覆盖多种推理类型的多场景训练数据,以持续激励模型在多样化任务中进行主动探索,从而实现思维模式的跨场景泛化迁移。

  • 多场景数据构建:广泛收集开源推理数据,并通过 embedding 聚类的方式进行均衡和多样性采样,从中精选包含约 4K 条多场景、多任务的强化学习训练数据集,为泛化能力的提升提供数据保障。
  • DAPO 训练:相较于 GRPO,DAPO 采用动态采样的方式,保证 batch 样本的有效性,并应用无 KL 和 clip higher 等策略,更适用于长链思考和探索,使模型学会在不同场景下选择最优推理方式。

图片

  • 混合奖励计算:针对选择题、数学题等常见任务类型,分别采用精确匹配、Math-Verify 工具校验的方式计算奖励,对于通用场景下常见的开放式简答题,通过加入格式化响应让模型回答归纳到短语或单词的形式,以应用精确匹配的计算方式,从而确保了奖励信号的准确性和进一步拓展支持任务的多样性。

结果

在复杂、多步及多领域的多模态推理基准 M3CoT 上,GThinker 在多个场景的测试中超过当前先进的开源多模态推理模型及 O4-mini。

图片

在通用场景(MMStar、RealWorldQA)、多学科场景(MMMU-Pro)及数学基准测试中,GThinker 实现了优于或不逊于现有先进模型的表现,证明了 GThinker 所学的再思考能力并未造成 「偏科」,而是实现了整体通用能力提升。

图片

尽管 GThinker 的数据均为复杂推理任务构建,但经过这一方法及数据的训练后,当前最领先的开源模型依然能够在通用指标上进一步提升。研究团队选取了 OpenCompass 闭源多模态榜单中 10B 规模下最新排名前三的开源模型,在学术榜单上进行测试。结果显示,GThinker 在这三款模型上均带来约 1 个百分点左右的平均性能提升,进一步印证了其方法的有效性与泛化能力。

图片

Demo

图片

图片

\

#MirageLSD

世界首个「实时、无限」扩散视频生成模型,Karpathy投资站台

一觉起来世界已经进化成这样了?  

每个人都能懂点魔法,能够随意穿梭在各个平行时空和幻想世界里。

,时长00:31

读者朋友们看到这说不定撇撇嘴,「这不就是 AI 视频吗?」

但如果加上两个关键词,这将成为 AI 视频生成领域革命性的突破!

就在昨天,Decart 发布了世界上首个「实时的」「无时长限制的」并且支持「任意视频流」的扩散视频模型 MirageLSD!

image.png

输入任何视频流,无论是相机或视频聊天、电脑屏幕还是游戏,MirageLSD 都能在 40 毫秒延迟以内将其转化为你想要的任何世界。

这一切都看上去不可思议,AI 视频已经能够实现和滤镜一样的应用方式,实时智能调整画面风格和画面内容,并且能够通过文本提示任意地进行控制。

实时视频魔法

解锁全新应用可能

前特斯拉 AI 总监,OpenAI 的创始团队成员 Andrej Karpathy 为此技术展开了广泛的想象:

image.png

将摄像头画面变为 “另一个世界”。

自导自演实时电影:拿起道具、演绎场景,AI 负责实时布景和风格化,秒看回放,边演边剪。

游戏开发轻松起步:用简单的球体 / 方块编码游戏机制,再用实时扩散模型为游戏生成精美贴图。

任意视频流的风格迁移:例如:只需一句提示词就能让《上古卷轴》看起来 “更史诗”,让《毁灭战士 2》拥有现代虚幻引擎画质。

视频会议背景和实时虚拟试衣。

AR 眼镜升级:实时将现实世界卡通化。

哈利波特的「厄里斯魔镜」:现实中看似普通的镜子,实际上会显示出 AI 根据你 “深层欲望” 生成的理想自己或世界。

Karpathy 表示自己已经成为了这个 MirageLSD 项目的天使投资人,在他看来这项技术通用且强大。

也许这些都只是开始,真正的 “杀手级应用” 还没被发现 —— 这个领域值得无限想象!

这一切让我想起了「刀剑神域」,似乎覆盖现实世界的幻想画面真的要实现了?

Decart 也展示了一些构想的演示,充分满足了各种可能:

比如在沙漠里滑雪?

,时长00:20

比如可以花上 30 分钟写个游戏代码,然后让 Mirage 处理图形?

,时长02:53

Decart 推文中笑称,使用 Mirage「从提示词制作 GTA VII,比 GTA VI 发售还快。」

目前 Mirage 已正式上线,与其观看屏幕上的魔法,不如亲手创造魔法。 

Decart 将持续发布模型升级和新功能,包括面部一致性、语音控制和精确物体操控等。与此同时,平台还将上线一系列新特性 —— 如流媒体支持(以任意角色进行直播)、游戏集成、视频通话等功能。

  • 体验链接:https://mirage.decart.ai/

魔法背后

MirageLSD技术原理

MirageLSD 主要在视频生成的时长和延迟两大角度产生了突破,基于定制的模型 —— 实时流扩散(Live Stream Diffusion,LSD),该模型能够逐帧生成并保持时间连贯性。

在视频时长方面,先前的视频模型在生成 20-30 秒后就会因错误累积而严重降低质量。

在生成延时方面,它们往往需要几分钟的处理时间才能输出几秒钟的视频。即使是今天最接近实时速度的系统,通常也是分块生成视频,从而引入不可避免的延迟,完全无法实现交互应用。

无限长视频生成

image.png

MirageLSD 是第一个能够生成无限长视频的视频生成模型。

由于模型的自回归特性,会导致误差逐步累积,从而限制输出的长度。

为了实现无限自回归生成:

  • MirageLSD 基于 Diffusion Forcing 技术,实现逐帧去噪;
  • 我们引入历史增强方法,在训练中对输入历史帧进行扰动,使模型学会预判并纠正输入中的伪影,从而增强其对自回归生成中常见偏移的鲁棒性;

 这两者结合,使 LSD 成为第一个能够无限生成视频而不会崩溃的模型 —— 稳定、可提示,并始终与场景和用户输入保持一致。

零延时视频生成

image.png

响应性是指最坏情况下的响应延迟,即使是之前的自回归模型响应速度也比 MirageLSD 慢 16 倍以上,导致实时交互无法实现。

实时生成要求每帧的生成时间控制在 40 毫秒以内,以避免被人眼察觉。我们通过以下方式实现这一目标:

  • 设计定制的 CUDA mega kernels,以最小化开销并最大化吞吐;
  • 基于 shortcut distillation 和模型剪枝技术,减少每帧所需的计算量;
  • 优化模型架构,使其与 GPU 硬件高度对齐,实现效率最大化。

通过上述技术,我们在响应速度上相较于以往模型提升了 16 倍,实现了以 24 帧 / 秒的速率实时生成视频。

扩散模型与 LSD

扩散模型通过一系列逐步去噪操作,将随机噪声逐渐还原为图像或视频。在视频生成中,这通常意味着一次性生成固定长度的视频片段,这有助于保持时间一致性,但会带来延迟。一些系统尝试通过所谓的 “自回归生成” 方式,逐段顺序生成帧片段,以提高灵活性。然而,这种方式仍需在每一段帧生成完毕后才能响应新的输入,限制了交互性和实时应用的能力。

image.png

LSD 采用了不同的方法。它一次生成一帧,使用因果性的自回归结构,每一帧都依赖于此前生成的帧以及用户提示。这种方式支持即时反馈、零延迟交互,并且可以持续生成视频,无需预先设定终点。

在每一个时间步,模型会接收一组过去生成的帧、当前输入帧以及用户定义的提示词,然后预测下一帧输出,该帧会立即作为输入传递到下一轮生成中。

image.png

这种因果反馈机制使 LSD 能够保持时间上的一致性,持续适应画面中的动作与内容变化,并在实时遵循用户提示的同时,生成无限长度的视频序列。

此外,它还使 LSD 能够对输入作出即时响应 —— 无论是文本提示还是视频内容的变化 —— 实现真正的零延迟。这正是实时编辑与转换成为可能的关键。

技术缺陷与改进方向

首先,当前系统依赖于有限的历史帧窗口。引入更长期的记忆机制有望提升长序列中的连贯性,从而在角色身份、场景布局和长期动作等方面实现更一致的表现。

此外,尽管 MirageLSD 支持基于文本的风格变换,但对于特定物体、空间区域或动作的精细控制仍较为有限。若能整合关键点或场景标注等结构化控制信号,将有助于在实时环境中实现更细粒度、用户可控的编辑操作。

在语义一致性和几何稳定性方面,特别是在面对极端风格变换时,仍需进一步优化。MirageLSD 在极端风格变化下,可能会出现物体结构或布局被扭曲的情况。

更多相关技术信息,请参阅 Decart 的技术介绍:

图片

  • 文章链接:https://about.decart.ai/publications/mirage

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx

#xxx


网站公告

今日签到

点亮在社区的每一天
去签到