Cogito v1 Preview 文章讲解
一、项目介绍
Cogito v1 Preview 是一个关于人工智能(AI)的重要项目,旨在通过迭代改进的方法(Iterated Distillation and Amplification,简称 IDA)来实现通用超级智能(general superintelligence)。该项目由 Deep Cogito 团队开发,团队位于旧金山,并得到了一些顶级风险投资公司的支持。
二、背景知识
文章首先回顾了 AlphaGo 等游戏 AI 的成功,这些 AI 在特定领域展现了超越人类的能力。然而,当前的大型语言模型(LLM)训练范式存在局限性,因为它们的智能水平受限于监督者(overseer)的能力。为了实现通用超级智能,必须超越这些限制。
三、研究方法
3.1 迭代蒸馏与放大(IDA)
IDA 是一种可扩展且高效的对齐策略,用于通过迭代自我改进来实现通用超级智能。具体步骤如下:
放大(Amplification):使用更多的计算资源让模型得出更好的解决方案。
蒸馏(Distillation):将昂贵的思考过程蒸馏回模型的参数中,以内部化放大的能力。
通过重复这两个步骤,每个周期都建立在前一个周期的进展之上,从而形成一个正反馈循环。这种循环使模型的能力越来越多地由计算资源和放大-蒸馏过程的有效性决定,而不是原始监督者的能力。
3.2 模型训练
Cogito 团队使用 IDA 方法训练了不同大小的 LLM(3B、8B、14B、32B 和 70B),这些模型在大多数标准基准测试中均优于同尺寸的最佳开源模型,包括 LLaMA、DeepSeek 和 Qwen 的对应模型。特别是 70B 模型还优于新发布的 Llama 4 109B MoE 模型。
四、关键结论
模型性能:Cogito 的 LLM 在直接模式(standard LLM)和推理模式(self-reflect before answering)下均表现出色。
迭代改进:IDA 方法比其他流行的方法(如 RLHF 和从更大模型中蒸馏)更高效、更可扩展。
模型发布计划:团队计划在未来几周/几个月内发布更大的模型(109B、400B、671B)以及每个模型尺寸的改进检查点。
五、实验结果
文章展示了 Cogito 模型在不同基准测试中的表现,包括 3B、8B、14B、32B 和 70B 模型的性能。这些基准测试是行业标准,展示了 IDA 的有效性。尽管这些基准测试提供了一个有用的信号,但它们并不能完全捕捉实际性能。在实际应用中,基准测试分数与模型满足用户需求的能力之间的相关性较为松散。
六、未来展望
Deep Cogito 团队正在研究补充的自我改进方法,并计划在未来几周和几个月内发布每个模型尺寸的更新检查点以及更大的模型。所有模型都将开源。
七、团队介绍
Deep Cogito 致力于构建通用超级智能,这需要科学突破,如高级推理和迭代自我改进,不仅要匹配人类水平的能力,还要发现我们尚未想象的全新能力。团队由世界顶级工程师和研究人员组成,得到了一些顶级 AI 风险投资公司的支持。
八、其他
涉及多个优秀团队和项目的支持,包括 Llama 团队、Qwen 团队、Huggingface、RunPod、Fireworks AI、Together AI、Ollama 和 Nebius。