老外还是仔细看DeepSeekV3.2技术报告

Henry 发布者:奥飞斯量子比特 |公众号 在 ChatGPT 三岁生日之际,DeepSeek 推出了在硅谷掀起波澜的新模式。准确来说,这是两个开源模型:DeepSeek-V3.2DeepSeek-V3.2-Speciale。这两款车型有多受欢迎?有网友表示,在飞往圣地亚哥的航班上(显然是为了参加 NeurIPS 2025),有 30% 的乘客在看 DeepSeek PDF。上周一条将 DeepSeek 嘲笑为“昙花一现”的推文在发布当晚的浏览量就达到了 500 万次。除了普通网友之外,奥特曼也着急了。除了发布红色警报外,我们还暂时推迟了在 ChatGPT 上投放广告的计划。与此同时,谷歌也未能幸免。网友们直接向谷歌Gemini团队“喊话”:别睡了,DeepSeek回来了。发生了什么?闭源精英?我们正在对抗它!闭源项目!总体来看,DeepSeek-V3.2模型达到了目前开源模型的最高水平n 代理评估,显着缩小开源模型与领先的闭源模型之间的差距,标志着闭源落后于开源的时代结束。其中,标准版DeepSeek-V3.2在推理测试中达到了GPT-5的水平,仅略逊于Gemini-3.0-Pro。 “特别版”DeepSeek-V3.2-Speciale不仅各方面表现优于GPT-5,在常规推理任务上也能与Gemini-3.0-Pro竞争。此外,V3.2-Special还获得了IMO、CMO、ICPC和IOI金牌,并在ICPC和IOI人类玩家中排名第二和第十。这不仅打消了开源模式比闭源模式落后六个月的疑虑,而且也给行业带来了很大的压力。另外,这还不是 V4/R2。所以还没等主菜上桌,硅谷就已经布满了冷盘。对于DeepSeek-V3.2的成果,DeepSeek研究院的志斌给出了评价Twitter 上的直观答案:强化学习即使在长时间的环境中也可以继续扩展。为了理解这个说法,我们先简单回顾一下这篇文章。综上所述,DeepSeek-V3.2实际上做了以下事情:首先,我们利用DSA稀疏注意力解决长上下文效率问题,为后续长序列的强化学习奠定计算基础。其次,通过引入可扩展的强化学习,并将预训练成本的 10% 或更多投入到后训练中,可以显着提高模型代理的整体推理能力和能力。最后,为了探索推理能力的极限,DeepSeek-V3.2-Speciale 有意放宽了 RL 长度限制,让模型能够生成很长的“思维链”。该模型通过生成大量token来进行细粒度的自我修正和探索。这意味着模型可以更多地通过长思路思考,可以更多地通过自我修正思考影响探索,从而释放更强的推理能力。因此,该模型可以通过更长的思考过程(消耗更多的代币)实现显着的性能提升,而无需增加预训练的规模。上述实验结果证明了这种“超长上下文中持续拓展强化学习”路线的正确性。正如苟志斌所说,如果说 Gemini-3 证明了预训练可以继续扩展,那么 DeepSeek-V3.2-Speciale 则表明强化学习可以在长期环境下继续扩展。我们花了一年的时间将 DeepSeek-V3 推向极限。吸取的教训是,训练后阶段的瓶颈是避免等待“更好的基础模型”。这意味着问题不是通过改进方法和数据本身来解决的,而是通过改进方法和数据本身来解决的。也就是说,如果Gemini-3凭借“知识山(预训练)”赢得了上半场,DeepSeek-V3.2-Speciale凭借“思想之山(长上下文RL)”赢得了下半场。此外,对于大型模型停滞不前的争论,他表示:“预训练是可扩展的,强化学习是可扩展的,上下文是可扩展的,所有维度都在不断增加。”这表明强化学习不仅有效,而且还可以通过扩展(更大的批次、更长的上下文、更丰富的任务)获得显着的好处。同时,在论文中,也有网友发现了为什么DeepSeek-V3.2在HLE、GPQA等知识测试中表现稍差。这是因为计算资源是有限的。仅靠强化学习无法达到这个水平。换句话说,DeepSeek与高端模型的差距不再是技术问题,而是经济问题。好的开源并不比闭源差,只要牌足够好。本以为会很便宜,没想到这么便宜。 DeepSeek-V3.2系列不仅具有与顶级相同的性能闭源模式,但现在每个人都可以体验“一种廉价到不需要付费的智能”。着眼于100万个代币的生产成本,DeepSeek-V3.2比GPT-5便宜近24倍,比Gemini 3 Pro便宜近29倍。随着输出令牌数量的增加,这种差异最多可以增加 43 倍。这是什么概念?就好像你想要一个大模型一次“写”一套《三体》三部曲,使用GPT-5需要800元左右,使用Gemini 3 Pro则需要1000元左右。使用DeepSeekV3.2的成本仅为35元左右。因此,性能几乎相同,但价格却相差数十倍的情况可能会出现。我应该选择哪一边?答案很明显,对吧?对此,有网友表示,DeepSeek-V3.2这种经济实惠的开源模型正在挑战Gemi。 ni3.0专业版另一方面,OpenAI 高昂的订阅费用很快就变得令人沮丧。当然,这并不意味着深SeekV3.2没有任何缺点。正如一位网友指出的,解决同样的问题,Gemini 只需要 20,000 个代币,而 Speciale 需要 77,000 个代币。 (这实际上是用上面提到的RL进行补偿)。不过,低廉的价格也掩盖了现阶段Speciale版本的一些弱点。总体而言,DeepSeek 更加实惠。此外,更令硅谷担忧的是,DeepSeek-V3.2可以直接部署在国内计算强国(华为、寒武纪)上,这将进一步降低模型推理的成本。此前,DeepSeek-V3.2-Exp发布时,DeepSeek在发布首日就对华为Ascend硬件和CANN软件栈进行了优化。尽管没有明确说明这个 DeepSeek-V3.2 系列,但他们很可能会继续之前的策略。换句话说,不仅谷歌和OpenAI伤心,也许他们的好兄弟Nvidia也伤心。不过,这里的价格只是原价模型公司的 ce,而不是实际的推理成本。虽然我们无法知道每个模型的实际推理成本,但我们可以在 DeepSeek 白皮书中看到一个明显的趋势。与上一代模型 DeepSeek-V3.1-Terminus 相比,DeepSeek-V3.2 在最长上下文场景(128K)下成本降低了约 75% 至 83%。这意味着由于注意力机制和训练后的持续优化,底层推理的成本不断降低。一位网友总结道:DeepSeek证明强大的AI并不一定需要过多的资本投入。 [1]https://x.com/airesearch12/status/1995465802040983960[2]https://www.nbcnews.com/tech/innovation/silicon-valley-building-free-chinese-ai-rcna242430
特别提示:以上内容(包括图片、视频,如有)由自有媒体平台“网易账号”用户上传发布。本平台仅提供信息存储服务。
注:以上内容(包括图像和视频,如果有的话)由社交媒体平台网易号的用户上传和发布。 rm仅提供存储服务。

此条目发表在吃瓜热门分类目录。将固定链接加入收藏夹。

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注