如何預(yù)期DeepSeek傳言中的R2新模型

快訊 2025年02月26日 11:30 3 admin

　　炒股就看金麒麟分析師研報，權(quán)威，專業(yè)，及時，全面，助您挖掘潛力主題機會！

　　信息平權(quán)

　　路透2月25日報道了DeepSeek可能在5月前發(fā)布r2。之前DeepSeek研究員Daya在2月初已經(jīng)說過：RL還在早期，今年會看“顯著進步”（significant?progress）

　　其實在r1論文中也提到過：由于目前RL訓(xùn)練數(shù)據(jù)還很少，R1的下個版本會大幅提升。

如何預(yù)期DeepSeek傳言中的R2新模型

　　也就是r1論文中的下圖，以及論文所述：隨著RL數(shù)據(jù)的增加，模型不僅解決復(fù)雜推理任務(wù)的能力持續(xù)穩(wěn)定提升，且會自然涌現(xiàn)出一些復(fù)雜行為能力，比如“反思”、“探索不同方法”。這些能力不是人類設(shè)計，而是隨著模型在RL環(huán)境中訓(xùn)練，自然涌現(xiàn)的。

如何預(yù)期DeepSeek傳言中的R2新模型

　　粗淺的理解，現(xiàn)在不需要算法上的巨大創(chuàng)新，按照目前路線+更多算力+DS如此強的infra能力，基于目前的V3基座模型，依然可以取得r2/r3。當看到RL提升邊際放緩，再基于新的基座V4，繼續(xù)做RL，進一步推進推理模型提升。也就是下面這張圖：（左腳踩右腳示意圖）

如何預(yù)期DeepSeek傳言中的R2新模型

　　而參考OpenAI的路線圖，o3已經(jīng)決定不發(fā)布完整模型，GPT-4.5也成了最后一個獨立發(fā)布的基座模型，意味著GPT-5（混合模型）開始，越來越黑盒。說白了，以后無論是基座模型還是推理模型本身，都是“原料”而不是“最終產(chǎn)品”，CloseAI和Anthropic一定會雪藏。

如何預(yù)期DeepSeek傳言中的R2新模型

　　但DeepSeek要做的，就是在別人繼續(xù)閉源的時候，繼續(xù)開源。r2應(yīng)該對標的是o3完整版，而V4至少應(yīng)該對標GPT-4.5，基于V4+RL的模型，應(yīng)該對標是未來的所謂“GPT-5”。因此合理預(yù)期應(yīng)該是V4可能會加入多模態(tài)能力，但r系列依然是推理模型。且這個過程中，所有的“原料”全部開源，不僅原料開源，按照這次代碼五連發(fā)，連制造原材料的“配方”都直接開源。

　　這里面其實沒有什么DeepSeek不知道的秘密，甚至在infra層面遠超北美很多模型大廠。今天我們在討論的：DeepSeek甚至可能比英偉達更懂如何使用GPU。而所謂Research上的創(chuàng)新，OpenAI o系列的靈感也來自于早已發(fā)表的“開源”paper，疊加自己的算力優(yōu)勢和工程探索實現(xiàn)。說到底沒人全靠自己閉門造車，都受益于全世界“開源”研究或?qū)嵺`的喂養(yǎng)。

　　因此說回來，相比于r2，大家反而應(yīng)該更期待V4，因為這打開了推理模型另一個level天花板，開辟的是另一條全新跑道。r2是時間表上確定的事情，而V4會是一個驚喜。這都會在今年發(fā)生。

　　（完）

　　文章內(nèi)容有刪減

標簽：言中預(yù)期 DeepSeek