中信證券：看好DeepSeek新一代模型帶動(dòng)云端推理需求爆發(fā)，加速AI應(yīng)用端側(cè)落地

快訊 2025年02月16日 04:45 6 admin

　　炒股就看金麒麟分析師研報(bào)，權(quán)威，專業(yè)，及時(shí)，全面，助您挖掘潛力主題機(jī)會(huì)！

　　中信證券研究文|徐濤? 楊澤原? 雷俊成? 王子源? 夏胤磊? 程子盈

　　DeepSeek通過工程化能力創(chuàng)新，實(shí)現(xiàn)了大模型訓(xùn)練和推理算力成本的極致優(yōu)化，也為端側(cè)部署高性能模型提供新的方向。本篇報(bào)告我們通過分析DeepSeek V3和R1模型論文，理解其核心邏輯是“按需分配算力，最小化冗余計(jì)算”，使得千億級(jí)模型在低成本硬件（甚至邊緣設(shè)備）上高效運(yùn)行成為可能，為大規(guī)模商業(yè)化落地提供了技術(shù)基礎(chǔ)。我們看好DeepSeek新一代模型帶動(dòng)云端推理需求爆發(fā)，加速AI應(yīng)用端側(cè)落地：建議核心關(guān)注晶圓代工、國(guó)產(chǎn)算力芯片、定制化存儲(chǔ)、終端品牌、SoC五大方向。

　　▍DeepSeek如何實(shí)現(xiàn)的訓(xùn)練成本降低？

　　1）架構(gòu)創(chuàng)新： DeepSeek-V3的基礎(chǔ)架構(gòu)中采用了DeepSeekMoE專家架構(gòu)和MLA多頭潛在注意力機(jī)制，DeepSeekMoE通過細(xì)粒度專家分配、共享專家及無輔助損失負(fù)載均衡策略優(yōu)化傳統(tǒng)MoE，提升計(jì)算資源效率；MLA通過低秩聯(lián)合壓縮減少注意力鍵值緩存占用，提升計(jì)算效率、減少內(nèi)存消耗。

　　2）FP8混合精度訓(xùn)練：在全球主流大模型中率先采用FP8低精度數(shù)據(jù)進(jìn)行大規(guī)模訓(xùn)練，大部分核心計(jì)算用FP8提升速度、降低內(nèi)存用量，部分關(guān)鍵操作保留高精度確保動(dòng)態(tài)穩(wěn)定性。

　　3）訓(xùn)練工程優(yōu)化：DeepSeek在主流大模型中率先采用硬盤充當(dāng)輸入端緩存，設(shè)計(jì)DualPipe算法實(shí)現(xiàn)高效流水線并行，融合前后向通信階段，減少阻塞；采用定制化高效跨節(jié)點(diǎn)all-to-all通信內(nèi)核降低通信開銷；通過重計(jì)算、EMA、共享向量和輸出頭減少內(nèi)存占用。

　　4）數(shù)據(jù)策略優(yōu)化：應(yīng)用多token預(yù)測(cè)機(jī)制MTP，增加訓(xùn)練信號(hào)密度，減少20%訓(xùn)練迭代次數(shù)，幫助模型捕捉長(zhǎng)距離依賴關(guān)系。

　　▍DeepSeek如何實(shí)現(xiàn)的推理成本降低？

　　DeepSeek-V3對(duì)推理的預(yù)填充和解碼兩個(gè)階段都優(yōu)化了專家使用效率：預(yù)填充階段MoE用EP32及冗余專家策略提升效率，解碼階段探索動(dòng)態(tài)路由減少通信開銷；還通過支持FP8、INT8量化和提供蒸餾版本，實(shí)現(xiàn)低精度量化與模型壓縮，減少顯存占用。DeepSeek的開源生態(tài)可以更好支持硬件廠商適配，例如可以對(duì)MLA算子優(yōu)化提升推理效率，DeepSeek-R1發(fā)布后國(guó)內(nèi)外芯片廠商快速響應(yīng)支持DeepSeek。1月25日，AMD宣布已將新的DeepSeek-V3集成到Instinct MI300X GPU上并經(jīng)過SGLang對(duì)推理過程進(jìn)行了優(yōu)化，英偉達(dá)、英特爾也隨后在1月31日官宣支持。國(guó)內(nèi)廠商都已經(jīng)官宣完成對(duì)DeepSeek的適配，國(guó)產(chǎn)算力成為相對(duì)穩(wěn)定可靠的選項(xiàng)，支撐國(guó)產(chǎn)大模型從研發(fā)走向商業(yè)化。

　　▍從DeepSeek算力需求看AI芯片設(shè)計(jì)方向？

　　DeepSeek 在論文的芯片設(shè)計(jì)意見指導(dǎo)中指出通信和計(jì)算同等重要，計(jì)算方面降低精度和內(nèi)存需求是關(guān)鍵。在通信硬件優(yōu)化上，DeepSeek建議開發(fā)獨(dú)立通信協(xié)處理器，實(shí)現(xiàn)計(jì)算與通信物理分離，同時(shí)建議融合網(wǎng)絡(luò)架構(gòu)，統(tǒng)一IB和 NVLink的網(wǎng)絡(luò)協(xié)議棧，統(tǒng)一通信接口以簡(jiǎn)化編程復(fù)雜度和降低通信延遲；在計(jì)算硬件優(yōu)化上，建議提升 FP8 計(jì)算精度，并支持分塊量化與在線量化，減少訪存開銷，提升推理效率。我們認(rèn)為DeepSeek建議帶來兩點(diǎn)啟示：

　　1）“推理速度”基本90%是由decoding階段決定的，因此內(nèi)存容量決定大模型推理速度，我們認(rèn)為內(nèi)存升級(jí)仍是算力芯片升級(jí)的重點(diǎn)方向，看好近存計(jì)算發(fā)展。

　　2）我們認(rèn)為在模型開源的策略下，DeepSeek-R1蒸餾后的小模型性能有望持續(xù)快速提升，幫助端側(cè)硬件加速接入，助力AI應(yīng)用全面落地。我們看好品牌商和SoC芯片廠商的成長(zhǎng)機(jī)遇。

　　▍風(fēng)險(xiǎn)因素：

　　算力芯片供應(yīng)鏈風(fēng)險(xiǎn)；芯片產(chǎn)能供給不足的風(fēng)險(xiǎn)；互聯(lián)網(wǎng)大廠資本開支不及預(yù)期；相關(guān)產(chǎn)業(yè)政策出臺(tái)力度不及預(yù)期；AI技術(shù)及應(yīng)用發(fā)展不及預(yù)期；芯片技術(shù)迭代不及預(yù)期；國(guó)產(chǎn)先進(jìn)制程量產(chǎn)進(jìn)展不及預(yù)期；行業(yè)競(jìng)爭(zhēng)加劇等。

　　▍投資策略：

　　我們看好DeepSeek新一代模型帶動(dòng)云端推理需求爆發(fā)，加速AI應(yīng)用端側(cè)落地：

　　1）云端：DeepSeek有望開啟全新的Scaling Law，模型重心逐步從預(yù)訓(xùn)練切換到強(qiáng)化學(xué)習(xí)、推理階段，助力算力需求持續(xù)增長(zhǎng)。

　　2）終端：我們看好DeepSeek帶來模型輕量化的全面升級(jí)，端側(cè)硬件接入有望加速爆發(fā)，助力AI應(yīng)用全面落地，建議關(guān)注品牌廠商，SoC芯片廠商。

標(biāo)簽：中信證券云端推理