突然宣布！暫停DeepSeek API服務

快訊 2025年03月01日 22:30 1 admin

專題：DeepSeek為何能震動全球AI圈

　　【導讀】DeepSeek一天能賺多少錢？官方突然揭秘！潞晨科技暫停DeepSeek API服務

　　中國基金報記者泰勒

　　大家好，一起關注一下關于DeepSeek的最新消息！

　　DeepSeek首次披露：理論成本利潤率545%

　　當市場以為DeepSeek的開源周內(nèi)容發(fā)布完畢之后，3月1日，DeepSeek宣布了“One More Thing”，突然揭秘V3/R1推理系統(tǒng)，公開了大規(guī)模部署成本和收益。

突然宣布！暫停DeepSeek API服務

　　根據(jù)《DeepSeek-V3/R1推理系統(tǒng)概覽》的文章，假定GPU租賃成本為2美元/小時，總成本為87072美元/天；如果所有tokens全部按照DeepSeek R1的定價計算，理論上一天的總收入為562027美元/天，成本利潤率為545%。

　　據(jù)官方披露，DeepSeek-V3/R1推理系統(tǒng)的優(yōu)化目標是：更大的吞吐，更低的延遲。

　　為了實現(xiàn)這兩個目標，DeepSeek使用大規(guī)模跨節(jié)點專家并行（Expert Parallelism / EP）。首先EP使得batch size大大增加，從而提高GPU矩陣乘法的效率，提高吞吐。其次EP使得專家分散在不同的GPU上，每個 GPU 只需要計算很少的專家（因此更少的訪存需求），從而降低延遲。

　　但EP同時也增加了系統(tǒng)的復雜性。復雜性主要體現(xiàn)在兩個方面：

　　EP引入跨節(jié)點的傳輸。為了優(yōu)化吞吐，需要設計合適的計算流程使得傳輸和計算可以同步進行。

　　EP涉及多個節(jié)點，因此天然需要Data Parallelism（DP），不同的DP之間需要進行負載均衡。

　　因此，DeepSeek介紹了如何使用EP增大batch size，如何隱藏傳輸?shù)暮臅r，如何進行負載均衡。

　　大規(guī)?？绻?jié)點專家并行（Expert Parallelism / EP）

　　由于DeepSeek-V3/R1的專家數(shù)量眾多，并且每層256個專家中僅激活其中8個。模型的高度稀疏性決定了必須采用很大的overall batch size，才能給每個專家提供足夠的expert batch size，從而實現(xiàn)更大的吞吐、更低的延時。需要大規(guī)?？绻?jié)點專家并行（Expert Parallelism / EP）。

　　采用多機多卡間的專家并行策略來達到以下目的：

　　Prefill：路由專家EP32、MLA和共享專家DP32，一個部署單元是4節(jié)點，32個冗余路由專家，每張卡9個路由專家和1個共享專家。

　　Decode：路由專家EP144、MLA和共享專家DP144，一個部署單元是18 節(jié)點，32個冗余路由專家，每張卡2個路由專家和1個共享專家。

　　計算通信重疊

　　多機多卡的專家并行會引入比較大的通信開銷，所以使用了雙batch重疊來掩蓋通信開銷，提高整體吞吐。

　　對于prefill階段，兩個batch的計算和通信交錯進行，一個batch在進行計算的時候可以去掩蓋另一個batch的通信開銷；

突然宣布！暫停DeepSeek API服務

　　對于decode階段，不同階段的執(zhí)行時間有所差別，所以把attention部分拆成了兩個stage，共計5個stage的流水線來實現(xiàn)計算和通信的重疊。

突然宣布！暫停DeepSeek API服務

　　盡可能地負載均衡

　　由于采用了很大規(guī)模的并行（包括數(shù)據(jù)并行和專家并行），如果某個GPU的計算或通信負載過重，將成為性能瓶頸，拖慢整個系統(tǒng)；同時其他GPU因為等待而空轉(zhuǎn)，造成整體利用率下降。因此需要盡可能地為每個GPU分配均衡的計算負載、通信負載。

PrefillLoadBalancer

核心問題：不同數(shù)據(jù)并行（DP）實例上的請求個數(shù)、長度不同，導致core-attention計算量、dispatch發(fā)送量也不同。

優(yōu)化目標：各GPU的計算量盡量相同（core-attention計算負載均衡）、輸入的token數(shù)量也盡量相同（dispatch發(fā)送量負載均衡），避免部分GPU處理時間過長。

DecodeLoadBalancer

核心問題：不同數(shù)據(jù)并行（DP）實例上的請求數(shù)量、長度不同，導致core-attention計算量（與KVCache占用量相關）、dispatch發(fā)送量不同。

優(yōu)化目標：各GPU的KVCache占用量盡量相同（core-attention計算負載均衡）、請求數(shù)量盡量相同（dispatch發(fā)送量負載均衡）。

Expert-ParallelLoadBalancer

核心問題：對于給定MoE模型，存在一些天然的高負載專家（expert），導致不同GPU的專家計算負載不均衡。

優(yōu)化目標：每個GPU上的專家計算量均衡（即最小化所有GPU的dispatch接收量的最大值）。

突然宣布！暫停DeepSeek API服務

　　線上系統(tǒng)的實際統(tǒng)計數(shù)據(jù)

　　DeepSeekV3和R1的所有服務均使用H800GPU，使用和訓練一致的精度，即矩陣計算和dispatch傳輸采用和訓練一致的FP8格式，core-attention計算和combine傳輸采用和訓練一致的BF16，最大程度保證了服務效果。

　　另外，由于白天的服務負荷高，晚上的服務負荷低，因此實現(xiàn)了一套機制，在白天負荷高的時候，用所有節(jié)點部署推理服務。晚上負荷低的時候，減少推理節(jié)點，以用來做研究和訓練。在最近的24小時里（北京時間2025/02/27 12：00至2025/02/28 12：00），DeepSeek-V3和R1推理服務占用節(jié)點總和，峰值占用為278個節(jié)點，平均占用226.75個節(jié)點（每個節(jié)點為8個H800GPU）。假定GPU租賃成本為2美金/小時，總成本為87072美元/天。

突然宣布！暫停DeepSeek API服務

　　在24小時統(tǒng)計時段內(nèi)，DeepSeek-V3和R1：

　　輸入token總數(shù)為608B，其中342Btokens（56.3%）命中KVCache硬盤緩存。

　　輸出token總數(shù)為168B。平均輸出速率為20~22tps，平均每輸出一個token的KVCache長度是4989。

　　平均每臺H800的吞吐量為：對于prefill任務，輸入吞吐約73.7ktokens/s（含緩存命中）；對于decode任務，輸出吞吐約14.8ktokens/s。

　　以上統(tǒng)計包括了網(wǎng)頁、APP和API的所有負載。如果所有tokens全部按照DeepSeek-R1的定價計算，理論上一天的總收入為562027美元，成本利潤率為545%。當然實際上沒有這么多收入，因為V3的定價更低，同時收費服務只占了一部分，另外夜間還會有折扣。

突然宣布！暫停DeepSeek API服務

　　有網(wǎng)友將DeepSeek與OpenAI進行對比，表示：“‘成本利潤率545%’，等一下，所以你是說我被OpenAI搶劫了？”

突然宣布！暫停DeepSeek API服務

　　潞晨科技暫停DeepSeek API服務

　　就在DeepSeek披露大規(guī)模部署成本和收益之后，潞晨科技突然宣布：“尊敬的用戶，潞晨云將在一周后停止提供DeepSeek API服務，請盡快用完您的余額。如果沒用完，我們?nèi)~退款?！?/p>

突然宣布！暫停DeepSeek API服務

　　此前2月4日晚間，華為計算微信公眾號發(fā)文表示，DeepSeek-R1系列模型的開源，因其出色的性能和低廉的開發(fā)成本，已引發(fā)全球的熱切討論和關注。潞晨科技攜手昇騰，聯(lián)合發(fā)布基于昇騰算力的DeepSeek-R1系列推理API，及云鏡像服務。

　　但近期潞晨科技CEO尤洋指出，滿血版DeepSeek-R1每百萬token（輸出）定價16元，如果每日輸出1000億token，一個月算下來接入方企業(yè)可獲得4800萬元收入。據(jù)他測算，完成1000億token的輸出，需要約4000臺搭載H800的機器，以目前H800的市價或者折舊來計算，每月僅機器成本就達4.5億元，因此企業(yè)方可能面臨每月4億元的虧損，“用戶越多，服務成本越高，虧損越多”。

突然宣布！暫停DeepSeek API服務

　　3月1日下午4點，潞晨科技CEO尤洋發(fā)文回應DeepSeek公布的理論成本利潤率。

突然宣布！暫停DeepSeek API服務

　　公開資料顯示，潞晨科技是一家致力于“解放AI生產(chǎn)力”的全球性企業(yè)，團隊核心成員來自美國加州大學伯克利分校，斯坦福大學，清華大學，北京大學等國內(nèi)外知名高校。主營業(yè)務包括分布式軟件系統(tǒng)，大規(guī)模人工智能平臺，以及企業(yè)級云計算解決方案。公司旨在打造一個開源低成本AI大模型開發(fā)系統(tǒng)Colossal-AI，作為深度學習框架的內(nèi)核，幫助企業(yè)最大化人工智能訓練效率的同時最小化人工智能的訓練成本。

　　校對：紀元

　　編輯：嘉穎

　　審核：許聞

標簽：暫停 DeepSeek 宣布