DeepSeek-R1 模型在 4 張 NVIDIA RTX? 5880 Ada GPU Generation 顯卡配置下,面對短文本生成、長文本生成、總結(jié)概括三大實戰(zhàn)場景,會碰撞出怎樣的性能火花?參數(shù)規(guī)模差異懸殊的 70B 與 32B 兩大模型,在 BF16 精度下的表現(xiàn)又相差幾何?本篇四卡環(huán)境實測報告,將為用戶提供實用的數(shù)據(jù)支持和性能參考。
測試環(huán)境
測試指標(biāo)
首次 token 生成時間(Time to First Token, TTFT(s))越低,模型響應(yīng)速度越快;每個輸出 token 的生成時間(Time Per Output Token, TPOT(s))越低,模型生成文本的速度越快。
-
輸出 Token 吞吐量(Output Token Per Sec, TPS):反映系統(tǒng)每秒能夠生成的輸出 token 數(shù)量,是評估系統(tǒng)響應(yīng)速度的關(guān)鍵指標(biāo)。多并發(fā)情況下,使用單個請求的平均吞吐量作為參考指標(biāo)。
-
首次 Token 生成時間(Time to First Token, TTFT(s)):指從發(fā)出請求到接收到第一個輸出 token 所需的時間,這對實時交互要求較高的應(yīng)用尤為重要。多并發(fā)情況下,平均首次 token 時間 (s) 作為參考指標(biāo)。
-
單 Token 生成時間(Time Per Output Token,TPOT(s)):系統(tǒng)生成每個輸出 token 所需的時間,直接影響了整個請求的完成速度。多并發(fā)情況下,使用平均每個輸出 token 的時間 (s) 作為參考指標(biāo)。這里多并發(fā)時跟單個請求的 TPOT 不一樣,多并發(fā) TPOT 計算不包括生成第一個 token 的時間。
-
并發(fā)數(shù)(Concurrency):指的是系統(tǒng)同時處理的任務(wù)數(shù)量。適當(dāng)?shù)牟l(fā)設(shè)置可以在保證響應(yīng)速度的同時最大化資源利用率,但過高的并發(fā)數(shù)可能導(dǎo)致請求打包過多,從而增加單個請求的處理時間,影響用戶體驗。
測試場景
在實際業(yè)務(wù)部署中,輸入/輸出 token 的數(shù)量直接影響服務(wù)性能與資源利用率。本次測試針對三個不同應(yīng)用場景設(shè)計了具體的輸入 token 和輸出 token 配置,以評估模型在不同任務(wù)中的表現(xiàn)。具體如下:

bbb7469f" style="display:block;max-width:100%;margin:0px auto;cursor:zoom-in;" />
測試結(jié)果
1. 短文本生成場景
使用 DeepSeek-R1-70B(BF16),單請求吞吐量約 19.9 tokens/s,并發(fā) 100 時降至約 9.9 tokens/s(約為單請求的 50%)。最佳工作區(qū)間為低并發(fā)場景(1-50 并發(fā))。
▲ DeepSeek-R1-70B(BF16) 測試結(jié)果圖表
使用 DeepSeek-R1-32B(BF16),單請求吞吐量達約 39.5 tokens/s,并發(fā) 100 時仍保持約 18.1 tokens/s,能夠滿足高并發(fā)場景(100 并發(fā))。
▲ DeepSeek-R1-32B(BF16) 測試結(jié)果圖表
2. 長文本生成場景
使用 DeepSeek-R1-70B(BF16),單請求吞吐量約 20 tokens/s,并發(fā) 100 時降至約 8.8 tokens/。最佳工作區(qū)間為低并發(fā)場景(1-50 并發(fā))。
![]()
aaaf76d1f626e3218e03cf_1440w.webp?consumer=ZHI_MENG" data-sign="lazyloadimg" src="https://picx.zhimg.com/v2-19eea7b3db
aaaf76d1f626e3218e03cf_1440w.webp?consumer=ZHI_MENG" data-size="normal" data-rawwidth="1080" data-rawheight="290" class="origin_image zh-lightbox-thumb" width="1080" data-original="https://picx.zhimg.com/v2-19eea7b3db
aaaf76d1f626e3218e03cf_r.jpg" data-original-token="v2-4634220bdab3510326358f1b82929f62" style="display:block;max-width:100%;margin:0px auto;cursor:zoom-in;" />
▲ DeepSeek-R1-70B(BF16) 測試結(jié)果圖表
使用 DeepSeek-R1-32B(BF16),單請求吞吐量達約 39.7 tokens/s,并發(fā) 250 時仍保持約 10.6 tokens/s,能夠滿足較高并發(fā)場景(250 并發(fā))。
▲ DeepSeek-R1-32B(BF16) 測試結(jié)果圖表
3. 總結(jié)概括場景
使用 DeepSeek-R1-70B(BF16),單請求吞吐量約 18.7 tokens/s,并發(fā) 10 時降至約 10.9 tokens/。最佳工作區(qū)間為低并發(fā)場景(10 并發(fā))。
▲ DeepSeek-R1-70B(BF16) 測試結(jié)果圖表
使用 DeepSeek-R1-32B(BF16),單請求吞吐量達約 37 tokens/s,并發(fā) 25 時仍保持約 15.3 tokens/s,能夠滿足中等并發(fā)場景(25 并發(fā))。
▲ DeepSeek-R1-32B(BF16) 測試結(jié)果圖表
總結(jié)
1. 測試模型性能
DeepSeek-R1-70B(BF16) 模型表現(xiàn):
短文本生成:支持 75 并發(fā)量,單請求平均吞吐量>10.9 tokens/s
長文本生成:支持 50 并發(fā)量,單請求平均吞吐量>12.5 tokens/s
總結(jié)概括:支持 10 并發(fā)量,單請求平均吞吐量>10.9 tokens/s
DeepSeek-R1-32B(BF16) 模型表現(xiàn):
短文本生成:支持 100 并發(fā)量,單請求平均吞吐量>18.1 tokens/s
長文本生成:支持 250 并發(fā)量,單請求平均吞吐量>10.6 tokens/s
總結(jié)概括:支持 25 并發(fā)量,單請求平均吞吐量>15.3 tokens/s
2. 部署建議
基于 4 卡 RTX 5880 Ada GPU 的硬件配置下:
-
推薦優(yōu)先部署 DeepSeek-R1-32B(BF16) 模型,其在高并發(fā)場景下展現(xiàn)出更優(yōu)的吞吐性能與響應(yīng)效率;
-
當(dāng)業(yè)務(wù)場景對模型輸出質(zhì)量有更高要求,且系統(tǒng)并發(fā)壓力較低時,建議選用 DeepSeek-R1-70B(BF16) 模型。
3. 測試說明
本次基準(zhǔn)測試在統(tǒng)一硬件環(huán)境下完成,未采用任何專項優(yōu)化策略。
本文所有測試結(jié)果均由麗臺科技實測得出,如果您有任何疑問或需要使用此測試結(jié)果,請聯(lián)系 @麗臺科技 。
如需部署 DeepSeek 671B 完整參數(shù)版本,歡迎聯(lián)系 @麗臺科技 獲取定制化解決方案。