人類用20W功率的大腦征服宇宙,AI卻需要一座核電站處理300頁文檔——直到今天,我們終于教會(huì)了機(jī)器如何“思考”而非“蠻算”。
DeepSeek于2025年2月18日發(fā)表的論文《原生稀疏注意力:硬件對(duì)齊且可原生訓(xùn)練的稀疏注意力機(jī)制》(NSA)提出了一種革新性的稀疏注意力機(jī)制,旨在解決大語言模型(LLM)處理長文本時(shí)的效率瓶頸,就像給AI裝上神經(jīng)突觸修剪器:刪除99%的無用計(jì)算,讓智能回歸本質(zhì)。
這或許暗示著AGI的終極形態(tài):不是吞噬宇宙的算力黑洞,而是手握奧卡姆剃刀的沉思者。
傳統(tǒng)注意力機(jī)制的計(jì)算復(fù)雜度隨序列長度呈平方級(jí)增長,導(dǎo)致長文本處理成本高昂且延遲顯著。NSA通過動(dòng)態(tài)分層稀疏策略和硬件優(yōu)化設(shè)計(jì),兼顧全局信息捕捉與局部細(xì)節(jié)處理,同時(shí)實(shí)現(xiàn)訓(xùn)練與推理階段的高效性。
NSA適用于長文本深度推理(如代碼庫生成、多輪自主代理)、復(fù)雜數(shù)學(xué)問題求解(通過蒸餾數(shù)學(xué)推理軌跡提升性能)等場(chǎng)景。其硬件友好設(shè)計(jì)為下一代LLM的長上下文處理提供了可行方案,推動(dòng)了AI在工業(yè)級(jí)應(yīng)用中的落地。
總結(jié)來看,NSA通過算法與硬件的協(xié)同創(chuàng)新,在長文本處理效率上實(shí)現(xiàn)了突破性進(jìn)展,同時(shí)保持了模型性能,為LLM的實(shí)用化邁出重要一步。
看完晦澀的總結(jié),以下開始說人話:這篇論文的突破可以用幾個(gè)簡(jiǎn)單的比喻來解釋,就像給人工智能的“大腦”裝上了“快速閱讀”和“抓重點(diǎn)”的超能力。
傳統(tǒng)AI讀長文章像“強(qiáng)迫癥”,必須一個(gè)字一個(gè)字地看清楚,導(dǎo)致速度極慢。NSA則教會(huì)AI三種閱讀模式:
三種模式同時(shí)工作,既不會(huì)漏重點(diǎn),又不用浪費(fèi)時(shí)間讀廢話。
以前的AI像先學(xué)會(huì)“死記硬背”的學(xué)生,長大后再被逼著學(xué)速讀,效果很差。NSA讓AI從小就用這套高效閱讀方法學(xué)習(xí),相當(dāng)于培養(yǎng)出一個(gè)天生會(huì)抓重點(diǎn)的“學(xué)霸”,思考方式從一開始就是高效的。
就像為跑車設(shè)計(jì)專用賽道,NSA的計(jì)算方法完全匹配GPU芯片(電腦顯卡)的工作特點(diǎn):
結(jié)果就是耗電量更低、速度更快,相當(dāng)于用普通汽車的油耗開出了火箭的速度。
相當(dāng)于第一次讓AI同時(shí)做到“又快又聰明”——以前的方法要么犧牲精度換速度,要么為了精度忍受龜速。NSA的出現(xiàn)意味著:
簡(jiǎn)單來說,這篇論文讓AI處理長文本的能力,從“老爺爺查字典”進(jìn)化到了“超級(jí)速讀專家”。
DeepSeek的NSA論文確實(shí)為AGI的發(fā)展提供了重要的技術(shù)啟示,但其定位更偏向于突破現(xiàn)有LLM的核心瓶頸(即長上下文處理效率),與美國目前主導(dǎo)的技術(shù)方向相比,它體現(xiàn)了兩大差異化的探索路徑:
1)效率優(yōu)先的智能演化NSA證明高效計(jì)算與智能質(zhì)量可兼得,這打破了“更大參數(shù)=更智能”的固有認(rèn)知。AGI可能需要類似NSA的“算法-硬件協(xié)同進(jìn)化”,而非單純依賴算力堆砌。例如:
2)長程推理能力的突破:傳統(tǒng)LLM的上下文窗口擴(kuò)展受制于計(jì)算復(fù)雜度(如32k以上性能驟降),而NSA在64k長度仍保持線性計(jì)算增長。這種超長程連貫推理能力是邁向AGI的關(guān)鍵——人類解決問題時(shí)正依賴于對(duì)長期經(jīng)驗(yàn)的調(diào)用與整合。
3)硬件感知的智能架構(gòu)設(shè)計(jì):NSA的Group-Centric Data Loading等硬件優(yōu)化策略,暗示未來AGI可能需要從芯片層級(jí)重構(gòu)計(jì)算架構(gòu)(類似人腦神經(jīng)元與神經(jīng)膠質(zhì)細(xì)胞的協(xié)同),而非僅停留在軟件算法層面。
cccccc;line-height:2em;"=""> 維度 | cccccc;line-height:2em;"=""> DeepSeek NSA路徑 | 美國主流方向(如OpenAI/Anthropic) |
技術(shù)焦點(diǎn) | 算法與硬件的深度協(xié)同 | 模型規(guī)模擴(kuò)展(如GPT-5參數(shù)突破) + 多模態(tài)融合 |
效率優(yōu)化邏輯 | 通過稀疏性實(shí)現(xiàn)“計(jì)算資源精準(zhǔn)投放” | 依賴MoE(混合專家)等動(dòng)態(tài)路由機(jī)制 |
硬件依賴 | 針對(duì)現(xiàn)有GPU架構(gòu)優(yōu)化,降低算力門檻 | 更依賴先進(jìn)制程芯片(如專用AI芯片/量子計(jì)算) |
數(shù)據(jù)利用方式 | 強(qiáng)調(diào)從預(yù)訓(xùn)練階段內(nèi)化稀疏性(原生訓(xùn)練) | 側(cè)重?cái)?shù)據(jù)清洗/合成數(shù)據(jù)增強(qiáng) |
AGI實(shí)現(xiàn)路徑假設(shè) | 智能源于高效的信息篩選與結(jié)構(gòu)化推理 | 智能涌現(xiàn)于足夠復(fù)雜的模型規(guī)模與數(shù)據(jù)覆蓋 |
1)“減法智能” vs “加法智能”
2)工程化思維 vs 科學(xué)探索思維
3)硬件適配 vs 硬件革命
盡管路徑不同,兩者并非完全對(duì)立:
NSA論文為AGI發(fā)展指明了一個(gè)關(guān)鍵方向: 智能的本質(zhì)可能不在于“知道多少”,而在于“如何高效篩選與運(yùn)用知識(shí)” 。這種“精準(zhǔn)計(jì)算”路線與美國“規(guī)模優(yōu)先”路線形成戰(zhàn)略級(jí)互補(bǔ),最終可能共同推動(dòng)AGI的突破。當(dāng)前差異更多源于產(chǎn)業(yè)基礎(chǔ)與資源稟賦的不同,而非技術(shù)優(yōu)劣——正如內(nèi)燃機(jī)與電動(dòng)機(jī)的并行發(fā)展,AGI的終極形態(tài)或?qū)⑷诤蠔|西方的技術(shù)智慧。