在接下來的幾天裡,北大計算中心的GPU集群再次滿負荷運轉。
十幾個不同版本的模型,在四張A100顯示卡上日夜不停地交叉訓練、驗證、疊代。
徐辰編寫了一個自動化的超引數搜尋指令碼,讓計算機自己去尋找那個最優的解。
螢幕上,十幾條Loss曲線像賽跑一樣交織在一起,有的早早收斂,有的半路崩盤,有的則還在頑強地掙紮。
最終,在燒掉了數千塊錢的電費後,一個名為「v4_final_best」的模型版本脫穎而出。
它在CLUTRR驗證集上的準確率穩定在了98.8%,比之前的Demo版本又提升了3.5個百分點。
這類預測模型,準確率理論上是到不了100%的,人類在這個資料集上的平均準確率,也不過是99%左右。畢竟,人也會犯錯,也會看花眼。
而且在AI評測中,為了防止模型「過擬合」或者「作弊」,有時候會故意在測試集中摻雜少量的噪聲資料。如果一個模型在這些明顯錯誤的題目上也答「對」了,即輸出了錯誤的標註答案,那就說明這個模型可能是在「背題」,而不是在「推理」。
所以98.8%算得上已經接近理論極限了。
看著這個數字,徐辰滿意地點了點頭。
「就是它了。」
……
隨後徐辰又看了下訓練的日誌。這才發現了這個演演算法存在一些問題。
由於之前徐辰都是丟給計算機讓計算機自己疊代,然後就去做別的事了,所以徐辰並冇有太過關注這個模型的執行效率,但是看了日誌才發現,這個SLRM模型,太慢了。
徐辰看著那個令人咋舌的延遲資料:
Qwen-7B(原版):推理速度 45 tokens/s。
Qwen-7B SLRM:推理速度 0.8 tokens/s。
「0.8 tokens/s……」
徐辰扶額。
這速度,跟便秘有什麼區別?
如果用這個速度去跟使用者聊天,使用者發一句「你好」,等它回一句「你好」,估計都能去泡杯茶回來了。
……
SLRM執行這麼慢,原因在於計算密度的爆炸。
傳統的Transformer,其核心計算是矩陣乘法(MatMul)。這玩意兒雖然計算量大,但在現代GPU上已經優化到了極致,那是為了平行計算而生的。
但SLRM不一樣。
它的核心是「幾何嵌入」。
每一個概念,都要被對映為一個高維空間中的「盒子」或者「流形」。
每一次邏輯推理,都要計算這些幾何體之間的「交集」、「並集」和「包含關係」。
這涉及到大量的非線性運算,比如min、max、softplus,以及複雜的Gumbel分佈取樣。
這些操作,在GPU上是極其低效的。它們不僅無法充分利用Tensor Core的算力,還會導致大量的視訊記憶體碎片化。
「推理一個簡單的三段論,SLRM消耗的算力,竟然是同等規模Transformer的50倍!」
徐辰看著螢幕上的效能瓶頸分析,腦海中浮現出一個著名的學術概念。
「這簡直就是教科書級別的『硬體彩票』。」
徐辰喃喃自語。
所謂「硬體彩票」,是Google研究員Sara Hooker提出的一個深刻觀點:一種AI演演算法能否成功,往往不取決於它在數學上是否優越,而取決於它是否幸運地「中獎」了——即當下的主流硬體架構是否恰好支援它。
「Transformer之所以能統治世界,不僅僅是因為「自注意力」機製設計得好,更是因為它中了『頭彩』。它的核心運算元是矩陣乘法,而這恰好是GPU最擅長的事情。」
這一突破源於GPU的「無心插柳」——其本為處理海量畫素設計的並行架構,恰好完美契合了神經網路的矩陣運算需求。
「而我的SLRM,雖然在邏輯推理的數學本質上碾壓了Transformer,但它輸掉了這場『彩票』。」
徐辰冷靜地分析著,「現有的GPU架構,對於幾何集合運算和複雜的非線性邏輯,是天然排斥的。Tensor Core裡的乘法器在麵對我的『交集運算』時,就像是用一把精密的狙擊槍去當燒火棍使。」
歷史總是驚人的相似。當年深度學習受困於CPU的序列計算,效率低下,一度被視為無法商用的玩具,直到吳恩達引入GPU並行加速才徹底打破了僵局。
「現在的SLRM也正處於這種尷尬的『硬體真空期』。」
「CPU邏輯控製強,但核心數太少,吞吐量帶不動海量計算;而現有的GPU雖然並發強,底層卻全是為矩陣乘法設計的。」
「要想讓SLRM真正落地,光靠軟體優化是不夠的。就像穀歌為了追求極致效率,徹底剝離了圖形功能,研發了專為矩陣計算設計的TPU(張量處理單元)一樣。」
「SLRM也需要屬於它的『TPU』。」
徐辰的目光變得深邃,「最好的辦法就是針對SLRM的運算特性,單獨開發一個適合幾何運算的處理器,也許可以稱之為——LPU(邏輯推理單元)。」
當然,這一切得建立在SLRM帶來的經濟價值足夠大的前提下。
……
隨後,徐辰又思考了一下,SLRM應該還有其他2個問題。
一個是泛化能力的邊界。
SLRM的強大,建立在「邏輯可形式化」的基礎上。
對於數學題、邏輯題、程式碼生成這種有著嚴格規則的任務,它簡直就是神。
但是,對於那些模糊的、感性的、冇有標準答案的任務呢?
徐辰目前在這幾個測試集中能有較好表現,本質上是因為這些資料本身含有邏輯資訊,可以訓練模型。
但是,現實世界中的邏輯關係千奇百怪。
比如「貓」。在生物學上,它是貓科動物;在文學上,它可能是「高冷」的代名詞;在網路文化裡,它甚至是「主子」。
而且有些場景就是天然弱邏輯的,比如寫詩,比如閒聊,比如情感諮詢。
SLRM的幾何約束太強了,它像一把鐵鉗,死死地卡住了模型發散思維的翅膀。它不允許模型說任何「邏輯不嚴謹」的話,哪怕那是修辭,是比喻,是藝術。
「成也邏輯,敗也邏輯。」
「看來,未來還需要設計一個更靈活的『排程器』,讓模型知道什麼時候該用SLRM,什麼時候該放飛自我。但這又是一個巨大的工程量。」
……
另一個問題,是訓練資料的匱乏。
徐辰目前能跑出SOTA,是因為他用的這幾個資料集(SNLI、LogiQA等)都是經過人工精心標註的高質量邏輯資料。
但是,這種資料在海量的網際網路文字中,占比極低。
想要讓SLRM真正具備通用的邏輯能力,就需要海量的、覆蓋各種領域(法律、醫學、常識)的邏輯資料來訓練。
「冇有資料,SLRM就是個空殼子。」
「而且,不同的邏輯問題下,邏輯的判斷歸屬是不一樣的。這依然需要強大的引數量來擬合。」
徐辰現在的SLRM模組,引數量僅僅隻有0.5B。
「如果要記住更多的邏輯,可能要把SLRM擴大到7B,甚至70B,再配合海量的邏輯資料。「
「到時候,它和Transformer結合後的威力,絕對不是簡單的1 1=2。」
「也就是說一個7B的transformer架構的模型,加上7B的SLRM模型,組合起來,可能有超過100B引數的能力。」
「但是……我是冇有能力搞到這麼多資料了。」
……
經過一番實操,徐辰得出了結論:
「這個模型學術成果價值比較強,走產業化路線,還有很大的空間。」
「不過,因為是係統出品,我對這個方向的產業化還是比較有信心的。」
徐辰又轉念一想,「現在這樣,作為學術成果,其實剛剛好。」
「既展示了顛覆性的潛力,又留下了足夠的改進空間給後來人。」
「這,纔是一篇頂級論文該有的樣子。」
他甚至可以預見,這篇論文一旦發表,將會養活多少嗷嗷待哺的AI方向研究生。
「《基於SLRM的醫療問答係統優化》、《SLRM在法律文書生成中的應用》、《一種改進的Gumbel-Box幾何嵌入演演算法》……」
徐辰掰著手指頭數了數,忍不住笑出了聲。
「光是把SLRM裡的幾何圖形換成『球』、『錐』、『高斯分佈』,就能水出幾十篇論文。」
「再把應用場景換一換,從數學題換成程式碼生成、換成情感分析,又能水出幾百篇。」
「更別提那些搞硬體加速的,搞模型量化的,搞分散式訓練的……這簡直就是給整個AI圈送了一波『全家桶』級別的選題啊!」
「我這哪裡是**文,我這是在給全球AI界創造就業崗位啊!」
「功德無量,功德無量。」
徐辰雙手合十,一臉慈悲。