雖然SLRM在工程上有很多缺點要解決,但不妨礙被驗證是有效的。
他將目光投向了係統手稿中的另一個核心模組——動態長時記憶網路(D-LTMN)。
然而,當徐辰滿懷期待地翻開這部分的草稿時,一盆冷水當頭澆下。
本書由𝕥𝕨𝕜𝕒𝕟.𝕔𝕠𝕞全網首發
太殘缺了。
相比於SLRM部分還算完整的理論框架,D-LTMN這部分簡直就是「災難現場」。
關鍵的圖更新演演算法隻寫了一半,公式推導到最關鍵的地方突然斷掉,取而代之的是一串亂碼般的墨跡。關於注意力權重如何在圖結構和序列結構之間動態分配的機製,更是隻有寥寥幾句語焉不詳的描述。
「這……這讓我怎麼補?」
徐辰看著螢幕上的殘卷,眉頭緊鎖。
徐辰嘗試著推導了幾步,但很快就卡住了。
這不僅僅是數學問題,更涉及到了極其複雜的認知科學和資訊檢索理論。
「看來,LV.0的資訊學等級,確實是硬傷啊。」
徐辰嘆了口氣,不得不承認現實。
雖然他靠著LV.3的數學直覺,硬生生啃下了SLRM這塊硬骨頭,但那是因為SLRM本質上是一個幾何問題。
而D-LTMN,更多的是一個工程和演演算法問題。
冇有足夠的資訊學底蘊,想要憑空補全這些缺失的環節,無異於盲人摸象。
「算了,貪多嚼不爛。」
徐辰果斷放棄了死磕D-LTMN的念頭。
「先把SLRM這碗飯吃到嘴裡再說。」
「隻要把這篇關於SLRM的論文發出去,拿到係統的經驗獎勵,把資訊學等級提升到LV.1,到時候再回頭來收拾這個D-LTMN,還不是手拿把掐?」
打定主意後,徐辰不再糾結。
……
不過,在正式整理論文之前,他決定先把「戰績」刷得更漂亮一點。
光有一個CLUTRR資料集的成績,雖然驚艷,但難免會被人質疑是「過擬合」或者「運氣好」。
要讓審稿人閉嘴,最好的辦法就是——全方位碾壓。
他開啟了Hugging Face的排行榜,挑選了幾個公認最硬核的邏輯測試集:
- SNLI (Stanford Natural Language Inference):斯坦福自然語言推理資料集。這是NLI任務的鼻祖,要求模型判斷兩個句子之間的邏輯關係,比如蘊含、矛盾、中立等。雖然經典,但對於大模型來說,依然存在「邏輯陷阱」。
- LogiQA:這是由公務員考試題目組成的邏輯推理資料集,包含演繹推理、歸納推理等多種題型,難度極高,被稱為「AI的智商測試」。
- ProofWriter:這是一個要求模型不僅給出答案,還要生成完整邏輯證明過程(Proof Generation)的資料集。這是對模型邏輯鏈條最嚴苛的考驗。
徐辰繼續用他的Qwen-7B模型搭配SLRM模組組成的新模型,進行測試。
徐辰首先看了下原始版本的Qwen-7B模型在這些資料集上的表現。
以LogiQA為例,原始的Qwen-7B-Chat在零樣本(zero-shot)下的準確率大約在35%-40%之間,在少樣本(few-shot)下也很難突破50%的天花板。而像GPT-4這樣的巨無霸,在這個榜單上常年霸榜,分數在75%以上。
徐辰決定先用SLRM模組進行少樣本學習,然後再將其與qwen-7b結合起來。
「如果我能用一個7B的小模型,加上我0.5B的SLRM模組,在邏輯推理這個單項上,乾翻GPT-4……」
徐辰嘴角勾起一抹玩味的笑容。
這就像是給一輛五菱宏光裝上了曲率引擎,然後去紐北賽道上跟法拉利飆車。
……
第一戰:SNLI。
原本,Qwen-7B在麵對一些帶有否定詞或雙重否定的句子時,經常會暈頭轉向。
但現在,每當Qwen-7B生成一個推理步驟,SLRM就會在後台的高維幾何空間裡構建一個「邏輯盒子」。如果下一步的推理超出了這個盒子的範圍,SLRM會立刻施加懲罰梯度,強迫它修正邏輯。
測試開始。
進度條走動。
最終分數定格:94.5%。
「嘶……」徐辰自己都吸了口涼氣。
原始水平:~75%。
加持後:94.5%。
GPT-4水平:~92%。
「在NLI這種基礎任務上,直接超越了SOTA(當前最佳)!」
……
第二戰:LogiQA。
這是一個硬骨頭。題目全是類似「如果A去,B就不去;如果B不去,C必須去……」這種繞口令。
Qwen-7B原始水平大約是38%,這個水平基本就是蒙的。
GPT-4的水平大約是76%。
徐辰載入模型,執行測試。
十分鐘後。
最終分數:81.2%。
翻倍!直接翻倍!
在這個榜單上,即便是千億引數的LLaMA-3-70B,也還在65%左右徘徊。徐辰用7B的模型,跑出了比GPT-4還高5個點的成績!
……
第三戰:ProofWriter。
這是終極考驗。不僅要對,還要對得有理有據。
Qwen-7B原始水平大約是45%,會經常胡編亂造證明過程)。
LAART (Qwen-7B SLRM):98.4%。
「98.4%……」
徐辰看著這個數字,忍不住感嘆SLRM的邏輯能力確實夠強。
「雖然推理速度慢得像蝸牛,泛化能力也有限,但在『邏輯嚴謹性』這一塊,它就是當之無愧的王者。」
「有了這些資料,這篇論文,穩了。」
……
隨著徐辰將一份份測試結果上傳到Hugging Face的Leaderboard,整個AI界,再次被那個神秘的「X」給震動了。
這一次,不再是CLUTRR一個榜單的孤立事件。
SNLI、LogiQA、ProofWriter……
幾乎所有主流的、公認最難啃的邏輯推理榜單,在一夜之間,全部被那個簡單的字母「X」給血洗了!
而且,分數不是微弱的領先,而是斷層式的碾壓!
在LogiQA這種「智商測試」榜單上,X的模型甚至比第二名高出了整整5個百分點!
那一連串綠色的「New SOTA」標誌,就像是一排排閃爍的霓虹燈,刺痛了所有AI巨頭的眼睛。
更可怕的是,這些成績的背後,依然冇有公開任何模型權重,冇有一行程式碼,甚至連那個「X」到底是誰,依然是個謎。
……