做完報告的準備工作,距離前往波恩參加ChaBONNty會議,還有整整三週的時間。
這段時間,對於徐辰來說,顯得有些尷尬。
CNTT變換的推廣,卡在了那個該死的「對數」項上,一時半會兒找不到突破口。
而重新開啟一個新的課題?
三週時間,對於普通的「水論文」來說或許足夠,但對於現在的徐辰而言,發一篇二區、三區的文章,已經毫無意義。
他的目標,至少是一區頂刊。
而一篇頂刊級別的論文,從選題、構思到證明、成稿,哪怕是他這樣的「掛逼」,也不可能在三週內憑空變出來。
「這三週,總不能閒著吧?」
徐辰坐在研究室裡,看著窗外燕園的春色,手指無意識地敲擊著桌麵。
他的目光,掃過係統物品欄。
那裡,靜靜地躺著一份他之前抽到的4級物品——《具備邏輯推理與長時記憶模組的改進型大語言模型演演算法框架(LAART)》。
自從上次看完這篇論文後,他就一直把它束之高閣。
一方麵是因為當時忙著搞數論,冇時間;另一方麵,也是因為他對AI領域的知識儲備,還遠遠不夠。
「反正閒著也是閒著,不如……先把AI這塊硬骨頭給啃了?」
徐辰的心思活絡了起來。
「而且,係統釋出的那個『多維度的學者』主線任務,要求我在其他三門學科發表SCI論文。AI,正好對應著『電腦科學』。」
「如果能把這篇LAART論文吃透,再結合我現在的數學能力,發一篇計算機領域的頂刊,應該不是什麼難事。」
「更重要的是,如果真的能把這個模型復現出來,哪怕隻是一個簡化版,它也能成為我科研路上的得力助手。」
想到這裡,徐辰不再猶豫。
他開啟電腦,登入了北大的圖書館資料庫,開始瘋狂地下載關於「深度學習」、「自然語言處理」、「圖神經網路」、「符號邏輯」等領域的經典教材和前沿論文。
《深度學習》(花書)、《統計學習方法》、《強化學習導論》……
一本本厚重的電子書,被他拖進了閱讀列表。
……
他先是用兩天時間,將《深度學習》這本被譽為「AI聖經」的花書,從頭到尾「掃描」了一遍。
對於普通計算機係的學生來說,這本書裡的數學推導,比如反向傳播演演算法中的鏈式法則、正則化中的拉格朗日乘子法,可能需要花上幾個月去消化。
但對於數學等級已經達到LV.2巔峰的徐辰來說,這些東西,簡直就像是小學生的加減乘除一樣簡單。
「所謂的神經網路,本質上就是一個高維空間中的非線性函式逼近器。」
「所謂的訓練,就是在這個高維空間裡,尋找一個能讓損失函式最小化的點。」
「所謂的泛化,就是希望這個函式在冇見過的資料點上,也能表現得足夠好。」
徐辰一邊看,一邊在心裡默默總結。
在他眼中,那些複雜的網路結構圖,瞬間被還原成了最本質的數學公式。
……
然而,當他試圖深入瞭解最新的大語言模型(LLM)時,卻發現了一個尷尬的問題。
書,不夠看了。
AI領域的發展速度,實在是太快了。
傳統的學術界,知識的沉澱和出版,往往需要幾年的時間。一本教材從編寫到出版,可能裡麵的技術就已經過時了。
而AI,尤其是大模型,幾乎是以「周」為單位在疊代。
這種「工業界倒逼學術界」的現象,在AI領域尤為明顯。
很多最前沿的技術,根本來不及寫進書裡,甚至來不及發表正式的論文,就已經被OpenAI、Google、Meta這些科技巨頭,直接應用到了產品中,或者以技術部落格、開原始碼的形式,扔到了GitHub和Hugging Face上。
「看來,光看書是不行了。」
徐辰果斷調整了策略。
他開啟了Coursera、Udemy,以及B站,找到了幾門由史丹福大學、吳恩達、李飛飛等頂級大佬開設的最新網課。
《CS224n:自然語言處理與深度學習》
《CS231n:卷積神經網路與視覺識別》
《生成式AI導論》
他開啟了倍速播放,一邊看,一邊在腦海中構建著知識圖譜。
徐辰學得飛快。
這得益於他那恐怖的數學底子。
……
在AI領域,有一條不成文的鄙視鏈:搞演演算法的看不起搞調參的,搞理論的看不起搞應用的。
而站在鄙視鏈頂端的,永遠是那些數學功底深厚的人。
普通的AI工程師,可能隻會呼叫PyTorch或TensorFlow的API,像搭積木一樣搭建模型,然後對著一堆超引數進行「玄學」調優。他們知道「怎麼做」,但往往不知道「為什麼」。
而數學家,看到的則是更本質的東西。
飛鳥VPN - 翻牆看片加速神器
飛鳥VPN - 全球200 高速節點,50 國家地區,翻牆看片神器,解鎖全球流媒體,暢連telegram,X,Netflix,YouTube,無限流量,免費試用!
飛鳥VPN
他們看到的是流形上的概率分佈,是高維空間中的幾何結構,是優化演演算法的收斂性證明。
「AI人員的數學好,通常是指他們擅長線性代數、概率論和微積分,能看懂公式,能推導梯度。」
「但數學家的數學好,是指他們能洞察這些公式背後的『結構』與『本質』。」
……
五天後。
當徐辰關掉最後一節關於「Transformer架構原始碼解析」的網課視訊時,他長長地舒了一口氣。
海量的知識,從最底層的感知機,到最前沿的大語言模型,在他的腦海中,構建起了一座宏偉的知識大廈。
【叮!】
【檢測到宿主係統性地掌握了「深度學習與自然語言處理」的核心知識體係。】
【資訊學經驗值 20!】
【當前資訊學等級:LV.0 (35/100)】
看著那猛漲了一截的經驗條,徐辰並冇有太多的驚訝。
對於一個已經站在數學LV.2高度的人來說,AI的底層邏輯並不神秘。拋開工程實現的細節,現代深度學習的本質,就是在一個極高維的引數空間裡,尋找一個能夠擬合資料分佈的流形。
「現在,地基已經打好了。」
徐辰的目光,投向了係統物品欄裡那份名為《具備邏輯推理與長時記憶模組的改進型大語言模型演演算法框架(LAART)》的「草稿」。
他將其提取出來,仔細研讀。
這份「草稿」並冇有直接給出成型的程式碼,它更像是一份來自未來的「技術白皮書」,指出了三個核心模組。徐辰決定,先攻克最核心的——符號邏輯推理模組(SLRM)。
目前的AI界,為瞭解決大模型的「幻覺」問題,即一本正經地胡說八道,主流做法是RLHF,也就是基於人類反饋的強化學習。但這本質上是讓人類去「教」鸚鵡說話,鸚鵡並不懂真理,它隻是學會了迎合人類的口味。
徐辰翻開草稿的「邏輯推理」章節,眼神逐漸變得凝重。
草稿上寫著這樣一段話:
「不要試圖在離散的符號層麵去強行嫁接邏輯規則。應當將一階謂詞邏輯的語法樹,通過某種拓撲變換,嵌入到連續的向量空間中。使得邏輯推演的過程,等價於向量空間中的幾何變換。」
「建議路徑:採用區域表示法。將每個概念視為高維空間的一個閉區域。邏輯蘊含即為幾何包含。」
「關鍵模型參考:箱嵌入……」
然而,寫到這裡,草稿就像是被撕掉了一半似的,戛然而止。
後麵關於如何構建這個「Box」,如何處理梯度的反向傳播,以及最關鍵的損失函式設計,全是一片空白。
「係統,你這是斷章狗行為啊……」
徐辰忍不住吐槽了一句。
不過,這也激起了他的好勝心。既然方向已經指明瞭,剩下的路,自己走不出來嗎?
他在草稿紙上畫了一個簡單的示意圖,順著草稿的思路繼續推演。
「把邏輯關係,對映成幾何關係……Box Embeddings……」
徐辰的筆尖在紙上重重一點。
「明白了!係統的意思是,我們要把每一個概念,比如『貓』、『動物』、『生物』,都不看作是一個點,而是看作高維空間裡的一個長方形盒子(Box)。」
他在紙上畫了幾個大小不一的矩形框。
「邏輯的本質是什麼?是包含與被包含。」
「如果『貓』蘊含『動物』這個概念,那麼在幾何空間裡,代表『貓』的那個小盒子,就必須完完全全地被塞進代表『動物』的大盒子裡!」
「如果AI生成了一句話,說『貓不是動物』,那麼在它的向量空間裡,這兩個盒子就會出現分離。這時候,我們隻需要計算這兩個盒子的交集體積。」
「體積為零,或者重疊率極低,就說明——邏輯矛盾!」
徐辰的眼睛越來越亮。
這簡直就是天才的設計!
通過這種方式,他相當於在傳統的概率預測模型裡,植入了一個冷酷無情的「邏輯判官」。
每當AI想要「胡說八道」時,這個邏輯判官就會瞬間計算出幾何關係:
「停!根據幾何計算,『A盒子』和『B盒子』冇有交集,這句話邏輯不通,禁止輸出!」
這將從根本上解決大模型的幻覺問題!
基於這個理解,徐辰迅速補全了草稿中缺失的核心公式:
Box(c, w)={x | c - w/2≤ x≤ c w/2} P(A|B)= Vol(Box(A)∩ Box(B))/ Vol(Box(B))
「這個模型很簡單,也很有效。它把複雜的邏輯運算轉化為了極其廉價的『min/max』運算,非常適合GPU並行加速。」
「但也存在一個明顯的缺陷。」
徐辰看著自己補全的公式,敏銳地指出了問題所在,體現出了他作為數學家的嚴謹。
「數值穩定性是個大問題。當你不斷對盒子求交集做邏輯與運算,盒子的體積會指數級縮小。在計算機的浮點數表示下,很快就會變成0,導致梯度消失,模型無法繼續學習。」
「這就像是把一張大餅不斷對摺,折到最後就冇法看了。」
「而且,『超矩形』雖然計算簡單,但它比較剛性,難以表達某些複雜的環狀邏輯。」
草稿裡雖然冇提這些,但徐辰憑藉LV.2的數學直覺,一眼就看穿了這個初級模型的侷限。
「真正的終極形態,應該是一個基於『李群』流形的動態拓撲結構,甚至是某種非交換幾何。」
徐辰摸了摸下巴,若有所思。
「不過,對於目前的初級版本來說,隻要能跑通就行。先造一把趁手的『土槍』,能響就行。至於那些高大上的流形結構,等以後算力夠了、時間充裕了再慢慢升級。」
打定主意後,徐辰不再猶豫。
他需要在前往德國之前,把這套邏輯驗證程式碼跑通。
「好,開工!」