2025年1月,還有一件事對徐辰影響很大。
這個月,發生了一件科技界的大事。
各大國內主流新聞APP的頭版頭條都在推送一條訊息:
標題,充滿了科技感與衝擊力。
【「中國AI的『GPT-4時刻』?DeepSeek-R1橫空出世,效能全麵超越,並宣佈開源!」】
「DeepSeek-R1?」徐辰的眉毛,微微一挑。
在過去的幾個月裡,以ChatGPT為代表的大語言模型(LLM),如同平地驚雷,在全球範圍內,掀起了一場前所未有的科技革命。
台灣小說網藏書多,🅣🅦🅚🅐🅝.🅒🅞🅜超方便
【大語言模型……AI……】
徐辰的心中,泛起了一絲好奇。
他雖然主攻的是純粹數學,但對於這些代表著人類科技最前沿的「時髦」玩意兒,也並非一無所知。
他開啟電腦,搜尋到了DeepSeek-R1的開源論文。
他饒有興致地,開始閱讀起來。
論文的前半部分,是關於模型訓練所使用的數學理論。
「……我們採用了改進的『注意力機製』(Attention Mechanism),其核心,是將輸入序列中的每一個詞向量,都對映到『查詢(Query)』、『鍵(Key)』、『值(Value)』這三個向量空間中。通過計算Query與所有Key的點積相似度,並進行Softmax歸一化,來得到每個Value的權重……」
【嗯,有點意思。】徐辰的眼中,閃過一絲瞭然。
【這個思路,本質上是線性代數中『投影』與『加權平均』思想的一種精妙應用。它通過點積來衡量向量間的『相關性』,再用Softmax函式將這種相關性轉化為概率權重,從而讓模型能夠動態地聚焦於輸入序列中最關鍵的部分。】
「……在優化器(Optimizer)的選擇上,我們採用了Adam演演算法,它結合了『動量法』(Momentum)和『RMSProp』的優點,能夠自適應地,為不同引數,調整學習率……」
【原來如此。】徐辰點了點頭。
【這可以看作是常微分方程中『梯度下降法』的一種高階變體。它引入了『動量』這個物理概念,模擬一個在損失函式曲麵上滾動的小球,利用慣性衝過平坦區域和區域性極小值點,從而加速收斂。而自適應學習率,則相當於為這個小球,在不同陡峭程度的路麵上,配備了智慧的剎車和油門係統。】
論文中那些在AI工程師看來,極其高深複雜的數學原理,在徐辰這個LV.2級別的「數學家」眼中,卻如同庖丁解牛,每一個結構,每一處關節,都清晰可見。
他隻花了不到半個小時,就將論文中所有的數學部分,全部吃透,甚至還能舉一反三地,思考出幾種可能的改進方向。
【整個大語言模型,從數學上看,可以被視為一個極其高維的、非線性的函式逼近器。它的訓練過程,就是在數十億甚至數千億個引數構成的空間中,通過梯度下降,尋找一個能最小化『損失函式』的最優解。而『注意力機製』,則為這個龐大的函式,提供了高效的『剪枝』策略,使其能夠專注於處理長距離的依賴關係。】
然而,當他看到論文的後半部分,關於「神經網路架構」和「模型訓練」的內容時,他的眉頭,卻漸漸地,鎖了起來。
「Transformer架構」、「多頭注意力」、「殘差連線」、「層歸一化」……
這些屬於電腦科學和人工智慧領域的專業術語,對他而言,就如同一個個陌生的路標,指向一片他從未踏足過的未知領域。
如果不瞭解神經網路為什麼能擬合任何函式(萬能逼近定理),對後續的深層神經網路乃至於Transformer架構就更加不知道具體的工作機製了。
【對於AI,確實還存在著巨大的『盲區』。】
他冇有氣餒,反而燃起了一股強烈的求知慾。
他開啟電腦,開始在網上,瘋狂地,搜尋著關於「大語言模型」的基礎知識。
從最基礎的「感知機」模型,到「深度神經網路」,再到「迴圈神經網路(RNN)」和「長短期記憶網路(LSTM)」,最後,纔是當今大模型的核心——「Transformer」。
就在他將一篇關於「Transformer」核心架構的經典論文——《Attention Is All You Need》,看到一半時。
他腦海中,那冰冷的係統提示音,毫無徵兆地,響了起來!
【叮!檢測到宿主正在學習『人工神經網路』相關知識,認知邊界拓展……】
【資訊學經驗值 2!】
【物理學經驗值 1!】
【生化學經驗值 1!】
「嗯?!」
徐辰的動作,猛地一頓!
他有些難以置信地,調出了自己的係統麵板。
資訊學經驗值 2,很好理解,因為AI就是通過計算機來實現的,計算機相關的知識自然屬於資訊學的範疇。
但是,在「物理學」和「生化學」那兩條幾乎還是空白的經驗條後麵,都出現了一個小小的「 1」!
【什麼情況?!】
【我明明是在學計算機和AI,怎麼會加了物理和生化的經驗?!】
【係統,你是不是出BUG了?】
他先是一愣,隨即,陷入了沉思。
【生化學經驗 1,這個……倒還勉強能夠理解。】
【畢竟,『神經網路』這個詞,本身就是對人腦神經元結構的仿生學模擬。我學習它的工作原理,就等於,是在從一個抽象的、資訊學的角度,去間接地,理解生物大腦的構造。這算是瞭解生物構造的一部分,倒也是說得通。】
【但……物理學經驗 1,又是怎麼回事?】
【AI和物理,感覺八竿子都打不著啊!】
他百思不得其解。
他繼續向下閱讀那篇論文,試圖從更深層次的理論中,尋找答案。
當他看到「Hopfield網路」與「Ising模型」之間的深刻聯絡,看到「深度學習」的訓練過程,如何可以被類比為「模擬退火」這個源自於統計物理學的演演算法時,他才恍然大悟。
【原來如此!】
【一個由數十億、甚至數千億個引數構成的巨大網路,其整體行為,已經無法再用單個神經元的簡單邏輯來描述。它呈現出的,是一種『集體效應』,是一種『湧現』現象!】
【而研究這種由海量個體構成的複雜係統的宏觀規律,恰恰是『統計物理學』最擅長的事情!】
他又搜尋了一些AI與物理學的相關資訊,搜尋結果的第一條,就是一條剛剛過去幾個月、還帶著熱度的重磅新聞。
【「2024年諾貝爾物理學獎揭曉!授予約翰·霍普菲爾德與傑弗裡·辛頓,以表彰他們為機器學習,特別是人工神經網路所做出的奠基性發現!」】
「諾貝爾物理學獎……頒給了AI方向?」
頒獎是在10月,剛好是徐辰進入拔尖計劃冇多久的時候。那會他每天忙的都冇時間吃飯,自然冇時間關注外界這些新聞。
當時,這個結果,在全球範圍內,都引起了巨大的爭議。
許多人質疑:「AI是電腦科學,憑什麼拿物理學獎?」
但徐辰此刻,卻瞬間,理解了諾貝爾獎委員會那超越時代的深刻用意!
【我明白了……】
他看著螢幕上,關於「Hopfield網路」的介紹,心中思索:
【霍普菲爾德,他天才般地,將神經網路中的神經元狀態(啟用或抑製),與統計物理學中的『自旋玻璃』模型(Spin Glass)中的磁矩朝向(向上或向下),進行了類比!】
【他定義了一個『能量函式』,使得網路的每一個可能狀態,都對應一個能量值。而網路的『學習』和『記憶』過程,就等同於,這個物理係統,自發地,向著能量最低的、最穩定的狀態演化的過程!】
【他用物理學的語言,為『記憶』這個看似屬於生物學和心理學的概念,賦予了一個清晰、可計算的數學模型!這是一種石破天驚的、跨學科的偉大洞見!】
【而辛頓,則在此基礎上,發展出了『玻爾茲曼機』,引入了『溫度』和『概率』的概念,讓神經網路,能夠跳出『區域性最優解』的陷阱,去尋找全域性的、更優的解!這,不就是『模擬退火』演演算法的核心思想嗎?!】
【他們兩人,不是在『發明』AI,他們是在『發現』AI背後,那與宇宙執行規律如出一轍的、更深層次的『物理法則』!】
【諾貝爾獎委員會,不是在獎勵一個『計算機演演算法』,他們是在獎勵一種『世界觀』!一種將資訊、智慧、與物質、能量,統一起來的、全新的世界觀!】
想通了這一點,徐辰的心中,掀起了滔天巨浪!
他第一次,如此清晰地,感受到了不同學科之間,那隱藏在最底層、相通的深刻聯絡!
【看來,係統是對的。】
【數學、物理、化學、生物、資訊……這些,從來都不是孤立的學科。它們隻是人類,為了方便理解,而從不同角度,對同一個『宇宙真理』,進行的『管中窺豹』而已。】
這個發現,讓他對整個科學大廈的認知,再次,躍遷到了一個新的維度!
他也對AI這個領域,產生了更加濃厚的興趣。
……
【如果,我能有一個足夠強大的AI助手,來幫我處理那些繁瑣的、重複性的工作,比如,查閱文獻、整理資料、回復常規郵件,甚至……幫我進行一些大規模的數值計算和猜想驗證……】
【那我的研究效率,豈不是能得到指數級的提升?】
這個念頭一起,便如同燎原的野火,再也無法熄滅。
但他同樣清楚,目前市麵上所有的大語言模型,包括這個最新的DeepSeek-R1,都存在一個致命的、源於其底層原理的缺陷——「幻覺」。
它們的本質,不是「理解」,而是「預測」。
它們隻是在根據海量的語料庫,去計算出下一個詞語出現的「最大概率」。
這種機製,決定了它們在處理事實性、邏輯性要求極高的任務時,偶爾,會一本正經地,胡說八道。
對於日常生活來說,這種小錯誤,無傷大雅。
但對於要求100%精確的數學研究來說,任何一個微小的錯誤,都可能是致命的。
【看來,想要一個真正可靠的、能用於嚴肅科研的AI助手,還得靠自己啊。】
他心中暗道。
【不過,這個領域,太複雜了。它是一個融合了數學、計算機、物理學、神經科學的『交叉學科』。以我現在的知識儲備,還遠遠不夠。】
【等我的數學等級,提升到LV.3,或許,可以花點時間,係統地,研究一下這個方向。】
他為自己,又立下了一個長期的「小目標」。
然後,他關掉了手機,站起身,伸了個懶腰。
……