第83章 AI模型初訓練
華興一號的第一輪訓練,比林華興預想的更順利,也比他預想的更曲折。
順利的是,模型架構設計得足夠紮實,損失函式值從最初的3.2穩步下降,到第四天就降到了0.5以下,各項評估指標都優於同期開源的GPT-2模型。
曲折的是,到第六天,損失函式值突然開始反彈,從0.47一路飆升到0.9,訓練日誌裡開始出現大量的NaN值——這意味著模型引數爆炸了。
林華興坐在書房裡,盯著螢幕上瘋狂跳動的紅色警告,眉頭緊鎖。
洪淑婷端著晚飯進來,看見他的表情,就知道出問題了。
“怎麼了?”
“模型崩了。”林華興指著螢幕,“引數爆炸,得從頭排查。”
洪淑婷把飯放在桌上,看了一眼螢幕,雖然看不懂,但知道他肯定很煩。
“先吃飯吧,吃完飯再弄。”
林華興搖頭:“等會兒,我先看看日誌。”
他快速瀏覽著訓練日誌,大腦裡同步進行著故障分析。引數爆炸通常有兩種原因:一是梯度爆炸,二是學習率過大。但從日誌來看,梯度一直很穩定,問題應該出在學習率上。
他調出學習率的調整記錄,發現第五輪調整的時候,他把初始學習率從0.001調到了0.002。這個調整幅度看似不大,但對於這個規模的模型來說,可能正好踩到了臨界點。
“應該是學習率的問題。”他對洪淑婷說,“調得太高了。”
洪淑婷不太懂這些,但看他臉色緩和了些,鬆了一口氣:“能修好嗎?”
“能。”林華興把學習率調回0.001,重新啟動訓練,“不過得從頭開始,之前六天的訓練白費了。”
洪淑婷把筷子遞給他:“沒事,反正你有的是時間。”
林華興接過筷子,夾了一塊紅燒肉放進嘴裡。洪淑婷做的紅燒肉一如既往地好吃,肥而不膩,入口即化。
“好吃。”他說。
洪淑婷笑了:“那就多吃點。”
吃完飯,林華興重新投入工作。他把學習率調整策略從階梯衰減改成了餘弦退火,這樣學習率的變化會更平滑,不容易觸發引數爆炸。
修改完程式碼,重新啟動訓練。螢幕上,損失函式值從3.2開始重新下降。
這一次,下降的速度比之前慢了一些,但更穩。
洪淑婷坐在客廳沙發上看書,偶爾抬頭看一眼書房的方向。門開著,她能看見林華興坐在電腦前的背影。
她想起小時候,他也是這樣,坐在書桌前,一看就是半天。
晚上十點,林華興從書房出來,揉了揉眼睛。洪淑婷已經洗完澡,靠在床上看書。
“怎麼樣?”她問。
“穩了。”林華興躺到她旁邊,“損失值降到1.2了,按這個速度,再有三天就能降到0.5以下。”
洪淑婷放下書,幫他按了按太陽穴:“累不累?”
“還好。”
“還好?你從下午兩點坐到十點,八個小時沒動過。”
林華興閉上眼睛,感受著她手指的溫度:“習慣了。”
洪淑婷沒說話,繼續幫他按著。過了一會兒,林華興突然說:“淑婷。”
“嗯?”
“等我這個模型跑通了,我帶你出去旅遊。”
洪淑婷愣了一下,然後笑了:“真的?”
“真的。想去哪兒?”
溫馨提示: 登入使用者跨裝置永久儲存書架的資料, 建議大家登入使用