睿文小說 > 我的智商,隨年歲暴漲 > 第83章 AI模型初訓練

第83章 AI模型初訓練

⬅ 上一章 📋 目錄 ⚠ 報錯 下一章 ➡
⭐ 加入書籤
推薦閱讀: 花都風流第一兵王 代嫁寵妻是替身 天鋒戰神 穿越古代賺錢養娃 我覺醒了神龍血脈 我的老婆國色天香 隱婚嬌妻別想跑 遲遲也歡喜 全職獵人之佔蔔師

第83章 AI模型初訓練

華興一號的第一輪訓練,比林華興預想的更順利,也比他預想的更曲折。

順利的是,模型架構設計得足夠紮實,損失函式值從最初的3.2穩步下降,到第四天就降到了0.5以下,各項評估指標都優於同期開源的GPT-2模型。

曲折的是,到第六天,損失函式值突然開始反彈,從0.47一路飆升到0.9,訓練日誌裡開始出現大量的NaN值——這意味著模型引數爆炸了。

林華興坐在書房裡,盯著螢幕上瘋狂跳動的紅色警告,眉頭緊鎖。

洪淑婷端著晚飯進來,看見他的表情,就知道出問題了。

“怎麼了?”

“模型崩了。”林華興指著螢幕,“引數爆炸,得從頭排查。”

洪淑婷把飯放在桌上,看了一眼螢幕,雖然看不懂,但知道他肯定很煩。

“先吃飯吧,吃完飯再弄。”

林華興搖頭:“等會兒,我先看看日誌。”

他快速瀏覽著訓練日誌,大腦裡同步進行著故障分析。引數爆炸通常有兩種原因:一是梯度爆炸,二是學習率過大。但從日誌來看,梯度一直很穩定,問題應該出在學習率上。

他調出學習率的調整記錄,發現第五輪調整的時候,他把初始學習率從0.001調到了0.002。這個調整幅度看似不大,但對於這個規模的模型來說,可能正好踩到了臨界點。

“應該是學習率的問題。”他對洪淑婷說,“調得太高了。”

洪淑婷不太懂這些,但看他臉色緩和了些,鬆了一口氣:“能修好嗎?”

“能。”林華興把學習率調回0.001,重新啟動訓練,“不過得從頭開始,之前六天的訓練白費了。”

洪淑婷把筷子遞給他:“沒事,反正你有的是時間。”

林華興接過筷子,夾了一塊紅燒肉放進嘴裡。洪淑婷做的紅燒肉一如既往地好吃,肥而不膩,入口即化。

“好吃。”他說。

洪淑婷笑了:“那就多吃點。”

吃完飯,林華興重新投入工作。他把學習率調整策略從階梯衰減改成了餘弦退火,這樣學習率的變化會更平滑,不容易觸發引數爆炸。

修改完程式碼,重新啟動訓練。螢幕上,損失函式值從3.2開始重新下降。

這一次,下降的速度比之前慢了一些,但更穩。

洪淑婷坐在客廳沙發上看書,偶爾抬頭看一眼書房的方向。門開著,她能看見林華興坐在電腦前的背影。

她想起小時候,他也是這樣,坐在書桌前,一看就是半天。

晚上十點,林華興從書房出來,揉了揉眼睛。洪淑婷已經洗完澡,靠在床上看書。

“怎麼樣?”她問。

“穩了。”林華興躺到她旁邊,“損失值降到1.2了,按這個速度,再有三天就能降到0.5以下。”

洪淑婷放下書,幫他按了按太陽穴:“累不累?”

“還好。”

“還好?你從下午兩點坐到十點,八個小時沒動過。”

林華興閉上眼睛,感受著她手指的溫度:“習慣了。”

洪淑婷沒說話,繼續幫他按著。過了一會兒,林華興突然說:“淑婷。”

“嗯?”

“等我這個模型跑通了,我帶你出去旅遊。”

洪淑婷愣了一下,然後笑了:“真的?”

“真的。想去哪兒?”

溫馨提示: 登入使用者跨裝置永久儲存書架的資料, 建議大家登入使用

第 1 頁
⬅ 上一章 📋 目錄 ⚠ 報錯 下一章 ➡
升級 VIP · 無廣告 + VIP 章節全解鎖
👑 VIP 特權 全站去廣告清爽閱讀 · VIP 章節無限暢讀,月卡僅 $5
報錯獎勵 發現文字亂碼、缺章、內容重複?點上方「章節報錯」回報,審核通過立獲 3天VIP
書單獎勵 前往 個人中心 投稿你的私藏書單,審核通過立獲 7天VIP
⭐ 立即升級 VIP · 月卡僅 $5
還沒有帳號? 免費註冊 | 登入後購買