辭職回家，我靠做糕點成名第196章數據收集完成

清晨的陽光透過車間窗戶，灑在整齊排列的電腦裝置上。陳曦揉了揉佈滿血絲的眼睛，指尖在鍵盤上快速敲擊，將預處理後的500組樣本資料匯入tensorflow演演算法框架。經過一夜的準備，深度學習模型的訓練終於要正式啟動了。

“模型引數已經設定完畢，學習率0.001，迭代次數100次，batchsize設為32。”陳曦盯著螢幕上的引數配置介麵，向團隊通報情況，“現在點選訓練按鈕，模型就會開始自動學習樣本特征，預計6小時後完成首輪訓練。”

林默、蘇晚、李萌萌和小王圍在電腦旁，眼神中充滿了期待。“這500組樣本我們花了10天時間精心收集，資料質量很高，希望模型能不負眾望。”蘇晚輕聲說道，手中緊緊攥著那份記錄著傳統手測評分的樣本表。

小王則有些迫不及待：“按照之前的測試，隻要模型識彆精度能穩定在90%以上，我們就能進行二次試產了。真想快點看到結果！”

林默拍了拍大家的肩膀：“耐心等待，模型訓練是一個循序漸進的過程，我們要相信資料的力量。”

隨著陳曦按下“開始訓練”按鈕，電腦螢幕上立刻跳動起訓練進度條。損失值從最初的1.2逐漸下降，訓練集的識彆準確率則一步步攀升。2小時後，損失值降至0.3，準確率達到75%；4小時後，損失值穩定在0.15左右，準確率突破85%；6小時後，首輪訓練結束，螢幕上顯示出最終結果：訓練集識彆準確率90%，驗證集識彆準確率88%。

“太好了！達到預期目標了！”李萌萌興奮地拍手歡呼，“訓練集準確率90%，驗證集88%，這個成績已經很不錯了！”

小王也鬆了口氣：“接下來我們用新製作的測試樣本驗證一下，看看模型的泛化能力怎麼樣。”

為了測試模型的實際應用效果，蘇晚和李萌萌提前製作了20組全新的樣本，涵蓋了所有發酵等級，而且特意增加了臨界樣本的比例。她們冇有將這些樣本納入訓練集，目的就是檢驗模型對未知資料的識彆能力。

陳曦將20組測試樣本的圖片和資料輸入模型，點選“預測”按鈕。螢幕上的進度條快速推進，幾秒鐘後，預測結果出來了——識彆準確率僅65%。

“怎麼會這樣？”所有人的笑容瞬間凝固。螢幕上的錯誤分佈表清晰地顯示，模型對合格樣本的識彆準確率仍有95%，但對“略不足”和“略過度”的臨界樣本識彆準確率僅30%，甚至有3組“略過度”樣本被誤判為合格，2組“略不足”樣本被誤判為不足。

“這就是典型的過擬合問題。”陳曦臉色凝重地解釋道，“模型在訓練集上表現很好，但對新的測試樣本識彆精度大幅下降，說明它隻是死記硬背了訓練資料的特征，冇有真正學會舉一反三，無法泛化應用到實際生產中。”

林默眉頭緊鎖：“過擬合？那是什麼原因導致的？我們的樣本資料不是已經很均衡了嗎？”

陳曦開啟樣本分佈統計表，重新仔細覈對：“你們看，雖然我們之前統計的臨界樣本占比達到40%，但在訓練過程中，我發現原始資料中‘合格樣本’的實際有效特征占比高達40%，而其他四個等級的樣本各占15%左右。模型在訓練時會自動偏向樣本特征更豐富的類彆，導致對合格樣本的識彆精度很高，但對其他等級樣本，尤其是臨界樣本的識彆能力不足。”

蘇晚也發現了問題所在：“而且我們的訓練樣本都是在固定的環境條件下製作的，光線、溫度、濕度都相對穩定，但實際生產中環境是變化的，模型冇有學習到這些變化帶來的特征差異，所以麵對新的測試樣本時就會出現誤判。”

團隊剛剛燃起的希望又被澆上了一盆冷水。如果不能解決過擬合問題，模型就無法投入實際應用，之前10天的樣本收集和6小時的訓練都將前功儘棄。

“大家彆灰心，過擬合是深度學習模型訓練中很常見的問題，隻要找到正確的解決方法，就能大幅提升模型的泛化能力。”林默看著沮喪的團隊成員，語氣堅定地鼓勵道，“模型訓練本就是一個不斷試錯、不斷優化的過程，每一次失敗都是向成功邁進的一步。現在我們要做的，就是分析原因，找到解決方案。”

陳曦點點頭，立刻開啟電腦，搜尋“深度學習過擬合解決方法”。他快速瀏覽了多篇專業文獻，結合自己的理解，總結出兩個核心解決方案：“要解決過擬合問題，一是要優化資料處理，通過資料增強技術增加樣本的多樣性，同時均衡各等級樣本的占比；二是要調整模型結構，加入正則化層，防止模型過度依賴訓練資料的特征。”

本小章還未完，請點選下一頁繼續閱讀後麵精彩內容！“我們先從資料處理入手，這是最直接有效的方法。”林默做出決策，“陳曦負責研究資料增強技術，生成擴充套件樣本；蘇晚負責驗證增強後樣本的有效性，確保資料符合實際情況；小王負責調整樣本分佈，讓各等級樣本占比均衡；我負責統籌協調，跟蹤優化進度。”

方案確定後，團隊立刻投入工作。陳曦選擇了三種常用的資料增強技術：影象旋轉（0°、90°、180°、270°）、縮放（0.8倍、1.0倍、1.2倍）、亮度調整（±10%、±20%）。他編寫了一段python指令碼，對現有的500組樣本圖片進行處理，每組圖片生成2組擴充套件樣本，最終得到1500組樣本資料。

“通過旋轉、縮放和亮度調整，能讓模型學習到不同角度、不同大小、不同光線條件下的樣本特征，從而提升泛化能力。”陳曦向團隊解釋道，“比如之前我們擔心的光線變化問題，通過亮度調整生成的擴充套件樣本，就能讓模型提前適應這種變化，為後續的光線補償演演算法打下基礎。”

蘇晚則仔細對比了原始樣本和增強樣本的資料差異。她隨機抽取了10組增強樣本，測量它們的濕度、氣孔直徑等關鍵資料，發現增強後的樣本特征與原始樣本基本一致，冇有出現失真的情況。“資料增強後的樣本仍然符合實際生產中的情況，不會影響模型的學習效果。”蘇晚向團隊彙報了驗證結果。

接下來是樣本均衡化處理。小王將1500組樣本按照發酵等級重新分類，通過隨機篩選的方式，讓每個等級的樣本數量都保持在300組，占比均為20%。“這樣一來，模型在訓練時就不會偏向任何一個等級的樣本，能夠均勻學習到所有等級的特征，尤其是臨界樣本的特征。”小王說道。

為了進一步提升模型的泛化能力，陳曦還對樣本集進行了重新劃分：“我們將1500組樣本分為訓練集（1200組，占80%）和驗證集（300組，占20%），其中驗證集全部采用增強後的樣本，而且確保驗證集中各等級樣本的分佈與訓練集一致。這樣在訓練過程中，模型就能不斷通過驗證集進行自我修正，避免過度依賴訓練資料。”

一切準備就緒後，陳曦啟動了第二輪模型訓練。這次他還在模型中加入了l2正則化層，進一步防止過擬合。“正則化層能給模型的權重引數加上約束，避免某些引數過大，從而防止模型過度擬合訓練資料的細節特征。”陳曦解釋道。

團隊成員們冇有離開車間，而是守在電腦旁，實時關注著訓練進度。隨著迭代次數的增加，訓練集和驗證集的識彆準確率都在穩步提升，而且兩者之間的差距越來越小——這意味著過擬合問題正在得到緩解。

“你們看，訓練到50次迭代時，訓練集準確率92%，驗證集準確率91%，差距隻有1%！”李萌萌興奮地喊道，“這比第一次訓練時的差距小多了，說明資料增強和正則化起到了作用！”

蘇晚則重點關注臨界樣本的識彆情況。她從驗證集中抽取了50組臨界樣本，跟蹤模型的識彆準確率。當訓練進行到80次迭代時，臨界樣本的識彆準確率已經從之前的30%提升到了75%，有了質的飛躍。

“太好了！臨界樣本的識彆精度提升很明顯！”蘇晚激動地說道，“這說明我們的樣本增強和均衡化處理是有效的，模型已經開始學會區分那些細微的臨界差異了。”

林默看著螢幕上不斷攀升的準確率曲線，心中十分欣慰：“這就是團隊協作的力量！遇到問題不可怕，隻要我們團結一心，積極尋找解決方案，就冇有克服不了的困難。”

6小時後，第二輪模型訓練結束。最終結果顯示：訓練集識彆準確率94%，驗證集識彆準確率93%，兩者差距僅1%，過擬合問題得到了有效解決。

“現在我們用之前的20組測試樣本再驗證一次！”小王迫不及待地說道。

陳曦將20組測試樣本輸入模型，點選“預測”。這一次，螢幕上顯示的識彆準確率達到了88%，其中臨界樣本的識彆準確率提升至80%，隻有1組“略過度”樣本被誤判為合格，冇有出現嚴重的誤判情況。

“成功了！我們成功解決了過擬合問題！”團隊成員們歡呼雀躍，疲憊的臉上洋溢著勝利的笑容。

蘇晚在分析測試結果時，突然發現了一個重要的現象：“你們看，模型對測試樣本的識彆結果中，濕度資料與圖片識彆結果的匹配度達到了85%。比如所有濕度在62%-68%之間的樣本，模型都正確識彆為合格或略不足；濕度低於60%的樣本，都被正確識彆為略過度或過度。”

這章冇有結束，請點選下一頁繼續閱讀！這個發現讓蘇晚眼前一亮，她再次想到了之前的雙檢測方案：“如果我們將濕度資料作為模型識彆的輔助特征，與圖片特征結合起來，形成‘視覺識彆濕度檢測’的雙檢測模型，識彆精度肯定能進一步提升！比如當模型對某個臨界樣本的識彆結果不確定時，就可以參考濕度資料進行二次判斷，從而降低誤判率。”

“這個想法非常好！”林默立刻表示支援，“濕度資料是發酵程度的直接物理指標，與視覺特征結合起來，能讓模型的判斷更全麵、更精準。接下來我們可以嘗試將濕度資料融入模型，進一步優化識彆精度。”

陳曦也點點頭：“將濕度資料作為輸入特征之一，重新訓練模型，應該能讓識彆準確率再提升幾個百分點。而且這也能解決一些極端情況下的誤判問題，比如某些麪糰外觀特征不明顯，但濕度資料差異很大，模型就能通過濕度資料做出正確判斷。”

小王則已經開始思考具體的實現方案：“我們可以修改模型的輸入層，將濕度資料與圖片的畫素資料結合起來，作為模型的輸入特征。這樣模型在訓練時，就能同時學習視覺特征和物理指標特征，形成多維度的判斷邏輯。”

團隊的熱情再次被點燃。雖然第二輪訓練已經取得了不錯的成果，但他們並冇有滿足，而是朝著更高的目標邁進。

當天晚上，陳曦開始修改模型的輸入層結構，將濕度資料融入模型；蘇晚則整理了所有樣本的濕度資料，確保資料格式符合模型輸入要求；小王編寫了資料融合的程式，將圖片資料和濕度資料關聯起來；林默則製定了第三輪訓練的計劃，目標是將模型識彆準確率提升至95%以上。

遠在鹽城的老周聽說模型訓練取得了重大突破，特意給林默打來了電話：“林總，恭喜你們！我就知道你們一定能成功。等裝置量產了，我們一定要第一時間去現場看看，親眼見證我們種的糯米，通過智慧裝置變成美味的糕點。”

“一定！”林默笑著迴應，“周叔，這也離不開你們提供的優質糯米。等‘糕小默2.0’量產成功，我們第一時間給你們寄樣品，讓你們嚐嚐自己種的糯米做出來的糕點。”

夜色漸深，車間裡的燈光依然明亮。團隊成員們還在忙碌地準備第三輪模型訓練，他們的臉上雖然帶著疲憊，但眼神中卻充滿了堅定和期待。

蘇晚看著那份記錄著傳統手測評分的樣本表，心中感慨萬千。從最初的樣本收集難題，到現在的過擬合問題解決，團隊一路走來，遇到了無數挑戰，但每一次都能憑藉團結協作和創新思維攻克難關。而“視覺識彆濕度檢測”的雙檢測方案，也在這個過程中逐漸清晰，即將成為“糕小默2.0”的核心技術亮點。

她相信，隻要堅持將傳統工藝經驗與現代科技相結合，不斷優化模型，“糕小默2.0”一定能達到甚至超過人工識彆的精度，成為林記傳承非遺手藝、實現規模化生產的重要支撐。而陳曦之前提出的光線補償演演算法，也將在後續的優化中與雙檢測方案相結合，讓“糕小默2.0”的視覺識彆係統更加完善，適應各種複雜的生產環境。

第196章數據收集完成

📣📣📣親愛的會員朋友📣📣📣

VIP權益👉

1、全站0廣告+全網VIP熱文免費看

2、免費！深！夜！讀！物（老司機上高速！）

3、每日更新男女頻熱度/新書榜/精選內容/作者合集上千個，再也不用擔心文荒了！

4、專屬聽書功能，超多小說解鎖音訊，解放雙手！

5、免費短劇站+免費漫畫站

開通會員免費贈送合作站的同時長會員，免費送！買多久！送多久！

🌟月卡：5美金

🌸1個月，約130新台幣

🌟季卡：13美金

🌸3個月，約110新台幣/月

🌟年卡：45美金

🌸12個月，約100新台幣/月

第196章 數據收集完成

📣📣📣親愛的會員朋友📣📣📣

VIP權益👉

1、全站0廣告+全網VIP熱文免費看

2、免費！深！夜！讀！物（老司機上高速！）

3、每日更新男女頻熱度/新書榜/精選內容/作者合集上千個，再也不用擔心文荒了！

4、專屬聽書功能，超多小說解鎖音訊，解放雙手！

5、免費短劇站+免費漫畫站

開通會員免費贈送合作站的同時長會員，免費送！買多久！送多久！

🌟月卡：5美金

🌸1個月，約130新台幣

🌟季卡：13美金

🌸3個月，約110新台幣/月

🌟年卡：45美金

🌸12個月，約100新台幣/月

第196章數據收集完成