趙靜盯著螢幕上不斷滾動的數字,眉頭緊鎖。在她的左側螢幕上,小芯AI正在執行「工藝缺陷主動學習模型」的第一輪預篩選;右側則是從14納米產線傳來的實時資料流,包含了過去三個月所有流片批次的三千七百多萬個工藝引數記錄。
會議室裡坐滿了人,但安靜得隻聽得見鍵盤敲擊聲和伺服器風扇的低鳴。張京京團隊的七位資深工藝工程師、林薇帶來的三位模擬專家、還有趙靜自己的十二名AI演演算法研究員——這是為121個工藝缺陷點專門組建的「聯合診斷組」。
「第一輪預篩選完成。」年輕的AI研究員小劉抬起頭,聲音有些沙啞,「基於歷史資料的相關性分析,121個缺陷點被分為三類:第一類,35個『高置信度關聯缺陷』,AI判斷其與特定工藝引數強相關,建議優先排查;第二類,58個『中等置信度關聯缺陷』,需要更多實驗資料確認;第三類,28個『低置信度隨機缺陷』,可能是環境因素或未被監測的變數導致。」
「35個優先排查……」張京京揉著太陽穴,「按照傳統方法,每個點需要至少三輪實驗驗證,一輪實驗兩天,總共需要210天。我們沒有那麼多時間。」
「所以不能用傳統方法。」趙靜調出一個全新的介麵,「小芯AI剛剛完成了『虛擬實驗平台』的升級。它可以根據物理模型和歷史資料,對每個缺陷點進行數萬次的虛擬實驗,快速縮小可疑引數的範圍。實際流片驗證隻需要針對最有希望的幾個假設進行。」
她演示了一個例子:針對第47號缺陷點——「氧化層厚度邊緣不均勻性」。傳統排查需要調整溫度、壓力、氣體流量、時間等十幾個引數,排列組合上千種可能。而AI在分析了所有相關資料後,提出了一個假設:問題可能不在於氧化工藝本身,而在於前一道清洗工序留下的表麵微觀形貌差異。
「AI是怎麼想到這個的?」一位工藝工程師質疑,「清洗和氧化是完全不同的工序。」
「因為AI發現了時間相關性。」趙靜調出資料圖,「在每週一的流片中,這個缺陷的出現概率比其他時間高32%。而週一上午,正好是裝置週末停機後重新啟動的時間點。AI進一步分析了清洗裝置的啟動曲線,發現溫度穩定需要比平時多五分鐘,這可能導致清洗液在矽片表麵的潤濕角發生微小變化,進而影響後續氧化層的成核均勻性。」
會議室裡響起一陣低語。這種跨工序、跨時間的關聯性,人類工程師很難察覺,因為每個團隊通常隻關注自己負責的工序。
「驗證這個假設需要多少時間?」張京京問。 ->.
「虛擬實驗已經完成。」趙靜點選執行按鈕,螢幕上開始播放模擬動畫:矽片表麵微觀形貌的變化如何影響氧化層生長,「AI模擬了128種不同的表麵狀態,結論是:如果表麵存在納米級的高度差超過0.5納米,氧化層厚度不均勻性會增加三倍。而要解決這個問題,隻需要在清洗裝置啟動階段,增加一個五分鐘的『預穩定流程』,讓溫度梯度更平緩。」
「實際驗證呢?」
「今天下午就可以安排。我們已經標記了一批晶圓,一半用現有流程,一半增加預穩定流程,晚上就能看到結果。」
張京京的眼睛亮了。如果這個方法可行,他們解決一個缺陷點的時間可以從六天壓縮到一天。
下午六點,第一批對比實驗結果出爐。
增加預穩定流程的晶圓組,氧化層厚度不均勻性的標準差從原來的4.7%降到了2.1%,完全滿足工藝規格要求。第47號缺陷點,確認解決。
會議室裡爆發出掌聲——這是121個缺陷清單上第一個被正式「關閉」的專案。
但趙靜很快潑了冷水:「各位,先別高興太早。47號是相對簡單的問題,AI找到了明確的因果鏈。但更多缺陷是多重因素交織的結果,比如第83號……」
她調出83號缺陷的檔案:**金屬互連層電遷移早期失效**。表現是在晶片工作幾百小時後,某些金屬線電阻異常增加,最終導致開路。問題在於,電遷移通常需要幾千小時才會顯現,而他們的測試隻能覆蓋幾百小時,無法直接觀察失效過程。
「這個問題我們卡了兩個月。」負責互連工藝的金秉洙博士苦笑,「我們試了調整金屬沉積溫度、退火工藝、鈍化層應力,甚至換了三種不同的阻擋層材料,都沒用。失效像是隨機的,但又有一定的空間規律——總是發生在晶片的特定功能模組區域。」
「AI有什麼思路?」張京京問。
趙靜讓小芯AI展示分析結果。螢幕上出現了一個複雜的三維熱-力-電多物理場耦合模型,模擬晶片在工作狀態下的溫度分佈、電流密度、應力場。
「AI假設,失效不是工藝問題,而是設計問題。」趙靜放大模型中的一個區域性區域,「在這個功能模組裡,有三條金屬線在某個節點處靠得特別近,間距隻有設計規則的最小值。當晶片工作時,這個區域會形成區域性熱點,溫度比周圍高15-20攝氏度。高溫加上高電流密度,加速了電遷移。」
「但設計規則檢查(DRC)是通過的。」金秉洙指出。
「DRC隻檢查幾何規則,不檢查熱和電的協同效應。」趙靜說,「而我們的14納米工藝對熱效應更敏感,設計規則需要增加『熱間距』約束。但這意味著要修改晶片設計,需要架構團隊配合。」
張京京立即拿起加密電話,聯絡晶片設計部門的負責人章宸。二十分鐘後,章宸帶著兩名資深佈局工程師趕到會議室。
「熱間距約束……」章宸聽完描述,眉頭緊鎖,「如果增加這個約束,晶片麵積可能會增加5-8%,效能也會受影響。而且需要重新進行全流程設計驗證,至少兩個月。」
「但如果不改,良率永遠上不去。」張京京堅持。
「也許有折中方案。」趙靜插話,「AI模擬了七種不同的金屬線走向調整方案,在不增加總麵積的情況下,可以將區域性熱點溫度降低8-10攝氏度,電遷移壽命延長三倍以上。雖然不能完全解決問題,但可以將其從『致命缺陷』降級為『可接受風險』,等下一代晶片再徹底解決。」
她展示了優化後的佈局圖:隻是微調了幾條金屬線的走向和寬度,避開了最危險的熱耦合區域。
章宸和佈局工程師們圍在螢幕前,快速評估。十分鐘後,章宸抬起頭:「這個方案可行。改動很小,隻需要修改三個金屬層,驗證週期可以壓縮到兩周內。但我們需要AI給出精確的版圖修改指令。」
「小芯可以生成GDSII格式的修改檔案。」趙靜說,「但需要佈局工程師確認,確保沒有引入新的設計規則違反。」
「成交。」章宸伸出手,「你們解決物理問題,我們解決設計問題。兩周後,新版圖紙到位。」
第83號缺陷,找到瞭解決路徑。
一週過去,聯合診斷組的作戰室裡,牆上的進度圖已經發生了顯著變化。
121個缺陷點中:
已關閉:19個
已找到解決方案,正在實施:37個
正在排查中:42個
尚未啟動:23個
「已經解決了56個,接近一半。」張京京在每日晨會上匯報,「按照這個速度,再有十天,大部分缺陷都能找到方向。但問題是……」
他調出尚未啟動的23個缺陷列表:「這些都是硬骨頭。要麼需要昂貴的實驗驗證,要麼涉及根本性的工藝變革,要麼……我們連問題到底出在哪裡都不知道。」
比如第112號缺陷:**電晶體閾值電壓隨晶圓位置係統性漂移**。同一個晶圓上,邊緣區域的電晶體閾值電壓比中心區域高8-12毫伏,導致晶片效能不均勻。
「我們排查了所有可能的工藝偏差:光刻曝光均勻性、離子注入角度、退火溫度梯度……」負責電晶體工藝的梁誌遠博士搖頭,「所有引數都在規格範圍內,但最終的電性引數就是有係統性差異。就像有一個看不見的手,在晶圓上畫了一個漸變場。」
林薇一直在旁聽,此刻突然開口:「也許問題不在製造過程,而在襯底本身。」
「襯底?高純矽片是我們自己製備的,檢測資料完美。」梁誌遠說。
「檢測的是宏觀引數:純度、晶向、缺陷密度。」林薇調出矽片供應商的資料表,「但有沒有可能,在晶體生長過程中,存在微量的摻雜濃度梯度?或者晶格常數有納米級的區域差異?這些差異在28納米節點可以忽略,但在14納米節點就會被放大。」
這個猜測很大膽。因為如果問題真的在矽片本身,那就意味著他們需要重新評估整個材料供應鏈,甚至要自建更精密的檢測能力。
「驗證這個假設需要什麼?」張京京問。
「需要做晶圓級的納米壓痕測試和微區X射線衍射,測量每個位置的力學效能和晶格常數。」林薇說,「這種裝置國內隻有三台,都在國家實驗室,預約排隊至少兩個月。」
時間又成了攔路虎。
這時,趙靜舉起手:「也許……我們可以用間接方法驗證。小芯AI分析了過去所有批次的資料,發現一個規律:來自同一個矽錠不同位置的晶圓,閾值電壓漂移的模式高度相似。如果是工藝問題,不同批次的模式應該是隨機的;但如果漂移模式在矽錠層麵就有『簽名』,那就指向襯底本身。」
她展示了AI發現的證據:來自矽錠頂部的晶圓,總是呈現「中心低、邊緣高」的漂移模式;來自底部的晶圓,則是「左側高、右側低」。這種規律性太強了,不像是隨機工藝波動。
「如果真是這樣,那我們這一個月都在解決錯誤的問題。」金秉洙苦笑。
「但至少現在我們知道了正確的問題是什麼。」張京京倒是很平靜,「立即聯絡徐文淵院士的團隊,請他們協助分析矽錠的微觀均勻性。同時,調整工藝引數,嘗試補償這種襯底梯度——如果我們知道漂移的規律,也許可以在製造過程中反向校正。」
「補償需要精確的模型。」梁誌遠說,「每個晶圓都要單獨測量,生成校正圖,然後調整每個晶片位置的工藝引數。這相當於從『大批量製造』轉向『個性化製造』,產能會大幅下降。」
「但在找到完美的襯底之前,這是唯一的辦法。」張京京做出決定,「先保證良率,再考慮產能。我們首先要在85天內達到75%的成本線,這是生死線。」
晚上十一點,趙靜還在AI研發中心。螢幕上正在執行第119號缺陷的分析——這是最難啃的骨頭之一:**靜態隨機儲存器(SRAM)單元在低溫下軟錯誤率異常升高**。
問題詭異在於:晶片在室溫下測試一切正常,但降到零下40攝氏度時,SRAM單元的讀寫錯誤率會飆升兩個數量級。而他們的晶片設計工作溫度範圍是零下40到85攝氏度,這個缺陷直接導致產品不合格。
團隊已經排除了儲存器設計、製造工藝、甚至封裝問題。現在懷疑是某種材料在低溫下的特性突變,但具體是哪一種材料、哪個環節,毫無頭緒。
小芯AI已經連續執行了三天三夜的模擬,嘗試了七百多種可能的材料組合和工藝條件,仍然沒有找到匹配的失效模式。
趙靜盯著螢幕上滾動的資料流,突然想到什麼。她調出小芯AI的學習日誌,檢視它在分析過程中的「注意力分佈」——這是最近加入的可解釋性模組,可以顯示AI在決策時最關注哪些特徵。
日誌顯示,在分析低溫失效資料時,AI的注意力高度集中在三個特徵上:一是SRAM單元中某種特殊介電材料的厚度;二是金屬接觸孔的深寬比;三是……晶片背麵的某種封裝材料的導熱係數。
前兩個很好理解,但第三個特徵引起了趙靜的注意。晶片背麵?SRAM單元在晶片正麵,和背麵材料有什麼關係?
除非……熱應力。
她立即重新設定模擬條件:假設晶片在低溫下,因為正麵和背麵材料的熱膨脹係數不匹配,產生巨大的熱應力。這種應力可能通過矽襯底傳遞,導致SRAM單元中的電晶體溝道區域出現納米級的應變,改變載流子遷移率,進而影響儲存單元的穩定性。
模擬開始執行。五分鐘後,結果彈出:完全吻合。
「找到了!」趙靜忍不住喊出聲。
她把結果發給封裝團隊。一小時後,封裝團隊回覆:確實,他們為了降低成本,在最新的批次中更換了一種背麵散熱材料。新材料的導熱效能更好,但熱膨脹係數與矽的差異比舊材料大30%。在低溫下,這種差異會導致晶片彎曲,產生區域性應變。
解決方案很簡單:換回舊材料,或者在新材料與矽之間增加應力緩衝層。
第119號缺陷,關閉。
趙靜靠在椅背上,長出一口氣。窗外,夜色深沉,但AI研發中心的燈火依然通明。其他研究員還在工作,螢幕上執行著各種複雜的模型。
她看向牆上的進度圖:121個缺陷點,已經解決了89個,剩下的32個也都有了明確方向。按照這個速度,再有五天,清單就能全部完成。
這比最初的預估快了整整三倍。
而這一切,都得益於小芯AI強大的資料探勘能力和跨領域關聯分析。人類工程師的直覺和經驗,加上AI的計算和模式識別,形成了一種前所未有的協同效應。
但趙靜知道,這隻是開始。解決了已知的121個缺陷,還會有新的缺陷冒出來。製造工藝的優化,是一場永無止境的戰爭。
她的手機震動,是林薇發來的訊息:「合城那邊傳來訊息,無塵島先導實驗線的關鍵部件加工遇到瓶頸,需要更精確的TCAD模型支援。寶島電路那邊表示可以提供幫助,但他們要求技術交換。」
TCAD——工藝和器件模擬軟體,這是半導體設計的核心工具之一。全球市場被兩家歐美公司壟斷,而寶島電路因為歷史原因,擁有深厚的TCAD模型開發經驗。
如果真能獲得他們的關鍵模型,無塵島的技術驗證將大大加速。
但技術交換……對方會要什麼?
趙靜回覆:「我明天一早去找您詳細談。另外,121個缺陷排查進度良好,預計五天內完成。」
傳送完畢,她關掉電腦,走出實驗室。
走廊裡靜悄悄的,但透過玻璃牆,她能看到各個實驗室裡依然忙碌的身影。這個城市,這個國家,有成千上萬的人正在為同一個目標熬夜奮鬥。