訓練大型語言模型(LLM)時，記憶體(RAM)與顯示卡記憶體(VRAM)的需求分析

最近跟朋友聊到AI，幾乎每個人都能說上幾句大型語言模型（LLM）的驚人能力。從寫程式、寫文案到規劃旅行，LLM彷彿無所不能。但當話題深入到「那我也來自己訓練一個玩玩看？」的時候，氣氛通常會突然變得有點安靜。這份安靜背後，往往藏著一個殘酷的現實：硬體門檻，尤其是那令人望而生畏的記憶體（RAM）與顯示卡記憶體（VRAM）需求。

坦白說，我第一次嘗試微調（Fine-tuning）一個中等大小的LLM時，也狠狠地撞上了這堵名為「記憶體不足（Out of Memory, OOM）」的高牆。看著終端機上跳出的紅色錯誤訊息，那種感覺就像是滿懷熱情準備好食材，卻發現自家廚房小到連砧板都放不下。這段經歷讓我深刻體會到，在踏入LLM的訓練世界前，如果沒有對記憶體需求有足夠的了解，再多的熱情也只會被一次次的挫敗消磨殆盡。

所以，今天我想做的，就是以一個過來人的身份，和你一起坐下來，好好聊聊這場AI冒險中最重要的後勤問題。我們不談太過艱澀的理論，而是用更貼近實戰的角度，來剖析VRAM和RAM在LLM訓練中到底扮演什麼角色，以及我們該如何聰明地應對它們的需求。

VRAM：決定模型生死的核心戰場

如果說GPU是訓練LLM的大腦，那VRAM（Video RAM）就是這個大腦能夠思考的空間。所有與模型訓練直接相關的「零件」，都必須被裝進這個高速的工作區裡，GPU才能對它們進行快速處理。一旦這個空間不夠用，訓練速度就會急遽下降，甚至直接崩潰。

那麼，VRAM裡到底都裝了些什麼？主要有四大金剛：

模型參數（Model Parameters）：這是模型本身，也就是那些經過數十億次計算學習到的權重。一個70億（7B）參數的模型，如果用標準的32位元浮點數（FP32）來儲存，光是模型本身就需要 7B * 4 bytes ≈ 28GB 的VRAM。這也是為什麼我們很少用FP32，而更常用16位元（FP16/BF16），直接讓需求減半到14GB。
梯度（Gradients）：在訓練過程中，模型需要計算每個參數的梯度，來決定下一步要如何更新參數以減少誤差。梯度的數量和模型參數一樣多，所以它們也佔用了與模型參數相當的VRAM空間。
優化器狀態（Optimizer States）：優化器（如AdamW）在更新模型參數時，需要儲存一些額外的資訊，比如過去的梯度動量。對於AdamW來說，它通常需要儲存兩倍於模型參數的數據，這又是一筆巨大的開銷。
激活值（Activations）：這是數據在流經模型各層時產生的中間結果。它的佔用量比較複雜，與批次大小（Batch Size）、序列長度（Sequence Length）和模型架構都有關。序列越長，批次越大，激活值佔用的VRAM就越多，而且經常是VRAM佔用的最大頭。

把這些全部加起來，你會發現訓練一個7B模型所需的VRAM遠不止14GB。一個粗略的估算（在FP16下）可能是：14GB (參數) + 14GB (梯度) + 28GB (AdamW優化器) + 激活值 ≈ 56GB + 激活值。這解釋了為什麼像NVIDIA A100（80GB VRAM）這樣的專業級GPU會成為LLM訓練的入場券。

一台黑色伺服器機箱的特寫，可以看到內部的電子元件和散熱風扇。 — 這不僅僅是硬體，更是承載無數數據與算法的方舟，每一次風扇的轉動，都在為AI的進化提供動力。Source: Denny Bú / unsplash

RAM：默默無聞卻不可或缺的後勤部長

聊完了光鮮亮麗的VRAM，我們來談談經常被忽略的系統記憶體（RAM）。如果VRAM是前線的作戰指揮室，那RAM就是整個戰役的後勤補給基地。它的作用雖然不那麼直接，卻同樣至關重要。

RAM在LLM訓練中的主要任務有幾個：

首先，數據載入與預處理。龐大的訓練資料集（動輒數十GB甚至TB）需要先從硬碟讀取到RAM中，然後進行分詞（Tokenization）、排序、打包成批次（Batches）等預處理工作，最後再傳送給VRAM中的模型使用。如果RAM太小，光是數據準備階段就會變得非常卡頓，甚至無法處理大型資料集。一般來說，RAM的大小最好是資料集大小的數倍以上，才能確保預處理流程順暢。

其次，CPU Offload的備援空間。這是一個非常重要的概念。當VRAM極度緊張時，一些聰明的技術（例如DeepSpeed ZeRO-Offload）可以將部分不太常用的數據（像是優化器狀態或部分模型參數）從高速但昂貴的VRAM中「卸載」到相對廉價的RAM中。這樣一來，即使你的VRAM不大，也有可能訓練起更大的模型。當然，代價是訓練速度會變慢，因為數據需要在VRAM和RAM之間來回傳輸。但無論如何，這提供了一條寶貴的「以時間換空間」的路徑，而這條路的前提就是你得有足夠大的RAM來接住這些從VRAM卸載下來的數據。

最後，RAM也負責運行作業系統、Python直譯器、各種程式庫以及監控軟體等。這些雖然佔用不大，但在一個大型、長時間的訓練任務中，一個穩定、充裕的後勤環境是不可或缺的。因此，一個常見的建議是，你的RAM容量至少應該是所有GPU VRAM總和的一到兩倍。

實戰策略：如何規劃你的記憶體配置？

理論說了這麼多，回到現實，我們該如何規劃？

入門級微調（~7B模型）：如果你只是想嘗試微調像Llama 3 8B這樣的模型，一張擁有24GB VRAM的消費級顯示卡（如RTX 3090/4090）是個不錯的起點。搭配64GB到128GB的RAM，並善用QLoRA（一種結合了量化和LoRA的PEFT技術）等記憶體優化方法，你完全可以在個人電腦上體驗到微調的樂趣。
進階級訓練/微調（13B~70B模型）：要處理更大規模的模型，單張消費級卡就顯得捉襟見肘了。你可能需要考慮擁有多張專業級GPU（如A100/H100）的伺服器。在這種情況下，VRAM總量是關鍵。例如，要順暢地微調一個70B模型，你可能需要4到8張A100 80GB。對應的，系統RAM也應該升級到512GB甚至1TB，以應對多GPU環境下的數據分發和可能的CPU Offload需求。
從零開始訓練（Pre-training）：這已經是雲端服務供應商和大型研究機構的戰場了。從零開始訓練一個像樣的LLM，需要由數百甚至數千個頂級GPU組成的叢集，持續運轉數週甚至數月。這裡的記憶體需求是以TB來計算的，早已超出了個人或小團隊能夠觸及的範疇。