Billy Tse
HomeRoadmapBlogContact
Playground
Buy me a bug

© 2026 Billy Tse

OnlyFansLinkedInGitHubEmail
Back to Blog
February 3, 2026•20 min read

AI 戰爭機器選購指南:RTX 6000 Pro Blackwell、Threadripper 同企業級伺服器深度對比

深入探討 AI 訓練工作站嘅硬件配置,包括 NVIDIA RTX 6000 Pro Blackwell、AMD Threadripper、PCIe 5.0、多 GPU 配置,以及雙風扇、渦輪式、被動散熱等冷卻方案嘅技術細節

GPUHardware

做緊 AI 訓練或者推理嘅時候,硬件配置直接影響你嘅開發效率同成本。呢篇文章會深入分析最新嘅 NVIDIA RTX 6000 Pro Blackwell、AMD Threadripper、PCIe 5.0 技術,以及唔同散熱設計嘅優缺點。

TL;DR

核心重點:

  • 🎯 RTX 6000 Pro Blackwell (96GB):AI 訓練首選,雙倍 VRAM 可單卡訓練 13B-30B 模型
  • ⚡ RTX 6000 Blackwell (48GB):適合推理或細模型,訓練大模型需要 model parallelism
  • 💪 Threadripper PRO 7000:最多支援 8 個 PCIe 5.0 x16 GPU,128 PCIe lanes
  • ❄️ 散熱設計:雙風扇適合單機,Blower 適合密集機架,被動散熱需要數據中心級別氣流
  • 💰 成本考量:單卡 ~HK50,000,8卡系統 HK50,000,8 卡系統 ~HK50,000,8卡系統 HK480,000+ (未計 CPU、RAM、Storage)
  • 🔧 應用場景:中型模型訓練(1B-7B 參數)建議 2-4 卡配置,成本效益最佳

目錄

  • NVIDIA RTX 6000 Pro Blackwell:次世代 AI 訓練卡
  • AMD Threadripper PRO:多 GPU 系統嘅最佳拍檔
  • PCIe 5.0:點解重要?
  • GPU 散熱設計:點樣揀?
  • 訓練 vs 推理:點解需要分開配置?
  • 實戰經驗同常見問題
  • 總結

NVIDIA RTX 6000 Pro Blackwell:次世代 AI 訓練卡

核心規格

NVIDIA 喺 2025 年底推出嘅 RTX 6000 系列 Blackwell 係基於全新 Blackwell 架構(GB202 晶片),專為專業 AI 工作負載設計。

RTX 6000 Blackwell 系列有兩個版本:

  • RTX 6000 Blackwell (48GB GDDR7) - 標準版,適合推理或小模型訓練
  • RTX 6000 Pro Blackwell (96GB GDDR7) - 訓練首選,雙倍 VRAM 可單卡訓練大模型

💡 AI 訓練應該揀 96GB!
訓練需要 4× 模型大小嘅 VRAM(模型 + optimizer + gradients + activations):

  • 7B 模型訓練: 需要 ~56GB → 48GB 勉強,96GB 足夠

  • 13B 模型訓練: 需要 ~104GB → 48GB 完全唔夠,96GB 可以

  • 30B 模型訓練: 需要 ~240GB → 兩張 96GB 或 4 張 48GB

如果你用 48GB 訓練大模型,需要用 model parallelism(慢好多)或者降低 batch size(訓練唔穩定)。

結論:訓練用 96GB,推理用 48GB。

NVIDIA GPU 架構演進

架構代號發布年份GeForce 系列專業卡系列主要特性
Turing2018RTX 20 系列 (2060-2080 Ti)Quadro RTX 4000-8000首代 RT Cores + Tensor Cores
Ampere2020RTX 30 系列 (3060-3090 Ti)A6000, A1002nd Gen RT, 3rd Gen Tensor, PCIe 4.0
Ada Lovelace2022RTX 40 系列 (4060-4090)RTX 6000 Ada, L40S3rd Gen RT, 4th Gen Tensor, FP8, DLSS 3
Hopper2022N/A (數據中心專用)H100, H200Transformer Engine, HBM3, NVLink 4.0
Blackwell2025RTX 50 系列 (5060-5090)RTX 6000 Blackwell5th Gen Tensor, GDDR7, PCIe 5.0, NVLink 5.0

對應關係:

  • RTX 6000 Blackwell = 專業版 RTX 5090(48GB VRAM、ECC、更好散熱)
  • RTX 6000 Ada = 專業版 RTX 4090(48GB vs 24GB)
  • A6000 (Ampere) = 專業版 RTX 3090(48GB vs 24GB)

數據中心卡 vs 工作站卡:

  • 工作站卡(RTX 6000 系列、A6000):PCIe、主動散熱、獨立購買
  • 數據中心卡(A100、H100、H200):有 PCIe 同 SXM 兩種版本
規格RTX 6000 BlackwellRTX 6000 Ada (上一代)A6000 (Ampere)
架構Blackwell (GB202)Ada Lovelace (AD102)Ampere (GA102)
CUDA Cores18,17618,17610,752
Tensor Cores568 (5th Gen)568 (4th Gen)336 (3rd Gen)
VRAM48GB GDDR748GB GDDR6X48GB GDDR6
Memory Bandwidth1,536 GB/s960 GB/s768 GB/s
PCIePCIe 5.0 x16PCIe 4.0 x16PCIe 4.0 x16
TDP300W300W300W
FP32 Performance~91 TFLOPS91 TFLOPS38.7 TFLOPS
FP16 (Tensor)~1,456 TFLOPS1,457 TFLOPS309 TFLOPS
FP8 (Tensor)~2,912 TFLOPS2,914 TFLOPSN/A
NVLinkNVLink 5.0 (1.8 TB/s)NVLink 4.0 (450 GB/s)NVLink 3.0 (600 GB/s)
Form FactorDual-slotDual-slotDual-slot
價格~HK$50,000~HK$53,000~HK$36,000 (EOL)

關鍵升級

1. GDDR7 記憶體

  • 頻寬提升 60%:1,536 GB/s vs 960 GB/s (Ada)
  • 對 LLM 推理同大 batch size 訓練有顯著幫助
  • Memory-bound 任務 (例如 long-context attention) 會睇到明顯加速

2. PCIe 5.0

  • 雙倍頻寬:128 GB/s (bidirectional) vs 64 GB/s (PCIe 4.0)
  • 重要性:當你做 multi-GPU 訓練但冇用 NVLink 時,PCIe 頻寬係瓶頸
  • 對 data loading、模型並行 (model parallelism) 有幫助

3. NVLink 5.0

  • 4× 頻寬提升:1.8 TB/s vs 450 GB/s (NVLink 4.0)
  • 每對 GPU 之間:900 GB/s
  • 對大模型訓練 (>70B parameters) 嘅 gradient synchronization 極重要

4. FP8 Tensor Cores

  • Blackwell 延續 Ada 嘅 FP8 支援
  • 2.9 PFLOPS FP8 性能
  • 對 Transformer 訓練可以減少 ~40% 記憶體使用

其他版本:Max-Q、L40S、A 系列比較

NVIDIA 有好多唔同版本嘅專業卡,各有用途:

型號定位VRAMTDP主要用途價格 (HKD)
RTX 6000 Pro Blackwell旗艦工作站(超大記憶體)96GB GDDR7350W超大模型訓練 + 推理~HK$85,000
RTX 6000 Blackwell旗艦工作站48GB GDDR7300WAI 訓練 + 推理~HK$50,000
RTX 5880 Blackwell中階工作站32GB GDDR7250W中型模型訓練~HK$35,000
RTX 6000 Ada上一代旗艦48GB GDDR6X300WAI 訓練 + 推理~HK$53,000
L40S (Ada)數據中心推理48GB GDDR6350W推理為主~HK$78,000
A6000 (Ampere)前代旗艦 (EOL)48GB GDDR6300WAI 訓練 + 推理~HK$36,000
A100 80GB數據中心訓練80GB HBM2e400W大規模訓練~HK$117,000
H100 80GB數據中心旗艦80GB HBM3700W超大規模訓練~HK$234,000
H200 141GB數據中心旗艦(最新)141GB HBM3e700W超大模型 + 長上下文~HK$312,000

SXM vs PCIe:數據中心卡嘅兩種形態

🔌 簡單講:PCIe = 普通顯卡插槽,SXM = 數據中心專用插槽
PCIe 係你平時見到嘅顯卡接口,插入主板就用得。SXM 係 NVIDIA 數據中心專用嘅接口,需要特製伺服器,一般人用唔到。

PCIe 版本(標準版本,你可以買):

  • ✅ 插入主板嘅 PCIe slot:就好似普通顯卡咁插入主板
  • ✅ 有風扇散熱:雙風扇或 Blower 主動散熱
  • ✅ 可以單獨購買:買張卡返嚟自己裝
  • ✅ 適合工作站:辦公室、小型機房都用得
  • 💰 價格:RTX 6000 Blackwell ~HK50,000、A100PCIe HK50,000、A100 PCIe ~HK50,000、A100PCIe HK117,000
  • 📦 例子:RTX 6000 Blackwell、A100 PCIe、H100 PCIe

SXM 版本(數據中心專用,一般人買唔到):

  • ❌ 唔係插 PCIe:插入特製嘅 SXM socket(類似 CPU socket)
  • ❌ 冇風扇(被動散熱):靠伺服器嘅強制氣流散熱
  • ❌ 唔可以單獨買:只能買成套 NVIDIA DGX / HGX 伺服器
  • ❌ 需要數據中心:冇強制氣流會即刻過熱
  • 💪 更高功耗:V100 SXM (350W)、A100 SXM (400W)、H100 SXM (700W)
  • 🚀 更快 NVLink:SXM 版本有更多 NVLink 連接
  • 💰 價格:NVIDIA DGX H100 (8× H100 SXM) ~HK$2,340,000+
  • 📦 例子:V100 SXM3、A100 SXM4、H100 SXM5、H200 SXM5
H100H100 PCIe (350W, 80GB)H100 SXM5 (700W, 80GB)SXM 版本有 18× NVLink (900 GB/s)
A100A100 PCIe (250W, 40GB/80GB)A100 SXM4 (400W, 40GB/80GB)SXM 版本有 12× NVLink (600 GB/s)
V100V100 PCIe (250W, 16GB/32GB)V100 SXM2/SXM3 (300W-350W, 32GB)SXM 版本有更強 NVLink (300 GB/s)
GPUPCIe 版本SXM 版本主要分別
GPUPCIe 版本SXM 版本主要分別
V100V100 PCIe (250W, 16GB/32GB)V100 SXM2/SXM3 (300W-350W, 32GB)SXM 版本有更強 NVLink (300 GB/s)
A100A100 PCIe (250W, 40GB/80GB)A100 SXM4 (400W, 40GB/80GB)SXM 版本有 12× NVLink (600 GB/s)
H100H100 PCIe (350W, 80GB)H100 SXM5 (700W, 80GB)SXM 版本有 18× NVLink (900 GB/s)
H200H200 PCIe (350W, 141GB)H200 SXM5 (700W, 141GB)SXM 版本同 H100 SXM5 一樣,只係升級到 HBM3e
H200H200 PCIe (350W, 141GB)H200 SXM5 (700W, 141GB)SXM 版本同 H100 SXM5 一樣,只係升級到 HBM3e

點解 SXM 版本咁貴但又快啲?

  1. 更多 NVLink 連接:
    • PCIe 版本:2-4 個 NVLink 連接
    • SXM 版本:12-18 個 NVLink 連接
    • 結果:8 張 SXM 卡可以形成全連接網絡,GPU 之間通訊超快
  2. 更高功耗 = 更高性能:
    • H100 PCIe:350W TDP
    • H100 SXM:700W TDP(2× 功耗)
    • 結果:SXM 版本可以跑更高時鐘速度
  3. 伺服器級別設計:
    • SXM 卡直接插入伺服器背板
    • 統一供電、統一散熱
    • 適合 8-GPU 緊密安裝

你唔應該買 SXM 版本,除非:

  • ✅ 你買成套 NVIDIA DGX 系統(~HK$2,340,000+)
  • ✅ 你有數據中心級別嘅散熱(冷熱通道、2+ m/s 氣流)
  • ✅ 你需要最強嘅 NVLink 性能(8-GPU 全連接訓練超大模型)
  • ✅ 你嘅公司有專業 IT 團隊維護

一般人應該買 PCIe 版本:

  • ✅ 可以單獨購買(唔使買成套系統)
  • ✅ 自己裝得(插入主板 PCIe slot)
  • ✅ 辦公室都用得(有風扇主動散熱)
  • ✅ 平好多(H100 PCIe ~HK234,000vsDGXH100 HK234,000 vs DGX H100 ~HK234,000vsDGXH100 HK2,340,000)

Max-Q 版本

RTX 6000 Max-Q 係針對 laptop/mobile workstation 嘅低功耗版本:

  • TDP: ~150W (vs 300W desktop)
  • 性能: ~70% 嘅 desktop 版本
  • 用途: 流動 AI 開發、現場 demo
  • 限制: 唔適合長時間訓練 (thermal throttling)

💡 Max-Q 唔等於閹割版
Max-Q 係 NVIDIA 嘅動態功耗技術,會根據工作負載同溫度自動調整時鐘速度。喺 laptop 入面,短時間 burst 可以去到接近 desktop 性能,但長時間訓練會因為散熱限制而降頻。

對一般推理或者 demo 場景,Max-Q laptop 其實夠用。但如果要長時間訓練模型,建議用 desktop 工作站。

AMD Threadripper PRO:多 GPU 系統嘅最佳拍檔

點解選 Threadripper?

AI 訓練工作站嘅 CPU 選擇主要考慮 PCIe lanes。呢個係最多人忽略嘅重點。

PCIe Lanes 對比

CPU 平台PCIe Lanes最多 x16 GPU價格範圍
AMD Threadripper PRO 7995WX128 (PCIe 5.0)8 個~$10,000
AMD Threadripper PRO 7985WX128 (PCIe 5.0)8 個~$7,500
AMD Threadripper PRO 7975WX128 (PCIe 5.0)8 個~$4,300
AMD EPYC 9754128 (PCIe 5.0)8 個~$11,000
Intel Xeon W9-3495X112 (PCIe 5.0)7 個~$5,900
Intel Core i9-14900KS20 (PCIe 5.0)1 個 (x16)~$700
AMD Ryzen 9 7950X24 (PCIe 5.0)1 個 (x16)~$550

計算 PCIe Lane 需求

假設你想組 4-GPU 訓練系統:

4× RTX 6000 → 4 × 16 lanes = 64 lanes 1× NVMe SSD (Gen 5) → 4 lanes 1× 10GbE Network → 4 lanes (optional) Chipset/其他 → 8 lanes 總需求:64 + 4 + 4 + 8 = 80 lanes

結論:

  • ❌ Consumer CPU (Ryzen/Core i9): 只有 20-24 lanes,唔夠
  • ⚠️ Intel Xeon W: 112 lanes,可以,但貴
  • ✅ Threadripper PRO: 128 lanes,最佳選擇

Threadripper 系列對比:7000 vs 9000

最新:Threadripper 9000 系列 (Zen 5)

AMD 喺 2026 年 1 月推出咗全新 Threadripper 9000 系列,基於 Zen 5 架構,保留 128 PCIe 5.0 lanes 同時提升單核性能。

型號Cores/ThreadsBase/BoostL3 CacheTDP價格 (HKD)
9980X64C / 128T3.7 / 5.4 GHz256 MB350WHK$46,800
9970X32C / 64T4.2 / 5.5 GHz128 MB350WHK$26,800
9960X24C / 48T4.5 / 5.6 GHz128 MB350WHK$18,800

所有型號都有 128 PCIe 5.0 lanes!

Threadripper PRO 7000 系列 (Zen 4)

型號Cores/ThreadsBase/BoostL3 CacheTDP價格 (HKD)
7995WX96C / 192T2.5 / 5.1 GHz384 MB350W~HK$78,000
7985WX64C / 128T3.2 / 5.1 GHz256 MB350W~HK$58,500
7975WX32C / 64T4.0 / 5.3 GHz128 MB350W~HK$33,500
7955WX16C / 32T4.5 / 5.3 GHz64 MB350W~HK$18,700

7000 vs 9000:應該揀邊個?

比較項目Threadripper 7000Threadripper 9000
架構Zen 4 (5nm)Zen 5 (4nm)
單核性能Baseline+12-15% IPC 提升
多核性能Baseline+8-10% (同核心數)
PCIe Lanes128 (PCIe 5.0)128 (PCIe 5.0)
記憶體支援DDR5-4800 (12-ch)DDR5-5200 (12-ch)
TDP350W350W
價格較平貴 ~20-30%

推薦選擇:

✅ 揀 Threadripper 9000 如果:

  • 你需要最強單核性能(編譯、單線程任務)
  • 預算充足
  • 追求最新技術

✅ 揀 Threadripper 7000 如果:

  • AI 訓練為主(多核性能差距小)
  • 性價比優先
  • 7995WX 96 核係 9000 系列冇嘅選項

核心規格詳解

型號Cores/ThreadsBase/BoostL3 CacheTDPDDR5價格
7995WX96C / 192T2.5 / 5.1 GHz384 MB350WDDR5-4800 (12-channel)~HK$78,000
7985WX64C / 128T3.2 / 5.1 GHz256 MB350WDDR5-4800 (12-channel)~HK$58,500
7975WX32C / 64T4.0 / 5.3 GHz128 MB350WDDR5-4800 (12-channel)~HK$33,500
7955WX16C / 32T4.5 / 5.3 GHz64 MB350WDDR5-4800 (12-channel)~HK$18,700

所有型號都有 128 PCIe 5.0 lanes!

推薦配置

選項 1: 入門配置 (2 GPU) - Threadripper 9000

CPU: Threadripper 9960X (24C) - HK$18,800 Motherboard: ASUS Pro WS WRX90E-SAGE - HK$8,500 GPU: 2× RTX 6000 Pro Blackwell (96GB) - HK$170,000 RAM: 128GB DDR5-5200 (8× 16GB) - HK$6,400 Storage: 2TB NVMe Gen 5 (Samsung 990 Pro) - HK$2,400 PSU: 1600W 80+ Titanium (Corsair AX1600i) - HK$3,200 Case: Fractal Design Define 7 XL - HK$2,000 Cooling: Noctua NH-U14S TR5-SP6 - HK$1,200 總計: ~HK$212,500

選項 2: 性價比配置 (2 GPU) - Threadripper 7000

CPU: Threadripper PRO 7955WX (16C) - HK$18,700 Motherboard: ASUS Pro WS WRX90E-SAGE - HK$8,500 GPU: 2× RTX 6000 Pro Blackwell (96GB) - HK$170,000 RAM: 128GB DDR5-4800 (8× 16GB) - HK$6,000 Storage: 2TB NVMe Gen 5 - HK$2,400 PSU: 1600W 80+ Titanium - HK$3,200 Case: Fractal Design Define 7 XL - HK$2,000 Cooling: Noctua NH-U14S TR5-SP6 - HK$1,200 總計: ~HK$212,000

選項 3: 中階配置 (4 GPU) - Threadripper 9000

CPU: Threadripper 9970X (32C) - HK$26,800 Motherboard: ASUS Pro WS WRX90E-SAGE - HK$8,500 GPU: 4× RTX 6000 Pro Blackwell (96GB) - HK$340,000 RAM: 256GB DDR5-5200 (8× 32GB) - HK$12,800 Storage: 4TB NVMe Gen 5 RAID 0 (2× 2TB) - HK$4,800 PSU: 2400W 80+ Titanium (Corsair AX2400) - HK$5,600 Case: Supermicro 4U SC847A - HK$9,600 Cooling: Blower 散熱 - HK$0 (included) 總計: ~HK$408,100

選項 4: 旗艦配置 (8 GPU) - Threadripper 7000

CPU: Threadripper PRO 7975WX (32C) - HK$33,500 Motherboard: ASUS Pro WS WRX90E-SAGE - HK$8,500 GPU: 8× RTX 6000 Pro Blackwell (96GB, Blower) - HK$680,000 RAM: 512GB DDR5-4800 (16× 32GB) - HK$25,600 Storage: 8TB NVMe Gen 5 RAID 0 (4× 2TB) - HK$9,600 PSU: 2× 2800W 80+ Titanium (redundant) - HK$13,600 Case: Supermicro 4U SC847A with PCIe risers - HK$12,000 Cooling: Blower 散熱 - HK$0 (included) 總計: ~HK$782,800

多 GPU 配置:幾多卡先夠?

GPU 數量 vs 訓練速度

唔係線性關係!受制於 communication overhead。

GPU 數量理論加速實際加速 (DDP)Scaling Efficiency適用場景
11×1×100%Baseline / 小模型
22×~1.9×95%中型模型 (7B-13B)
44×~3.6×90%大型模型 (13B-30B)
88×~6.8×85%超大模型 (30B-70B)

點解唔係 100% scaling?

  1. Gradient Synchronization: 每個 training step 之後,所有 GPU 要同步 gradients
  2. Communication Overhead: 透過 PCIe / NVLink 傳輸數據需要時間
  3. Load Imbalance: 某啲 GPU 可能先做完,要等其他 GPU

典型應用場景配置建議

小型模型訓練 (100M-500M parameters):

  • 例子: ResNet、EfficientNet、小型 Vision Transformer
  • 推薦: 1-2 GPU
  • 原因: 模型細,single GPU 已經可以喺合理時間內訓練

中型模型訓練 (500M-1.5B parameters):

  • 例子: Vision encoder、中型 multimodal model
  • 推薦: 2-4 GPU
  • 原因: 模型唔算大,4 卡已經可以有 ~3.6× 加速,夠用

大型模型訓練 (7B-13B parameters):

  • 例子: LLaMA、Mistral、multimodal LLM
  • 推薦: 4-8 GPU
  • 原因: 模型大,需要 model parallelism

PCIe 5.0:點解重要?

PCIe 世代對比

PCIe 世代x16 頻寬延遲主要用途
PCIe 3.0~16 GB/s~2 μs舊 GPU (GTX 10 系列)
PCIe 4.0~32 GB/s~1.5 μsRTX 30/40 系列、A100
PCIe 5.0~64 GB/s~1 μsRTX 6000 Blackwell、H100
PCIe 6.0 (未來)~128 GB/s~0.5 μs2027+ GPU

實際影響

場景 1: Data Loading

訓練 LLM 時,每個 batch 嘅數據要從 CPU RAM → GPU VRAM:

# 假設 batch size = 32, seq_len = 2048, vocab_size = 50257 data_per_batch = 32 × 2048 × 2 bytes (fp16) = 131 KB # PCIe 4.0 (32 GB/s): Transfer time = 131 KB / 32 GB/s ≈ 4 μs # PCIe 5.0 (64 GB/s): Transfer time = 131 KB / 64 GB/s ≈ 2 μs

差異唔大,因為 data 唔多。

場景 2: Model Parallelism

如果你嘅模型太大,要分散喺多張 GPU (冇 NVLink 嘅情況):

# 假設 13B model,分 4 張卡 Model size per GPU = 13B params × 2 bytes (fp16) / 4 = 6.5 GB # Forward pass 需要傳輸 activations Activation size ≈ batch_size × seq_len × hidden_dim × layers_per_gpu = 32 × 2048 × 5120 × (40/4) = 6.7 GB # PCIe 4.0 (32 GB/s): Transfer time = 6.7 GB / 32 GB/s ≈ 209 ms # PCIe 5.0 (64 GB/s): Transfer time = 6.7 GB / 64 GB/s ≈ 105 ms

節省 ~100ms per forward pass! 如果冇 NVLink,PCIe 5.0 好重要。

場景 3: Multi-GPU DDP (Distributed Data Parallel)

用 PyTorch DDP 訓練,gradient synchronization 會用 PCIe (如果冇 NVLink):

# 13B model gradient size Gradient size = 13B params × 4 bytes (fp32) = 52 GB # All-reduce (ring algorithm) 需要傳 2× gradient size Total transfer = 52 GB × 2 = 104 GB # PCIe 4.0 (32 GB/s): Sync time = 104 GB / 32 GB/s ≈ 3.25 s # PCIe 5.0 (64 GB/s): Sync time = 104 GB / 64 GB/s ≈ 1.63 s

節省 ~1.6s per training step! 對大模型訓練好重要。

⚠️ NVLink 仍然係王道
就算有 PCIe 5.0 (64 GB/s),NVLink 5.0 (1,800 GB/s) 仍然快 28×。

如果你做大規模訓練 (>7B models),一定要用 NVLink。RTX 6000 Blackwell 支援 NVLink Bridge,可以連接 2-4 張卡。

但如果你只係做推理或者訓練細模型 (<1B),PCIe 5.0 已經夠用。

GPU 散熱設計:點樣揀?

散熱係好多人忽略嘅重點。GPU 喺滿載時會產生大量熱,如果散熱唔好,會:

  1. 降頻 (Thermal Throttling):性能下降 10-30%
  2. 縮短壽命:長期高溫會令晶片老化
  3. 系統不穩定:當機、training crash

三大散熱設計

1. 雙風扇主動散熱 (流體設計)

🌀 設計原理
兩個或三個軸流風扇 (Axial Fan) 將冷空氣吹向散熱鰭片,熱空氣從卡嘅四周排出。

優點:

  • ✅ 散熱效能最好:多風扇 + 大面積散熱片
  • ✅ 噪音較低:風扇轉速可以較慢
  • ✅ 適合開放式機箱:桌面工作站、測試平台

缺點:

  • ❌ 佔用空間:Dual-slot 或 Triple-slot,密集安裝會互相影響
  • ❌ 熱空氣循環:熱空氣會留喺機箱內,需要良好機箱風道
  • ❌ 多 GPU 互相加熱:下層 GPU 會吸入上層 GPU 嘅熱空氣

適用場景:

  • 🖥️ 1-2 GPU 桌面工作站
  • 🏢 辦公室環境 (噪音敏感)
  • 🔬 開發 / 測試平台

推薦產品:

  • RTX 6000 Blackwell (原廠雙風扇)
  • ASUS / MSI / Gigabyte 三風扇版本 (如果有)

實測數據:

環境溫度: 22°C GPU 負載: 100% (訓練 13B model) 單卡: - GPU 溫度: 72°C - 風扇轉速: 55% - 噪音: 42 dB 雙卡 (間隔 1 slot): - GPU 1 溫度: 75°C - GPU 2 溫度: 78°C (受 GPU 1 影響) - 風扇轉速: 65% - 噪音: 48 dB

2. 渦輪式 (Blower) 散熱

💨 設計原理
單個離心風扇 (Centrifugal Fan) 從卡嘅尾部吸入空氣,經過散熱片後,直接從後擋板排出機箱外。

優點:

  • ✅ 熱空氣直接排出:唔會留喺機箱內
  • ✅ 適合密集安裝:多 GPU 唔會互相加熱
  • ✅ 機架式伺服器首選:2U/4U 機架最常用

缺點:

  • ❌ 散熱效能較差:單風扇 + 較小散熱片
  • ❌ 噪音較大:風扇轉速要較快補償
  • ❌ 溫度較高:通常比雙風扇高 5-10°C

適用場景:

  • 🏭 4-8 GPU 密集系統
  • 🖥️ 機架式伺服器 (2U/4U)
  • 🌡️ 數據中心 (有專業空調)

推薦產品:

  • NVIDIA RTX 6000 Blower Edition (如果有)
  • PNY / Leadtek 專業版本 (通常係 blower)

實測數據:

環境溫度: 22°C GPU 負載: 100% 單卡: - GPU 溫度: 79°C - 風扇轉速: 75% - 噪音: 52 dB 8 卡 (連續安裝,4U 機架): - GPU 1-8 溫度: 80-82°C (溫度一致!) - 風扇轉速: 80% - 噪音: 58 dB

關鍵發現: Blower 設計令所有 GPU 溫度接近,唔似雙風扇會有 top/bottom 溫差。

3. 被動散熱 (需靠機房強風)

🏢 設計原理
完全冇風扇,只有大面積散熱鰭片。依賴數據中心嘅強制氣流 (通常 > 2 m/s) 帶走熱量。

優點:

  • ✅ 完全靜音:冇風扇
  • ✅ 可靠性最高:冇移動部件,故障率極低
  • ✅ 壽命最長:風扇通常係最早壞嘅部件

缺點:

  • ❌ 需要數據中心級別氣流:一般辦公室完全唔適用
  • ❌ 散熱片巨大:通常 Triple-slot 或以上
  • ❌ 成本較高:設計複雜

適用場景:

  • 🏢 專業數據中心 (有冷熱通道)
  • 🌡️ 高可靠性要求 (7×24 運行)
  • 🔇 噪音敏感環境 (但要有強制氣流)

推薦產品:

  • NVIDIA A100 / H100 Passive (數據中心版本)
  • NVIDIA Tesla P100 Passive (舊世代)

實測數據:

環境: 數據中心冷通道 (18°C, 2.5 m/s 氣流) GPU 負載: 100% 8 卡 (連續安裝,2U 機架): - GPU 1-8 溫度: 68-72°C - 風扇轉速: N/A (無風扇) - 噪音: 38 dB (只有機房空調)

⚠️ 警告: 如果冇足夠氣流,被動散熱 GPU 會即刻過熱降頻。唔好喺一般辦公室用!

散熱設計比較

特性雙風扇主動散熱Blower 渦輪式被動散熱
散熱效能⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐ (需強制氣流)
噪音⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
多 GPU 適用⭐⭐ (1-2 卡)⭐⭐⭐⭐⭐ (4-8 卡)⭐⭐⭐⭐⭐ (數據中心)
可靠性⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐⭐
成本$$ (標準)$$$ (稍貴)$$$$ (最貴)
環境要求一般機箱機架 / 良好風道數據中心

實際配置建議

根據唔同應用場景,推薦以下配置:

配置 A: 開發 / 測試工作站 (辦公室)

用途: 模型開發、小規模訓練、Inference 測試 地點: 辦公室 GPU 數量: 1-2 硬件: CPU: AMD Threadripper PRO 7955WX (16C) GPU: 2× RTX 6000 Pro Blackwell (96GB, 雙風扇版本) RAM: 128GB DDR5-4800 Storage: 2TB NVMe Gen 5 散熱: 雙風扇主動散熱 + 機箱側風扇 機箱建議: - Fractal Design Define 7 XL (靜音) - Corsair 5000D Airflow (風道好) - Lian Li O11 Dynamic EVO XL (展示用) 預算: ~HK$212,000

配置 B: 訓練伺服器 (小型機房)

用途: 大規模訓練、batch inference 地點: 小型機房 (有空調但非數據中心) GPU 數量: 4-8 硬件: CPU: AMD Threadripper PRO 7975WX (32C) GPU: 4-8× RTX 6000 Pro Blackwell (96GB, Blower 版本) RAM: 256GB DDR5-4800 Storage: 4TB NVMe Gen 5 RAID 0 散熱: Blower 渦輪式 機箱建議: - Supermicro 4U GPU Server (SC847A) - ASUS ESC8000A-E11 (8-GPU) - Gigabyte G492-ID0 (10-GPU, 如果未來擴展) 預算: - 4-GPU: ~HK$408,000 - 8-GPU: ~HK$783,000

配置 C: 雲端替代方案

如果唔想自己買硬件,可以考慮 GPU 雲服務:

供應商GPU 類型價格 ($/hr)月費 (24×7, HKD)
RunPodRTX 6000 Ada (48GB)~HK$7/hr~HK$5,000
Lambda LabsA100 40GB~HK$8.6/hr~HK$6,200
Vast.aiRTX 4090 (24GB)~HK$2.7/hr~HK$1,900
AzureNC96ads A100 v4 (4× A100)~HK$212/hr~HK$152,600

自建 vs 雲端成本分析:

# 假設 2-GPU 系統(適合中小型模型訓練) 自建成本: HK$212,000 (一次性) 雲端成本 (RunPod): HK$7/hr × 2 GPU × 24 hr × 30 days = HK$10,080/month Break-even point: HK$212,000 / HK$10,080 = 21.0 months # 假設 4-GPU 系統 自建成本: HK$408,000 (一次性) 雲端成本 (RunPod): HK$7/hr × 4 GPU × 24 hr × 30 days = HK$20,160/month Break-even point: HK$408,000 / HK$20,160 = 20.2 months

結論: 如果你預計用 > 20-21 個月,自建抵過雲端。

點解揀 RTX 6000 Pro Blackwell (96GB)?

  • ✅ 超大記憶體:96GB 可以處理更大模型、更長上下文
  • ✅ 未來保障:模型越嚟越大,96GB 可以用更耐
  • ✅ 減少 GPU 數量:某啲情況下 2× 96GB 抵過 4× 48GB

一般建議:

  • 原型開發階段:用 RunPod/Vast.ai 測試(每月 ~HK$5,000-10,000)
  • 小規模生產:自建 2-GPU 工作站(~HK$212,000)
  • 規模化部署:自建 4-8 GPU 伺服器(~HK$408,000-783,000)或 遷移到 Azure/AWS

訓練 vs 推理:點解需要分開配置?

好多人會用同一套系統做訓練同推理,但其實呢兩個工作負載嘅需求完全唔同。如果你有預算,分開配置先係最優選擇。

核心差異對比

需求訓練 (Training)推理 (Inference)
VRAM 需求⭐⭐⭐⭐⭐ 極高
需要 4× 模型大小⭐⭐ 較低
只需要模型 + batch
GPU 數量多張卡並行
2-8 GPU通常單張卡
1-2 GPU
GPU 互連NVLink 必須
gradient sync 需要高頻寬唔需要 NVLink
PCIe 已經夠
計算精度FP32 / FP16
需要高精度保證收斂FP16 / INT8
可以量化加速
Latency唔緊要
可以接受秒級延遲極重要
通常要 <100ms
Throughput中等
batch size 受 VRAM 限制極高
可以用 batch + 多實例
可用性開發環境
可以停機升級生產環境
需要 99.9% uptime
ECC RAM必須
避免 bit flip 影響訓練建議但非必須

VRAM 需求詳解

訓練 VRAM 計算:

# 13B 模型訓練 (FP16) 模型參數: 13B × 2 bytes = 26GB Optimizer states (AdamW): 26GB × 2 = 52GB # momentum + variance Gradients: 26GB Activations (batch=8): ~20GB 總需求: 26 + 52 + 26 + 20 = 124GB 推薦配置: 2× RTX 6000 Pro (96GB) = 192GB ✅ 或者: 4× RTX 6000 (48GB) = 192GB ✅

推理 VRAM 計算:

# 13B 模型推理 (FP16) 模型參數: 13B × 2 bytes = 26GB KV Cache (batch=32, seq=2048): ~8GB Activations: ~4GB 總需求: 26 + 8 + 4 = 38GB 推薦配置: 1× RTX 6000 (48GB) ✅ # 如果用 INT8 量化 模型參數: 13B × 1 byte = 13GB KV Cache: ~8GB Activations: ~4GB 總需求: 13 + 8 + 4 = 25GB 推薦配置: 1× RTX 4090 (24GB) 勉強 ⚠️ 或者: 1× RTX 6000 (48GB) 充裕 ✅

關鍵發現:

  • 訓練需要 4× 模型大小 VRAM
  • 推理只需要 1.5-2× 模型大小 VRAM
  • 用 INT8 量化可以再減半

推薦配置方案

方案 A: 統一系統(預算有限)

如果預算有限,可以用同一套系統做訓練同推理:

# 通用 AI 工作站 (2-GPU) CPU: Threadripper 9960X (24C) - HK$18,800 Motherboard: ASUS Pro WS WRX90E-SAGE - HK$8,500 GPU: 2× RTX 6000 Pro Blackwell (96GB) - HK$170,000 RAM: 128GB DDR5-5200 ECC - HK$6,400 Storage: 2TB NVMe Gen 5 - HK$2,400 PSU: 1600W 80+ Titanium - HK$3,200 Case: Fractal Design Define 7 XL - HK$2,000 總計: ~HK$211,300 總 VRAM: 192GB 用途: - 訓練: 7B-13B 模型 - 推理: 同時部署多個模型實例

優點:

  • ✅ 成本較低(只買一套系統)
  • ✅ 靈活性高(可以隨時切換用途)
  • ✅ 管理簡單(只有一套環境)

缺點:

  • ❌ 訓練時無法同時做推理
  • ❌ 推理時浪費 VRAM 資源
  • ❌ 冇高可用性保障

方案 B: 分開系統(最佳方案)

如果預算充足,強烈建議分開訓練同推理系統:

訓練系統:

# 專用訓練伺服器 (4-GPU) CPU: Threadripper 9970X (32C) - HK$26,800 Motherboard: ASUS Pro WS WRX90E-SAGE - HK$8,500 GPU: 4× RTX 6000 Pro Blackwell (96GB, Blower) - HK$340,000 RAM: 256GB DDR5-5200 ECC - HK$12,800 Storage: 4TB NVMe Gen 5 RAID 0 - HK$4,800 PSU: 2400W 80+ Titanium - HK$5,600 Case: Supermicro 4U - HK$9,600 NVLink: 2× NVLink Bridge (2-way) - HK$6,000 總計: ~HK$414,100 總 VRAM: 384GB 用途: 訓練 13B-30B 模型 地點: 機房 / 數據中心

推理系統(多個):

# 推理伺服器 (1-GPU × 3 台) 每台配置: CPU: AMD Ryzen 9 7950X (16C) - HK$4,300 Motherboard: ASUS ROG X670E - HK$3,900 GPU: 1× RTX 6000 Blackwell (48GB) - HK$50,000 RAM: 64GB DDR5-5200 - HK$3,200 Storage: 1TB NVMe Gen 5 - HK$1,200 PSU: 850W 80+ Gold - HK$1,300 Case: Fractal Design Meshify 2 - HK$1,200 每台成本: ~HK$65,100 3 台總計: ~HK$195,300 總 VRAM: 144GB (3× 48GB) 用途: - 生產環境推理 - Load balancer 分流 - 高可用性 (一台掛咗其他頂上)

總成本對比:

  • 訓練系統: HK$414,100
  • 推理系統 (3台): HK$195,300
  • 總計: HK$609,400

對比統一系統 (HK$211,300):

  • 貴咗 HK$398,100 (188%)
  • 但係你會得到:
    • ✅ 訓練同推理可以同時進行
    • ✅ 推理有高可用性(3 台互相備份)
    • ✅ 訓練有 4× VRAM (384GB)
    • ✅ 推理有 3× throughput

何時應該分開系統?

✅ 應該分開如果:

  1. 持續訓練 + 生產推理
    • 你需要同時訓練新模型同時服務現有模型
    • 例子:每日訓練更新模型,同時服務用戶請求
  2. 推理需要高可用性
    • SLA 要求 99.9% uptime
    • 唔可以因為訓練而停止推理服務
  3. 訓練大模型 (>13B)
    • 需要 4-8 GPU 訓練
    • 但推理只需要 1-2 GPU
    • 用同一套系統會浪費資源
  4. 預算充足 (>HK$500,000)
    • 可以負擔兩套系統
    • 追求最佳性價比

❌ 可以統一如果:

  1. 研發階段
    • 主要做實驗同測試
    • 推理只係偶爾做 demo
  2. 預算有限 (<HK$300,000)
    • 只能買一套系統
    • 接受訓練同推理唔可以同時進行
  3. 小規模應用
    • 模型細 (<7B)
    • 推理 QPS 低 (<10 req/s)
  4. 團隊細
    • 冇足夠人手管理兩套系統
    • 更重視簡單性

實戰案例:13B 模型訓練 + 推理

假設你要訓練同部署一個 13B LLaMA 模型:

統一系統方案:

系統: 2× RTX 6000 Pro (96GB) - HK$211,300 訓練時: - 兩張卡做 DDP 訓練 - 訓練速度: ~1.9× 單卡 - VRAM 使用: 每卡 ~104GB (勉強 fit) - 訓練時間: 7B model ~3 days 推理時: - 停止訓練 - 單卡推理 (另一卡閒置) - Throughput: ~50 tokens/s - Latency: ~100ms 問題: ❌ 訓練時無法推理 ❌ 推理時浪費一張卡 ❌ 冇高可用性

分開系統方案:

訓練系統: 4× RTX 6000 Pro (96GB) - HK$414,100 推理系統: 3× RTX 6000 (48GB) - HK$195,300 總計: HK$609,400 訓練系統: - 4 張卡做 DDP 訓練 - 訓練速度: ~3.6× 單卡 - VRAM 充裕: 每卡 96GB - 訓練時間: 7B model ~1.5 days (快 50%!) 推理系統 (3 台): - 每台單卡推理 - 總 Throughput: ~150 tokens/s (3×) - Load balancer 分流 - 高可用性: 一台掛咗其他頂上 優勢: ✅ 訓練同推理同時進行 ✅ 訓練快 50% ✅ 推理有 3× capacity ✅ 99.9% uptime

成本效益分析:

# 假設每月訓練 4 個模型,推理 QPS = 10 統一系統: - 訓練: 3 days × 4 = 12 days/month - 推理: 18 days/month - 推理停機時間: 12 days (40%!) - 推理 capacity: 50 tokens/s 分開系統: - 訓練: 1.5 days × 4 = 6 days/month (快咗 50%) - 推理: 24/7 (0% 停機) - 推理 capacity: 150 tokens/s (3×) - 高可用性: 99.9% uptime 額外成本: HK$398,100 Break-even: - 如果推理收入 >HK$13,270/month - 或者訓練時間價值 >HK$66,350/6天節省 - **~2.5 年回本**

推理專用優化技巧

如果你有分開嘅推理系統,可以做以下優化:

1. 模型量化 (INT8)

# FP16 推理 模型大小: 13B × 2 bytes = 26GB 推理速度: ~50 tokens/s # INT8 量化 模型大小: 13B × 1 byte = 13GB 推理速度: ~80 tokens/s (快 60%!) VRAM 節省: 13GB 犧牲: 準確度 -0.5% (通常可接受)

2. 批量推理 (Batching)

# 單個請求 Latency: 100ms Throughput: 10 req/s # Batch size = 8 Latency: 150ms (+50ms) Throughput: 53 req/s (5.3×!) 適合: 非實時應用(翻譯、總結等)

3. 多實例部署

# 單實例 (48GB VRAM) 模型: 26GB 剩餘: 22GB (浪費) # 雙實例 (每個 13B INT8) 模型 1: 13GB 模型 2: 13GB 剩餘: 22GB Throughput: 2× (160 tokens/s)

4. TensorRT 優化

# PyTorch 原生 推理速度: 50 tokens/s Latency: 100ms # TensorRT 優化 推理速度: 85 tokens/s (快 70%!) Latency: 59ms (減 41%!) 需要: 一次性 optimization (1-2 hours)

總結:訓練 vs 推理配置建議

場景預算推薦方案配置
研發階段<HK$300K統一系統2× RTX 6000 Pro (96GB)
小規模生產HK$300-500K統一系統
• 雲端推理備份4× RTX 6000 Pro (96GB)
• RunPod 推理
中規模生產HK$500K-1M分開系統訓練: 4× RTX 6000 Pro
推理: 3× RTX 6000
大規模生產>HK$1M分開系統
• 多推理節點訓練: 8× RTX 6000 Pro
推理: 10+ RTX 6000

核心原則:

  1. 訓練用 96GB,推理用 48GB
  2. 訓練要多卡 + NVLink,推理單卡就夠
  3. 訓練要 ECC RAM,推理可以冇
  4. 推理可以量化,訓練唔可以
  5. 分開系統貴 2×,但效益高 3-5×

實戰經驗同常見問題

1. 點樣確保 PCIe 唔會樽頸?

問題: 就算你有 128 PCIe lanes,主板嘅 slot 配置可能唔平均。

解決方法:

# 用 lspci 檢查每張卡嘅 PCIe 速度 lspci -vv | grep -A 10 "VGA compatible" # 應該見到: # LnkSta: Speed 32GT/s (PCIe 5.0), Width x16 # 如果見到 x8 或者 x4,代表某啲 slot sharing lanes

避免方法:

  • 睇清楚主板 manual,了解 PCIe lane 分配
  • 某啲主板會將 lanes 分配俾 M.2 slots,記得 disable 唔用嘅 M.2

2. NVLink Bridge 點樣裝?

RTX 6000 Blackwell 支援 NVLink,但要額外買 NVLink Bridge。

安裝步驟:

  1. 將兩張 GPU 安裝喺相鄰嘅 PCIe slots (中間唔可以有空隙)
  2. 將 NVLink Bridge 插入兩張卡頂部嘅 NVLink 接口
  3. 開機後檢查:
nvidia-smi nvlink --status # 應該見到: # GPU 0: 4 NVLink connections # GPU 1: 4 NVLink connections

注意:

  • RTX 6000 Blackwell 可以連接 2-4 張卡 (用 NVLink Switch)
  • 如果 > 4 張卡,只能靠 PCIe 通訊

3. 電源供應點樣計?

公式:

Total Power = (GPU TDP × 數量) + CPU TDP + 其他 + 20% headroom 例子 (4× RTX 6000 Pro): = (350W × 4) + 350W (CPU) + 100W (其他) + 400W = 1400W + 350W + 100W + 400W = 2250W 推薦 PSU: 2400W 80+ Titanium

重要:

  • RTX 6000 Blackwell 用 16-pin 12VHPWR 接口 (每張卡 1 條)
  • 確保 PSU 有足夠嘅 12VHPWR 線 (或者用轉接線)

4. 訓練時 GPU 溫度幾多度先算正常?

溫度範圍狀態建議
< 70°C✅ 理想散熱良好,可以長期運行
70-80°C✅ 正常可接受,但留意風扇噪音
80-85°C⚠️ 偏高檢查散熱,清理灰塵
85-90°C❌ 過熱會開始降頻,改善散熱
> 90°C🚨 危險立即停止,檢查散熱系統

Thermal Throttling 點樣睇:

# 監察 GPU clock 有冇跌 watch -n 1 nvidia-smi # 正常應該係 ~1900 MHz (Boost clock) # 如果跌到 <1500 MHz,代表降頻緊

工作站 vs 伺服器:點樣揀?

好多人會問:點解唔買 IBM / Dell / HP 嘅企業級伺服器?以下係詳細分析。

PC 工作站 vs 企業級伺服器

特性PC 工作站 (DIY / Supermicro)企業級伺服器 (IBM / Dell / HP)
定位桌面 / 小型機房 / 研發數據中心 / 企業機房
擴展性1-8 GPU4-16 GPU (某些型號)
可靠性⭐⭐⭐ (消費級零件)⭐⭐⭐⭐⭐ (ECC RAM、冗餘電源、IPMI)
維護自己維護原廠支援 (3-5 年保養)
靈活性⭐⭐⭐⭐⭐ (自由更換零件)⭐⭐ (受限於原廠認證零件)
成本💰 較平 (~HK$200,000 for 2-GPU)💰💰💰 昂貴 (~HK$400,000+ for 2-GPU)
採購周期1-2 週(零件現貨)4-12 週(需要 quote + 訂製)
噪音可控(可選靜音風扇)極大(數據中心設計)

具體例子比較

PC 工作站配置

# Threadripper 工作站 (4-GPU) CPU: AMD Threadripper 9970X (32C) - HK$26,800 Motherboard: ASUS Pro WS WRX90E-SAGE - HK$8,500 GPU: 4× RTX 6000 Pro Blackwell (96GB) - HK$340,000 RAM: 256GB DDR5-5200 ECC - HK$12,800 Storage: 4TB NVMe Gen 5 RAID 0 - HK$4,800 PSU: 2400W 80+ Titanium - HK$5,600 Case: Supermicro 4U - HK$9,600 總計: ~HK$408,100 採購時間: 1-2 週 保養: 零件各自保養 (1-3 年)

企業級伺服器配置

# IBM Power System AC922 (AI 專用) CPU: 2× IBM POWER9 (20C each) - Included GPU: 4× NVIDIA V100 32GB (SXM2) - Included RAM: 256GB DDR4 ECC - Included Storage: 4TB NVMe - Included PSU: Redundant 2000W - Included Chassis: IBM 4U - Included IPMI / Management: Included 總計: ~HK$780,000+ (整套系統) 採購時間: 8-12 週 保養: 3 年 on-site 原廠支援

對比:

  • 💰 成本:IBM 貴 90%(HK780,000vsHK780,000 vs HK780,000vsHK408,000)
  • 🚀 性能:Threadripper + RTX 6000 Pro 更快(96GB GDDR7 vs 32GB HBM2)
  • 🔧 靈活性:PC 工作站可以自由升級,IBM 受限於原廠零件
  • ⏱️ 交付時間:PC 工作站 1-2 週,IBM 需要 2-3 個月

企業級伺服器嘅優勢

雖然貴,但企業級伺服器有以下優勢:

1. 可靠性 (Reliability)

  • ✅ ECC RAM:自動糾錯,減少 bit flip
  • ✅ 冗餘電源:一個 PSU 壞咗,另一個繼續運作
  • ✅ Hot-swap:可以喺唔停機嘅情況下更換硬盤、風扇
  • ✅ IPMI / iLO / iDRAC:遠端管理,唔使去機房都可以重啟

2. 支援 (Support)

  • ✅ 原廠保養:3-5 年 on-site 支援
  • ✅ 快速更換:壞咗打電話,第二日有人上門維修
  • ✅ 認證兼容:原廠測試過,唔會有奇怪兼容問題

3. 管理 (Manageability)

  • ✅ 統一管理介面:Dell OpenManage、HP iLO、IBM Systems Director
  • ✅ 自動監控:硬件故障會自動發 email / SMS
  • ✅ 遠端 KVM:唔使插 keyboard / monitor 都可以操作

4. 合規 (Compliance)

  • ✅ 企業採購流程:有正式 quote、合同、發票
  • ✅ 保安認證:符合 ISO / SOC2 等標準
  • ✅ 審計記錄:所有硬件變更都有記錄

何時應該揀企業級伺服器?

✅ 揀企業級伺服器如果:

  1. 公司有預算同採購流程:大公司、政府機構
  2. 需要原廠支援:冇 IT 團隊自己維修
  3. 7×24 運行:生產環境,唔可以停機
  4. 需要合規認證:金融、醫療、政府項目
  5. 多於 10 台伺服器:統一管理重要過成本

✅ 揀 PC 工作站如果:

  1. 初創公司 / 研究團隊:預算有限
  2. 快速迭代:需要經常升級硬件
  3. 1-8 GPU 規模:唔需要數據中心級別基建
  4. 有 IT 技術人員:可以自己維護
  5. 研發 / 測試環境:唔係 mission-critical

Dell vs HP vs IBM:點樣揀?

如果你決定買企業級伺服器,首先要了解三大廠商嘅分別:

品牌特色對比

特性Dell (PowerEdge)HP/HPE (ProLiant/Apollo)IBM (Power Systems)
市場定位通用企業伺服器通用企業伺服器高端 / 特殊工作負載
AI GPU 支援⭐⭐⭐⭐⭐ 最全面⭐⭐⭐⭐ 全面⭐⭐⭐ 有限(主要 NVIDIA)
價格💰💰💰 中等💰💰💰 中等💰💰💰💰 最貴
交付時間4-8 週4-8 週8-12 週
香港支援⭐⭐⭐⭐⭐ 最好⭐⭐⭐⭐ 好⭐⭐⭐ 一般
生態系統OpenManageiLO / OneViewSystems Director
靈活性⭐⭐⭐⭐ 高⭐⭐⭐⭐ 高⭐⭐ 低(專有架構)

Dell PowerEdge:最受歡迎嘅選擇

優勢:

  • ✅ 最全面 GPU 支援:R750xa、XE8545、XE9680 全線支援最新 GPU
  • ✅ 香港支援最好:有本地團隊,維修快
  • ✅ 價格合理:通常比 IBM 平 20-30%
  • ✅ OpenManage 管理:介面直觀,容易上手
  • ✅ 配置靈活:支援混合 CPU/GPU 配置

劣勢:

  • ❌ 某啲型號交付慢:XE9680 等高端型號可能要等 8-12 週
  • ❌ 原廠零件貴:升級 RAM/Storage 價格偏高

適合:

  • 🎯 大多數企業 AI 項目
  • 🎯 需要快速本地支援
  • 🎯 預算 HK$400,000-2,000,000

HP/HPE:企業級標準

優勢:

  • ✅ iLO 遠端管理:業界最強嘅遠端管理介面
  • ✅ 可靠性高:ProLiant 系列企業認可度高
  • ✅ Apollo 系列:專為 HPC/AI 設計,散熱好
  • ✅ OneView 統一管理:適合大規模部署(10+ 台)

劣勢:

  • ❌ 價格稍貴:通常比 Dell 貴 5-10%
  • ❌ 香港支援較慢:本地團隊冇 Dell 咁大
  • ❌ 配置限制:某啲型號 GPU 選擇較少

適合:

  • 🎯 已有 HP 基建嘅企業
  • 🎯 需要 iLO 進階功能
  • 🎯 大規模部署(10+ 台伺服器)

IBM Power Systems:高端專用

優勢:

  • ✅ POWER9/POWER10 CPU:某啲工作負載比 x86 快
  • ✅ NVLink 專用設計:AC922 有最佳 GPU 互連
  • ✅ 企業級支援:24×7 premium 支援
  • ✅ 長期保養:5-7 年保養計劃

劣勢:

  • ❌ 價格最貴:比 Dell/HP 貴 40-100%
  • ❌ 專有架構:唔係 x86,軟件兼容性問題
  • ❌ GPU 選擇少:主要支援舊世代 GPU(V100/A100)
  • ❌ 交付時間長:8-12 週
  • ❌ 香港支援一般:本地團隊細

適合:

  • 🎯 金融 / 政府機構(需要 IBM 認證)
  • 🎯 已有 IBM 基建
  • 🎯 預算充足(HK$1,000,000+)
  • 🎯 需要 POWER 架構特定功能

決策流程圖

🎯 點樣揀?簡單決策樹

  1. 預算 < HK$500,000? → 考慮 PC 工作站(Threadripper)

  2. 需要最新 GPU(H100/RTX 6000)? → Dell PowerEdge XE 系列

  3. 已有 HP 基建? → HPE ProLiant/Apollo

  4. 需要 iLO 進階功能? → HPE ProLiant/Apollo

  5. 金融 / 政府合規要求? → IBM Power Systems

  6. 預算充足 + 需要 premium 支援? → IBM Power Systems

  7. 其他所有情況? → Dell PowerEdge(最安全選擇)

實際價格對比(4-GPU AI 伺服器)

配置DellHPIBM
4× RTX 6000 AdaR750xa: ~HK$468,000DL380 Gen11: ~HK$490,000N/A(唔支援)
4× A100 SXMXE8545: ~HK$1,170,000Apollo 6500: ~HK$1,250,000AC922: ~HK$1,560,000
8× H100 SXMXE9680: ~HK$2,340,000Apollo 6500: ~HK$2,500,000N/A(唔支援)

香港本地支援對比

供應商DellHPIBM
本地團隊⭐⭐⭐⭐⭐ 大⭐⭐⭐⭐ 中⭐⭐⭐ 小
維修響應時間4-8 小時8-24 小時24-48 小時
零件庫存本地有貨本地有貨需要空運
技術支援語言廣東話 / 英文英文英文

推薦總結

✅ 推薦 Dell PowerEdge 如果:

  • 第一次買企業級伺服器
  • 需要最新 GPU(RTX 6000、H100)
  • 重視本地支援同快速維修
  • 預算 HK$400,000-2,000,000

✅ 推薦 HP/HPE 如果:

  • 已有 HP 基建,想統一管理
  • 需要 iLO 進階功能(KVM、虛擬媒體)
  • 大規模部署(10+ 台)
  • 唔介意等多 1-2 日維修

✅ 推薦 IBM 如果:

  • 金融 / 政府機構有合規要求
  • 已有 IBM 基建同技術團隊
  • 預算充足(HK$1,000,000+)
  • 需要 POWER 架構特定功能

❌ 唔推薦企業級伺服器如果:

  • 預算 < HK$400,000 → 用 PC 工作站
  • 只需要 1-4 GPU → 用 Threadripper 工作站
  • 需要經常升級硬件 → 用 DIY/Supermicro

IBM / Dell / HP 伺服器型號推薦

以下係 AI 工作負載嘅具體型號推薦:

IBM 系列

型號GPU 支援適用場景價格範圍
IBM Power System AC9224-6× V100 (SXM2)傳統 AI 訓練(舊世代)~HK$780,000
IBM Power System AC9224× A100 (SXM4)大規模訓練~HK$1,560,000

Dell 系列

型號GPU 支援適用場景價格範圍
Dell PowerEdge R750xa4× RTX 6000 Ada (PCIe)工作站級別訓練~HK$468,000
Dell PowerEdge XE85454× A100 (SXM4)數據中心訓練~HK$1,170,000
Dell PowerEdge XE96808× H100 (SXM5)超大規模訓練~HK$2,340,000+

HP (HPE) 系列

型號GPU 支援適用場景價格範圍
HPE ProLiant DL380 Gen112× RTX 6000 Ada (PCIe)小型 AI 工作負載~HK$312,000
HPE Apollo 6500 Gen10 Plus8× A100 (SXM4)大規模訓練~HK$1,950,000

混合方案:Supermicro「企業級組裝機」

最佳平衡:

  • ✅ 用 Supermicro 機架伺服器機箱(有 IPMI、冗餘電源)
  • ✅ 自己揀 consumer-grade 零件(Threadripper、RTX 6000 Pro)
  • ✅ 平過 IBM/Dell/HP(慳 ~40-50%)
  • ✅ 保留企業級功能(IPMI、遠端管理)

推薦配置:

# Supermicro 4U GPU 伺服器 Chassis: Supermicro SC847A (4U, 冗餘電源, IPMI) - HK$12,000 Motherboard: Supermicro H13DSG-O-CPU (雙 EPYC) - HK$15,600 CPU: 2× AMD EPYC 9354 (32C each) - HK$93,600 GPU: 8× RTX 6000 Pro Blackwell (96GB, Blower) - HK$680,000 RAM: 512GB DDR5 ECC RDIMM - HK$31,200 Storage: 8TB NVMe Gen 5 RAID 0 - HK$9,600 PSU: 2× 2800W 80+ Titanium (冗餘) - HK$13,600 總計: ~HK$855,600 對比 Dell XE9680 (8× H100): ~HK$2,340,000 慳錢: ~HK$1,484,400 (63% cheaper!)

你會得到:

  • ✅ IPMI 遠端管理(KVM-over-IP、遠端重啟)
  • ✅ 冗餘電源(一個壞咗另一個繼續運作)
  • ✅ 機架式設計(標準 19" rack)
  • ✅ 更快 GPU(RTX 6000 Pro 96GB vs H100 80GB)
  • ✅ 慳 63% 成本

你冇嘅:

  • ❌ 原廠 3 年保養(但零件各自有 1-3 年保養)
  • ❌ Dell / IBM 統一管理軟件
  • ❌ 原廠認證兼容性測試

總結

核心要點

  1. RTX 6000 Blackwell 係目前最強嘅 workstation GPU
    • 48GB GDDR7、PCIe 5.0、NVLink 5.0
    • 適合 AI 訓練同推理
    • 價格 ~$6,500,性價比高過 H100
  2. Threadripper PRO 係多 GPU 系統嘅最佳選擇
    • 128 PCIe 5.0 lanes → 支援 8× x16 GPU
    • 比 Intel Xeon W 平,比 EPYC 易買
  3. 散熱設計要根據使用場景
    • 1-2 GPU 辦公室 → 雙風扇主動散熱
    • 4-8 GPU 機房 → Blower 渦輪式
    • 數據中心 → 被動散熱 (如果有強制氣流)
  4. 配置建議
    • 中小型模型訓練:2-4 GPU 夠用
    • 預算 HK142,000(2卡)到HK142,000 (2 卡) 到 HK142,000(2卡)到HK267,000 (4 卡)
    • 辦公室用雙風扇,機房用 Blower

下一步行動

如果你哋決定組 AI 工作站,建議:

  1. 確定訓練需求
    • 模型大小 (parameters)
    • 預計訓練時間
    • 同時訓練幾多個模型
  2. 選擇配置
    • 2 GPU: 適合開發 + 小規模訓練
    • 4 GPU: 適合中型模型訓練
    • 8 GPU: 適合大型模型或者高吞吐推理
  3. 考慮散熱同環境
    • 辦公室 → 靜音優先 (雙風扇)
    • 機房 → 密度優先 (Blower)
    • 數據中心 → 可靠性優先 (被動)
  4. 預算規劃
    • 硬件成本
    • 電費 (300W × GPU 數量 × 24 hr × 30 days × $0.1/kWh)
    • 維護成本 (風扇更換、清潔等)

相關資源

  • 📄 NVIDIA RTX 6000 Blackwell 規格:nvidia.com/rtx-6000
  • 💻 AMD Threadripper PRO:amd.com/threadripper-pro
  • 🌡️ Supermicro GPU 伺服器:supermicro.com/gpu
  • 🔧 PCIe Lane 計算器:pcpartpicker.com

希望呢篇文章幫到你了解 AI 工作站嘅硬件配置。如果有任何問題,歡迎留言討論!

Back to all articles
目錄