🖥️

AI训练服务器

大规模AI训练服务器,搭载多GPU/NPU加速卡,支持千亿参数大模型训练,PCIe 5.0互联。

🏭 工业控制 🔧 200~500 颗芯片 🇨🇳 国产化率 15%
5
功能模块
6
关键芯片
5
芯片厂商
200~500
芯片总量
SYSTEM ARCHITECTURE · 系统架构
算力层
🧠 GPU加速卡×8
🔗 NVSwitch互联
💾 HBM3显存
▼ PCIe 5.0 / CXL
主机层
💻 双路Xeon CPU
💾 DDR5内存(2TB)
💾 NVMe SSD阵列
▼ PCIe 5.0
网络层
📡 400G InfiniBand×2
📡 100G以太网管理
🔐 BMC管理芯片
电源层
3000W PSU×4
48V→12V DC-DC
多相VR(GPU)
散热层
❄️ 冷板液冷系统
🌡️ 温度传感矩阵
🔧 CDU冷却分配

设计难度评估

硬件设计
PCIe 5.0信号完整性+液冷+10kW+散热
软件开发
CUDA/PyTorch生态+NCCL集群通信
PCB Layout
56Gbps高速信号+多层HDI+阻抗控制
散热设计
10kW+整机功耗,液冷管路设计
供应链
GPU产能受限,交期6-12月
认证
服务器安全+EMC+效率认证
🇨🇳 国产化替代分析
GPU(NVIDIA)和CPU(Intel/AMD)高度依赖进口。国产替代:华为昇腾910B(部分AI训练)、海光DCU(兼容ROCm)、天数智芯、摩尔线程(推理)。InfiniBand可选中科驭数DPU。DDR5/HBM3:长鑫存储/长江存储逐步突破。
涉及芯片厂商: 英伟达(NVIDIA)、英特尔(Intel)、NVIDIA Mellanox、MPS(芯源)、ASPEED(信骅)

🔧 功能模块与关键芯片

🧠 GPU加速卡

AI训练核心算力单元,多卡并行。

芯片型号制造商功能简介替代方案
NVIDIA H100 SXM
¥200000+
英伟达(NVIDIA) 80GB HBM3,3958 TFLOPS FP8,旗舰训练GPU
Transformer Engine FP8训练 NVLink互联 MIG多实例
A100(上一代) 华为昇腾910B AMD MI300X

💻 CPU主板

服务器主板和CPU平台。

芯片型号制造商功能简介替代方案
Intel Xeon w9-3495X
¥40000+
英特尔(Intel) 56核112线程,Sapphire Rapids-WS
DDR5八通道 PCIe 5.0 AMX矩阵加速 CXL 1.1
Intel Xeon w7 AMD TR 7995WX AMD EPYC 9654(96核)

🔗 高速互联

GPU间和节点间高速网络。

芯片型号制造商功能简介替代方案
NVIDIA NVSwitch
¥非公开
英伟达(NVIDIA) NVLink交换芯片,900GB/s全互联
全互联拓扑 低延迟 大带宽 8卡互联
华为HCCS Intel Xe Link AMD Infinity Fabric
ConnectX-7
¥5000+
NVIDIA Mellanox 400Gb InfiniBand/Ethernet智能网卡
400G带宽 RDMA零拷贝 GPUDirect 硬件卸载
华为Hi1822 Broadcom P2100G Intel E810

⚡ 供电系统

大功率服务器电源和配电。

芯片型号制造商功能简介替代方案
MP2965
¥5-10
MPS(芯源) 数字多相VR控制器,GPU/CPU供电
数字多相 PMBus遥测 快速瞬态 电流均衡
TPS53688(TI) RAA229132(Renesas) IR38363(Infineon)

❄️ 散热系统

液冷/风冷散热方案。

芯片型号制造商功能简介替代方案
BMC管理芯片
¥15-30
ASPEED(信骅) AST2600服务器管理芯片,IPMI/BMC
IPMI 2.0 远程KVM 传感器监控 固件更新
自研BMC NPCM8xx(新唐) OpenBMC

💰 BOM 成本估算

¥100万-300万+
芯片BOM参考总成本
GPU加速卡×8
65%
¥1600000.00
CPU+主板
8%
¥200000.00
内存2TB
8%
¥200000.00
网卡+交换
6%
¥150000.00
电源+散热
6%
¥150000.00
机箱+线缆
7%
¥200000.00

🎯 设计锦囊 · 工程师经验

🌡️
液冷散热方案
8卡GPU满载~5600W(仅GPU),整机>10kW。必须使用冷板液冷,液冷工质温度入口<35°C,流量>15L/min。冷板与GPU接触用铟金属垫片(导热率80W/mK)替代硅脂。CDU(冷却分配单元)需冗余设计。
🔲
PCIe 5.0走线
PCIe 5.0 32GT/s差分对需Megtron6/7低损耗板材,走线损耗<1dB/inch@16GHz。过孔需backdrilling减少stub效应。SERDES眼图余量需>30%。建议使用Retimer芯片(如MaxLinear RT4C16)扩展距离。
💰
GPU集群组网
8卡内用NVLink+NVSwitch全互联(900GB/s)。节点间用400G InfiniBand RDMA(延迟<1μs)。建议Fat-Tree拓扑,收敛比1:1(无超售)。NCCL AllReduce通信模式下,1000卡集群线性扩展效率可达>90%。
🐛
功耗管理策略
GPU功耗波动大(空载50W→满载700W),电源子系统需PSU冗余(N+1)。48V配电架构(OCP标准)减少铜损。VR控制器需16+相供电,负载瞬态响应<10μs。BMC实时监控功耗,超限自动降频。
🛡️
数据中心合规
PUE(能效比)目标<1.15。液冷系统需防漏检测传感器(绳式/点式)。UPS后备时间>10min。GPU显存ECC必须开启。存储需RAID保护。网络需25G/100G带外管理网络独立部署。
🚧 功能开发中 Coming Soon
ChipAtlas|芯探

欢迎回来

登录芯探账号,查看芯片选型方案

还没有账号? 免费注册

创建账号

注册芯探,解锁全部芯片选型功能

已有账号? 直接登录