LLM⼤模型基座组件
❖ 该组件推荐硬件配置要求
➢ CPU:X86架构,建议跟随GPU显卡去调配CPU等硬件,最低配置
组件 | 配置 | CPU | 内存 | 硬盘 |
---|---|---|---|---|
大模型 | 最低配置 | X86架构 32核 | 128G | 1TB+ |
➢ GPU(重点关注):
○ Nvidia显卡Amphere架构。
○ 显存要求80G+,建议两张卡。
○ 建议⽣产显卡⽤:A100、A800、H100、H800 (显卡可买多张)。
○ 显卡配置相关补充:(价格预计20-50万每张,具体硬件客户⾃⼰采购,采购可能需考虑美制裁管控后对公⽆法购买的问题)。
型号 | H100 80GB SXM5 | H800 80GB SXM5 | H100 80G PCle | H800 80G PCle | A100 80GB SXM5 | A800 80GB SXM5 | A100 80G PCle | A800 80G PCle | |
---|---|---|---|---|---|---|---|---|---|
应用场景 | AI/HPC 科学计算 | AI | AI/HPC 科学计算 | AI | AI/HPC 科学计算 | AI/HPC 科学计算 | AI/HPC 科学计算 | AI/HPC 科学计算 | |
GPU架构 | Hopper | Hopper | Hopper | Hopper | Ampere | Ampere | Ampere | Ampere | |
GPU核心版本 | GH100 | GH100 | GH100 | GH100 | GH100 | GH100 | GH100 | GH100 | |
单精度浮点核心(CUDA Core) | 16896 | 16896 | 14592 | 14592 | 6912 | 6912 | 6912 | 6912 | |
显存容量 | 80GB HBM3 | 80GB HBM3 | 80GB HBM2e | 80GB HBM2e | 80GB HBM2e | 80GB HBM2e | 80GB HBM2e | 80GB HBM2e | |
显存带宽 | 3.35TB/s | 3.35TB/s | 2TB/s | 2TB/s | 2039GB/s | 2039GB/s | 1935GB/s | 1935GB/s | |
NVLink | NVLink 4.0 NVSwitch 900GB/s | NVLink 4.0 NVSwitch 400GB/s | NVLink bridge 600GB/s | NVLink bridge 400GB/s | NVLink 3.0 NVSwitch 600GB/s | NVLink 3.0 NVSwitch 400GB/s | NVLink bridge 600GB/s | NVLink bridge 400GB/s | |
张量运算核心(Tensor Core) | 528(4代) | 528(4代) | 456(4代) | 456(4代) | 432 | 432 | 432 | 432 | |
光线追踪核心(RT Core) | - | - | - | - | - | - | - | - | |
性能指标 | FP64浮点(TFLOPS) | 34 | 1 | 26 | 0.8 | 9.7 | 9.7 | 9.7 | 9.7 |
FP32浮点(TFLOPS) | 67 | 60 | 51 | 51 | 19.5 | 19.5 | 19.5 | 19.5 | |
FP64 Tensor Core (TFLOPS) | 67 | 60 | 51 | 51 | 19.5 | 19.5 | 19.5 | 19.5 | |
TF32 Tensor Core (TFLOPS) | 989 | 989 | 756 | 756 | 156 | 156 | 156 | 156 | |
BF16 Tensor Core (TFLOPS) | 1979 | 1979 | 1513 | 1513 | 312 | 312 | 312 | 312 | |
FP16 Tensor Core (TFLOPS) | 1979 | 1979 | 1513 | 1513 | 312 | 312 | 312 | 312 | |
INT8 Tensor Core (TFLOPS) | 3958 | 3958 | 3025 | 3025 | 624 | 624 | 624 | 624 | |
INT4 Tensor Core (TFLOPS) | - | - | - | - | 1248 | - | 1248 | 1248 | |
最大功耗 | 700W | 700W | 350W | 350W | 400W | 400W | 300W | 300W |
1.1. 服务器配置清单
注意:小模型版本-目前已经暂停发布小模型版本
组件 | 配置 | CPU | 内存 | 硬盘 |
---|---|---|---|---|
AIChat核心服务 | 最低配置 | X86架构 16核 | 32G | 1TB+ |
推荐配置 | X86架构 32核 | 128G | 1TB+ |
(1) 服务器CPU要求支持AVX指令集,否则无法安装 TensorFlow;
(2) 不建议将AIChat 和 Smartbi 部署在同一台服务器上,由于 NLA 对计算和内存资源的使用量均较高,会抢占资源导致卡顿、死机、进程被杀死等问题。
(3) 当服务器配置为最低配置时,即16核32GB。并发数推荐为30个左右,最高不应超过40个。不同并发数下的平均响应时间如下:
并发数 | 平均响应时间 |
---|---|
20 | 2.487s |
30 | 3.669s |
40 | 4.814s |
AIChat是采用docker容器部署的
❖ 该组件基础软件环境要求
➢ 系统 :Linux 64-bit Ubuntu 20.04,AI机器学习系统⼀般使⽤Ubuntu
➢ GPU驱动:根据显卡硬件选择对应版本驱动,尽量对应的GPU-Driver版本号为 535.129.03 +
➢ CUDA&CUDNN:根据GPU驱动版本安装对应版本cuda,cuda版本为12.2;cudnn同理要对应cuda.
➢ Docker容器:⽀持 docker24.02及以上 和 docker-compose 2.21.0 +
➢ Nvidia-docker2: 要求版本 2.13.0 +
❖ cuda版本参考⽂档:https://docs.nvidia.com/cuda/cuda-toolkit-release-notes/index.html
❖ gpu驱动参考⽂档:https://www.nvidia.cn/Download/index.aspx?lang=cn 
以下系统版本支持部署 AIChat:
操作系统 | 系统 | 版本 |
---|---|---|
Ubuntu操作系统 | Ubuntu | Ubuntu-16.04.3以上 |
CentOS操作系统 | Centos | CentOS-7以上 |
银河麒麟操作系统 | KylinOS | KylinOS-10以上 |
版本要求 | License |
---|---|
Smartbi V11 及以上 | License 需要包含“自然语言分析”相应权限 |