@@ -166,7 +166,7 @@ export CUDA_VISIBLE_DEVICES=0
166
166
export HEALTH_HTTP_PORT=" 8110" # 探活服务的http端口(当前仅用于健康检查、探活)
167
167
export SERVICE_GRPC_PORT=" 8811" # 模型推服务的grpc端口
168
168
export METRICS_HTTP_PORT=" 8722" # 模型服务中监督指标的端口
169
- export INFER_PROC_PORT =" 8813" # 模型服务内部使用的端口
169
+ export INTER_PROC_PORT =" 8813" # 模型服务内部使用的端口
170
170
export SERVICE_HTTP_PORT=" 9965" # 服务请求HTTP端口号,如不配置,默认为-1,即服务只支持GRPC协议
171
171
172
172
# MAX_SEQ_LEN: 服务会拒绝input token数量超过MAX_SEQ_LEN的请求,并返回错误提示
@@ -408,7 +408,7 @@ docker build --network=host -f ./dockerfiles/Dockerfile_serving_cuda124_cudnn9 -
408
408
| MAX_DEC_LEN | int | 最大 decoer 序列长度 | 否 | 1024 | 服务会拒绝请求中 max_dec_len/min_dec_len 超过此参数的请求,并返回错误提示 |
409
409
| BATCH_SIZE | int | 最大 Batch Size | 否 | 50 | 模型可同时并发处理的最大输入数量,不能高于128 |
410
410
| BLOCK_BS | int | 缓存 Block 支持的最大 Query Batch Size | 否 | 50 | 如果出现 out of memeory 错误,尝试减少该数值 |
411
- | BLOCK_RATIO | float | | 否 | 0.75 | 建议配置 输入平均 Token 数/(输入+输出平均 Token 数) |
411
+ | BLOCK_RATIO | float | | 否 | 0.75 | 建议设为输入长度占总长度的比例 |
412
412
| MAX_CACHED_TASK_NUM | int | 服务缓存队列最大长度 | 否 | 128 | 队列达到上限后,会拒绝新的请求 |
413
413
| PUSH_MODE_HTTP_WORKERS | int | HTTP 服务进程数 | 否 | 1 | 在 配置的情况下有效,高并发下提高该数值,建议最高配置为8 |
414
414
| USE_WARMUP | int | 是否进行 warmup | 否 | 0 | |
@@ -417,6 +417,28 @@ docker build --network=host -f ./dockerfiles/Dockerfile_serving_cuda124_cudnn9 -
417
417
| MODEL_DIR | str | 模型文件路径 | 否 | /models/ | |
418
418
| model_name | str | 模型名称 | 否 | 无 | 用于支持模型静态图下载,具体名称参考文档(#./static_models.md)|
419
419
420
+
421
+ ## 显存相关参数推荐
422
+
423
+ * BLOCK_BS:设定 cacheKV block 的数量,服务支持的输入、输出的总 token 数为 NUM_TOTAL_TOKEN = BLOCK_BS * INFER_MODEL_MAX_SEQ_LEN
424
+ * 例如 8K 的模型 BLOCK_BS 设为 40,则共可以支持 40* 8 = 320K 的 token 长度
425
+ * 例如 8K 的模型推荐配置 BLOCK_BS设为 40,运行 32K 的模型,支持的总 token 数不变,则 BLOCK_BS 设为 40 / (32K/8K) = 10,考虑到输入长度变化,影响激活峰值显存,可适当下调到 8 或 9
426
+ * BLOCK_RATIO: block 分配给 encoder 和 decoder 的比例,建议设为 (平均输入长度+128) /(平均输入长度 + 平均输出长度) * EXTEND_RATIO,其中 EXTEND_RATIO 是超参,在大部分情况中,设为1即可,如输入长度方差较大,可根据具体情况设为 1.1~ 1.3
427
+ * 例如一份平均输入 300,平均输出 1500,则 block_ratio 推荐值为 (300 + 128) / (300 + 1500) ≈ 0.25
428
+ * BATCH_SIZE: 一般小于 NUM_TOTAL_TOKEN / (平均输入长度 + 平均输出长度)
429
+
430
+ | GPU 显存 | 部署模型 | 静态图权重 | 节点数 | 量化类型 | 导出长度 | 是否 MTP | MTP 量化类型 | 推荐 block_bs |
431
+ | ----------| --------------------| ------------------------------------------------| ------| ----------------| --------| --------| ---------------| ---------|
432
+ | 80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1/a8w8_fp8_wint4 | 1 | a8w8_fp8_wint4 | 8K | 否 | - | 40 |
433
+ | 80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1-MTP/a8w8_fp8_wint4 | 1 | a8w8_fp8_wint4 | 8K | 是 | a8w8_fp8 | 36 |
434
+ | 80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1/weight_only_int4 | 1 | weight_only_int4 | 8K | 否 | - | 40 |
435
+ | 80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1-MTP/weight_only_int4 | 1 | weight_only_int4 | 8K | 是 | weight_only_int8 | 36 |
436
+ | 80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1-2nodes/a8w8_fp8 | 2 | a8w8_fp8 | 8K | 否 | - | 50 |
437
+ | 80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1-MTP-2nodes/a8w8_fp8 | 2 | a8w8_fp8 | 8K | 是 | a8w8_fp8 | 36 |
438
+ | 80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1-2nodes/weight_only_int8 | 2 | weight_only_int8 | 8K | 否 | - | 40 |
439
+ | 80GB | DeepSeek-V3/R1 | deepseek-ai/DeepSeek-R1-MTP-2nodes/weight_only_int8 | 2 | weight_only_int8 | 8K | 是 | weight_only_int8 | 36 |
440
+
441
+
420
442
## 请求参数介绍
421
443
422
444
| 字段名 | 字段类型 | 说明 | 是否必填 | 默认值 | 备注 |
0 commit comments