config.py
import os
from dataclasses import dataclass
from transformers import AutoConfig
@dataclass
class Config:
model: str
max_num_batched_tokens: int = 16384
max_num_seqs: int = 512
max_model_len: int = 4096
gpu_memory_utilization: float = 0.9
tensor_parallel_size: int = 1
enforce_eager: bool = False
hf_config: AutoConfig | None = None
eos: int = -1
kvcache_block_size: int = 256
num_kvcache_blocks: int = -1
def __post_init__(self):
assert os.path.isdir(self.model)
assert self.kvcache_block_size % 256 == 0
assert 1 <= self.tensor_parallel_size <= 8
self.hf_config = AutoConfig.from_pretrained(self.model)
self.max_model_len = min(self.max_model_len, self.hf_config.max_position_embeddings)
assert self.max_model_len <= self.max_num_batched_tokens
dataclass是 Python 装饰器,适合于存储数据对象(data object)的Python类,自动生成 __init__、__repr__ 等方法,大大增加了可读性,以及方便性
AutoConfiga 是 Hugging Face 的配置加载器,自动读取模型的 config.json
Config类是整个推理引擎的全局配置中心,所有组件都依赖它获取运行参数。
-
max_num_batched_tokens- 定义:单次迭代中,所有 batch 序列的总 token 数量上限
- 作用:决定了 吞吐量 (Throughput)。增大此值可以提高 GPU 利用率,但如果设置过高,可能会导致显存溢出(OOM)。
-
max_num_seqs- 定义:推理引擎同时处理的最大序列数量
- 作用:即 Batch Size 的上限,即使
max_num_batched_tokens没到上限,也不会有新的请求加进来
-
max_model_len- 定义:模型支持的最大上下文长度
- 作用:代码中会自动与模型的
max_position_embeddings取最小值。这直接影响 KV Cache 的预分配内存大小。
-
gpu_memory_utilization- 定义:GPU显存利用率上限
- 作用:定义了推理引擎最多占用显卡显存的比例
-
tensor_parallel_size- 定义:张量并行的数量
-
enforce-eager- 是否强制使用 PyTorch 的 Eager 模式
- 在eager模式下,模型的每一层操作会立即执行,而不是按计算图进行延迟执行。这种模式通常用于调试或开发阶段,因为它允许更直观地观察每一层的输出和中间状态。
- 在非eager模式下,vLLM默认可能使用图执行模式(如PyTorch的
torch.compile或类似的优化),以提高推理效率。这种模式下,多个操作会被优化并组合成一个计算图,从而减少开销。
-
kvcache_block_size- 定义:每个KV Cache块中包含的 token 数量
-
num_kvcache_blocks- 定义:总共预分配多少个 KV Cache 块。
- 作用:
-1通常表示“自动计算”。推理框架会根据剩余显存和块大小,计算出系统最多能支持多少个块。
__post_init__是dataclass的特殊函数,在 __init__ 之后自动调用,用于参数验证和初始化
assert os.path.isdir(self.model),判断模型路径是否正确assert self.kvcache_block_size % 256 == 0,kv cache块的大小要是256的整数倍assert 1 <= self.tensor_parallel_size <= 8,tp的范围是1到8self.hf_config = AutoConfig.from_pretrained(self.model),导入huggingface的模型配置self.max_model_len = min(self.max_model_len, self.hf_config.max_position_embeddings),导入模型配置以后,要更新max_model_len的值,取默认值和模型具体支持的上下文长度的最小值assert self.max_model_len <= self.max_num_batched_tokens,要保证模型支持的上下文长度不能超过单词迭代支持的总token数量