从0开始复现nano-vllm「config」

config.py

import os
from dataclasses import dataclass
from transformers import AutoConfig


@dataclass
class Config:
    model: str
    max_num_batched_tokens: int = 16384
    max_num_seqs: int = 512
    max_model_len: int = 4096
    gpu_memory_utilization: float = 0.9
    tensor_parallel_size: int = 1
    enforce_eager: bool = False
    hf_config: AutoConfig | None = None
    eos: int = -1
    kvcache_block_size: int = 256
    num_kvcache_blocks: int = -1

    def __post_init__(self):
        assert os.path.isdir(self.model)
        assert self.kvcache_block_size % 256 == 0
        assert 1 <= self.tensor_parallel_size <= 8
        self.hf_config = AutoConfig.from_pretrained(self.model)
        self.max_model_len = min(self.max_model_len, self.hf_config.max_position_embeddings)
        assert self.max_model_len <= self.max_num_batched_tokens

dataclass是 Python 装饰器，适合于存储数据对象（data object）的Python类，自动生成 __init__、__repr__ 等方法，大大增加了可读性，以及方便性

AutoConfiga 是 Hugging Face 的配置加载器，自动读取模型的 config.json

Config类是整个推理引擎的全局配置中心，所有组件都依赖它获取运行参数。

max_num_batched_tokens
- 定义：单次迭代中，所有 batch 序列的总 token 数量上限
- 作用：决定了 吞吐量 (Throughput)。增大此值可以提高 GPU 利用率，但如果设置过高，可能会导致显存溢出（OOM）。
max_num_seqs
- 定义：推理引擎同时处理的最大序列数量
- 作用：即 Batch Size 的上限，即使max_num_batched_tokens没到上限，也不会有新的请求加进来
max_model_len
- 定义：模型支持的最大上下文长度
- 作用：代码中会自动与模型的 max_position_embeddings 取最小值。这直接影响 KV Cache 的预分配内存大小。
gpu_memory_utilization
- 定义：GPU显存利用率上限
- 作用：定义了推理引擎最多占用显卡显存的比例
tensor_parallel_size
- 定义：张量并行的数量
enforce-eager
- 是否强制使用 PyTorch 的 Eager 模式
- 在eager模式下，模型的每一层操作会立即执行，而不是按计算图进行延迟执行。这种模式通常用于调试或开发阶段，因为它允许更直观地观察每一层的输出和中间状态。
- 在非eager模式下，vLLM默认可能使用图执行模式（如PyTorch的torch.compile或类似的优化），以提高推理效率。这种模式下，多个操作会被优化并组合成一个计算图，从而减少开销。
kvcache_block_size
- 定义：每个KV Cache块中包含的 token 数量
num_kvcache_blocks
- 定义：总共预分配多少个 KV Cache 块。
- 作用：-1 通常表示“自动计算”。推理框架会根据剩余显存和块大小，计算出系统最多能支持多少个块。

__post_init__是dataclass的特殊函数，在 __init__ 之后自动调用，用于参数验证和初始化

assert os.path.isdir(self.model)，判断模型路径是否正确
assert self.kvcache_block_size % 256 == 0，kv cache块的大小要是256的整数倍
assert 1 <= self.tensor_parallel_size <= 8，tp的范围是1到8
self.hf_config = AutoConfig.from_pretrained(self.model)，导入huggingface的模型配置
self.max_model_len = min(self.max_model_len, self.hf_config.max_position_embeddings),导入模型配置以后，要更新max_model_len的值，取默认值和模型具体支持的上下文长度的最小值
assert self.max_model_len <= self.max_num_batched_tokens，要保证模型支持的上下文长度不能超过单词迭代支持的总token数量

config.py

发送评论 编辑评论

推荐文章

发送评论编辑评论