从0开始复现nano-vllm「config」

config.py

import os
from dataclasses import dataclass
from transformers import AutoConfig


@dataclass
class Config:
    model: str
    max_num_batched_tokens: int = 16384
    max_num_seqs: int = 512
    max_model_len: int = 4096
    gpu_memory_utilization: float = 0.9
    tensor_parallel_size: int = 1
    enforce_eager: bool = False
    hf_config: AutoConfig | None = None
    eos: int = -1
    kvcache_block_size: int = 256
    num_kvcache_blocks: int = -1

    def __post_init__(self):
        assert os.path.isdir(self.model)
        assert self.kvcache_block_size % 256 == 0
        assert 1 <= self.tensor_parallel_size <= 8
        self.hf_config = AutoConfig.from_pretrained(self.model)
        self.max_model_len = min(self.max_model_len, self.hf_config.max_position_embeddings)
        assert self.max_model_len <= self.max_num_batched_tokens

dataclass是 Python 装饰器,适合于存储数据对象(data object)Python类,自动生成 __init____repr__ 等方法,大大增加了可读性,以及方便性

AutoConfiga 是 Hugging Face 的配置加载器,自动读取模型的 config.json

Config类是整个推理引擎的全局配置中心,所有组件都依赖它获取运行参数。

  • max_num_batched_tokens

    • 定义:单次迭代中,所有 batch 序列的总 token 数量上限
    • 作用:决定了 吞吐量 (Throughput)。增大此值可以提高 GPU 利用率,但如果设置过高,可能会导致显存溢出(OOM)。
  • max_num_seqs

    • 定义:推理引擎同时处理的最大序列数量
    • 作用:即 Batch Size 的上限,即使max_num_batched_tokens没到上限,也不会有新的请求加进来
  • max_model_len

    • 定义:模型支持的最大上下文长度
    • 作用:代码中会自动与模型的 max_position_embeddings 取最小值。这直接影响 KV Cache 的预分配内存大小。
  • gpu_memory_utilization

    • 定义:GPU显存利用率上限
    • 作用:定义了推理引擎最多占用显卡显存的比例
  • tensor_parallel_size

    • 定义:张量并行的数量
  • enforce-eager

    • 是否强制使用 PyTorch 的 Eager 模式
    • 在eager模式下,模型的每一层操作会立即执行,而不是按计算图进行延迟执行。这种模式通常用于调试或开发阶段,因为它允许更直观地观察每一层的输出和中间状态。
    • 在非eager模式下,vLLM默认可能使用图执行模式(如PyTorch的torch.compile或类似的优化),以提高推理效率。这种模式下,多个操作会被优化并组合成一个计算图,从而减少开销。
  • kvcache_block_size

    • 定义:每个KV Cache块中包含的 token 数量
  • num_kvcache_blocks

    • 定义:总共预分配多少个 KV Cache 块。
    • 作用:-1 通常表示“自动计算”。推理框架会根据剩余显存和块大小,计算出系统最多能支持多少个块。

__post_init__是dataclass的特殊函数,在 __init__ 之后自动调用,用于参数验证和初始化

  • assert os.path.isdir(self.model),判断模型路径是否正确
  • assert self.kvcache_block_size % 256 == 0,kv cache块的大小要是256的整数倍
  • assert 1 <= self.tensor_parallel_size <= 8,tp的范围是1到8
  • self.hf_config = AutoConfig.from_pretrained(self.model),导入huggingface的模型配置
  • self.max_model_len = min(self.max_model_len, self.hf_config.max_position_embeddings),导入模型配置以后,要更新max_model_len的值,取默认值和模型具体支持的上下文长度的最小值
  • assert self.max_model_len <= self.max_num_batched_tokens,要保证模型支持的上下文长度不能超过单词迭代支持的总token数量

 

博客内容均系原创,未经允许严禁转载!
暂无评论

发送评论 编辑评论


				
|´・ω・)ノ
ヾ(≧∇≦*)ゝ
(☆ω☆)
(╯‵□′)╯︵┴─┴
 ̄﹃ ̄
(/ω\)
∠( ᐛ 」∠)_
(๑•̀ㅁ•́ฅ)
→_→
୧(๑•̀⌄•́๑)૭
٩(ˊᗜˋ*)و
(ノ°ο°)ノ
(´இ皿இ`)
⌇●﹏●⌇
(ฅ´ω`ฅ)
(╯°A°)╯︵○○○
φ( ̄∇ ̄o)
ヾ(´・ ・`。)ノ"
( ง ᵒ̌皿ᵒ̌)ง⁼³₌₃
(ó﹏ò。)
Σ(っ °Д °;)っ
( ,,´・ω・)ノ"(´っω・`。)
╮(╯▽╰)╭
o(*////▽////*)q
>﹏<
( ๑´•ω•) "(ㆆᴗㆆ)
😂
😀
😅
😊
🙂
🙃
😌
😍
😘
😜
😝
😏
😒
🙄
😳
😡
😔
😫
😱
😭
💩
👻
🙌
🖕
👍
👫
👬
👭
🌚
🌝
🙈
💊
😶
🙏
🍦
🍉
😣
Source: github.com/k4yt3x/flowerhd
颜文字
Emoji
小恐龙
花!
上一篇
下一篇