Tag: vLLM
All the articles with the tag "vLLM".
-
从一块 GPU 显存出发:vLLM 架构深度剖析
从显存稀缺这个根因出发,层层剥开 vLLM 的设计——PagedAttention、Continuous Batching、智能调度、OpenAI 兼容 API、多硬件适配,一整棵优化大树是如何长出来的。
All the articles with the tag "vLLM".
从显存稀缺这个根因出发,层层剥开 vLLM 的设计——PagedAttention、Continuous Batching、智能调度、OpenAI 兼容 API、多硬件适配,一整棵优化大树是如何长出来的。