Tag: LLM
All the articles with the tag "LLM".
-
从一块 GPU 显存出发:vLLM 架构深度剖析
从显存稀缺这个根因出发,层层剥开 vLLM 的设计——PagedAttention、Continuous Batching、智能调度、OpenAI 兼容 API、多硬件适配,一整棵优化大树是如何长出来的。
All the articles with the tag "LLM".
从显存稀缺这个根因出发,层层剥开 vLLM 的设计——PagedAttention、Continuous Batching、智能调度、OpenAI 兼容 API、多硬件适配,一整棵优化大树是如何长出来的。