博客 | KVCache.AI

博客

阅读关于 LLM 推理、优化技术和系统架构的最新文章。

KTransformers + LLaMA-Factory + SGLang：低成本本地超大模型微调与推理

2025年11月 KTransformers Team

用 KTransformers、LLaMA-Factory 与 SGLang，在低成本、低显存条件下跑通大规模 MoE 模型的 LoRA 微调、推理和 benchmark。

KTransformers LLaMA-Factory Fine-Tuning MoE LoRA Heterogeneous Computing SGLang