阅读关于 LLM 推理、优化技术和系统架构的最新文章。
用 KTransformers、LLaMA-Factory 与 SGLang,在低成本、低显存条件下跑通大规模 MoE 模型的 LoRA 微调、推理和 benchmark。