不同的llm推理框架-EW帮帮网

vLLM适用于大批量Prompt输入，并对推理速度要求比较高的场景。

实际应用场景中，TensorRT-LLM通常与Triton Inference Server结合起来使用，NVIDIA官方能够提供更适合NVIDIA GPU运行的高效Kernel。

LightLLM比较轻量、易于扩展、易于上手，集成了众多优化的开源实现。

Text generation inference依赖HuggingFace模型，并且不需要为核心模型增加多个adapter的场景。

CTranslate2支持用户在多种CPU架构上面进行LLM的高效推理。

OpenLLM为核心模型添加adapter并使用HuggingFace Agents，不完全依赖PyTorch，支持轻松的微调、服务、部署和监控任何LLM。

RayLLM支持连续批处理，可以获得更好的吞吐量和延时，支持多种LLM后端。

MLC-LLM不仅支持GPU，支持在多种边缘设备（Android或iPhone平台上）本地部署LLM，但是当前支持的模型比较有限。

DeepSpeed-FastGen将DeepSpeed MII与DeepSpeed结合在一起，提供了多种多样的系统组件，拥有多种优化机制。

虽然InferLLM基于llama.cpp，但是它比llama.cpp更轻量、更简洁、更容易上手。

llama.cpp是一个支持纯C/C++实现的推理库，无任何依赖，当前已经从仅支持LLAMA扩展到支持其它的LLM。

rtp-llm是一个已经商业应用的LLM推理框架，支持了淘宝、天猫、菜鸟、高德等多个部门的LLM推理业务。

PowerInfer利用了LLM推理中固有的高局部特性，比llamca.cpp的推理速度更快、精度更高。

XInference不仅支持LLM的推理，还支持文生图模型、文本嵌入模型、语音识别模型、多模态模型等。

FastChat是一个用于培训、服务和评估基于大语言模型的聊天机器人的开放平台。

PPL-LLM基于ppl.nn，支持多种注意力机制、支持动态batch。

BentoML是一个用于构建可靠、可扩展的LLM推理框架。它提供了模型服务、应用程序打包和生产部署所需要的一切。

fastllm是一个纯c++实现、无第三方依赖的高性能LLM推理库，支持INT4量化。

JittorLLM可以支持在一些低性能的端侧设备上面执行LLM推理，模型迁移能力强。

LMDeploy是由MMDeploy和MMRazor团队联合开发，提供了一个涵盖了LLM任务的全套轻量化、部署和服务解决方案。

OneDiffusion是一个开源的一站式仓库，用于促进任何扩散模型的快速部署。

Neural Compressor提供了多种模型压缩技术，包括：量化、裁剪、蒸馏、神经网络搜索。

TACO-LLM是基于腾讯云异构计算产品推出的一套LLM推理框架，用来提升LLM的推理效能。

MindSpore是一种适用于端边云场景的开源LLM训练与推理框架。支持多种并行优化策略，支持自研的LLM量化与剪枝方法。

HuggingFace初衷是为了做聊天机器人业务，最终却成了一个优秀的开源社区，支持400k+个预训练模型、150k+个应用和100k+种数据集。

AITemplate（AIT）是一个Python框架，它可以将深度神经网络转换为CUDA（NVIDIA GPU）/HIP（AMD GPU）C++代码，用于快速的推理服务。它当前支持的大模型并不多，但是它小而美！

原文链接：https://blog.csdn.net/WZZ18191171661/article/details/137937461

不同的llm推理框架

网站公告

今日签到

热门文章

最新发布