不同的llm推理框架

发布于:2024-07-08 ⋅ 阅读:(49) ⋅ 点赞:(0)

vLLM适用于大批量Prompt输入,并对推理速度要求比较高的场景。

实际应用场景中,TensorRT-LLM通常与Triton Inference Server结合起来使用,NVIDIA官方能够提供更适合NVIDIA GPU运行的高效Kernel。

LightLLM比较轻量、易于扩展、易于上手,集成了众多优化的开源实现。

Text generation inference依赖HuggingFace模型,并且不需要为核心模型增加多个adapter的场景。

CTranslate2支持用户在多种CPU架构上面进行LLM的高效推理。

OpenLLM为核心模型添加adapter并使用HuggingFace Agents,不完全依赖PyTorch,支持轻松的微调、服务、部署和监控任何LLM。

RayLLM支持连续批处理,可以获得更好的吞吐量和延时,支持多种LLM后端。

MLC-LLM不仅支持GPU,支持在多种边缘设备(Android或iPhone平台上)本地部署LLM,但是当前支持的模型比较有限。

DeepSpeed-FastGen将DeepSpeed MII与DeepSpeed结合在一起,提供了多种多样的系统组件,拥有多种优化机制。

虽然InferLLM基于llama.cpp,但是它比llama.cpp更轻量、更简洁、更容易上手。

llama.cpp是一个支持纯C/C++实现的推理库,无任何依赖,当前已经从仅支持LLAMA扩展到支持其它的LLM。

rtp-llm是一个已经商业应用的LLM推理框架,支持了淘宝、天猫、菜鸟、高德等多个部门的LLM推理业务。

PowerInfer利用了LLM推理中固有的高局部特性,比llamca.cpp的推理速度更快、精度更高。

XInference不仅支持LLM的推理,还支持文生图模型、文本嵌入模型、语音识别模型、多模态模型等。

FastChat是一个用于培训、服务和评估基于大语言模型的聊天机器人的开放平台。

PPL-LLM基于ppl.nn,支持多种注意力机制、支持动态batch。

BentoML是一个用于构建可靠、可扩展的LLM推理框架。它提供了模型服务、应用程序打包和生产部署所需要的一切。

fastllm是一个纯c++实现、无第三方依赖的高性能LLM推理库,支持INT4量化。

JittorLLM可以支持在一些低性能的端侧设备上面执行LLM推理,模型迁移能力强。

LMDeploy是由MMDeploy和MMRazor团队联合开发,提供了一个涵盖了LLM任务的全套轻量化、部署和服务解决方案。

OneDiffusion是一个开源的一站式仓库,用于促进任何扩散模型的快速部署。

Neural Compressor提供了多种模型压缩技术,包括:量化、裁剪、蒸馏、神经网络搜索。

TACO-LLM是基于腾讯云异构计算产品推出的一套LLM推理框架,用来提升LLM的推理效能。

MindSpore是一种适用于端边云场景的开源LLM训练与推理框架。支持多种并行优化策略,支持自研的LLM量化与剪枝方法。

HuggingFace初衷是为了做聊天机器人业务,最终却成了一个优秀的开源社区,支持400k+个预训练模型、150k+个应用和100k+种数据集。

 AITemplate(AIT)是一个Python框架,它可以将深度神经网络转换为CUDA(NVIDIA GPU)/HIP(AMD GPU)C++代码,用于快速的推理服务。它当前支持的大模型并不多,但是它小而美!
                        
原文链接:https://blog.csdn.net/WZZ18191171661/article/details/137937461


网站公告

今日签到

点亮在社区的每一天
去签到