Apple 与 NVIDIA 合作加速 LLM 文本生成效能
ios资讯 2024年12月19日 11:33:33 臻智哥
Apple 工程师于今日网志发布了与 NVIDIA 合作的详情,致力于提升大型语言模型(LLM)的文本生成效能。
Screenshot
ReDrafter 技术介绍
Apple 于今年初发布并开源了其 Recurrent Drafter(ReDrafter)技术。 这种新方法能够大幅提升 LLM 的文本生成速度,同时「达到业界先进水平」。 ReDrafter 结合了两种技术:波束搜索(beam search)用于探索多种可能性,与动态树状注意力(dynamic tree attention)以高效处理选择。
与英伟达合作加速ReDrafter应用
Apple 的研究展现出强大的结果,于是与英伟达携手,将ReDrafter应用于实际产品中。 通过这次合作,ReDrafter 被整合至英伟达的TensorRT-LLM,该工具专门用于加速NVIDIA GPU上的LLM推理过程。
效能提升成果
为了支持ReDrafter的整合,NVIDIA增加了新的算子,并优化了现有算子,显著提升TensorRT-LLM在处理复杂模型和解码方法方面的能力。 ML 开发者现在可以在 NVIDIA GPU 上通过 TensorRT-LLM,轻松利用 ReDrafter 提升生成速度。
在对一个拥有数千亿参数的模型进行基准测试时,使用 NVIDIA TensorRT-LLM 搭配 ReDrafter 进行贪婪解码时,每秒生成的 token 数提升了 2.7 倍。 这显示该技术能有效降低用户体验的延迟,同时减少GPU使用量和能耗。
Apple 的展望
Apple 的机器学习研究人员指出:「随着 LLM 在实际应用中日益普及,提高推理效能既能降低计算成本,也能减少用户的延迟。 通过将ReDrafter的前瞻解码方法整合至英伟达 TensorRT-LLM框架,开发者现在可以在NVIDIA GPU上为LLM应用实现更快的 token 生成速度。」