产业集群信息网

企业动态监测

英特尔联合魏茨曼科学研究所通过推测解码技术加速AI

黄转青编译发布日期：2025年7月16日

电子信息

英特尔实验室和魏茨曼科学研究所发布了一项革命性技术，可使大型语言模型（LLMs）运行速度提高至2.8 倍，且不影响输出质量。推测解码是一种推理优化技术，旨在在不牺牲准确性的前提下，使大型语言模型运行得更快、更高效。它通过将一个小型、快速的模型与一个更大、更准确的模型配对，实现模型之间的“团队协作”。这项“推测性解码”的突破在加拿大温哥华举行的国际机器学习会议上发布。该技术允许任何小型“草稿”模型加速任何大型语言模型，即使它们使用不同的词汇表。推测性解码通过将一个小型、快速的模型与一个更大、更准确的模型配对来工作。当给出一个提示，传统的LLM 会逐步生成每个词，每一步都消耗大量资源。而使用推测性解码，小型辅助模型会快速起草一个完整的短语，然后由大型模型进行验证，从而减少计算周期。

《全球创新型企业动态监测快报》2025年04期