| 英特尔联合魏茨曼科学研究所通过推测解码技术加速AI |
| 黄转青 编译 发布日期:2025年7月16日 |
| 电子信息 |
| 英特尔实验室和魏茨曼科学研究所发布了一项革命性技术,可使大型语言模型(LLMs)运行速度提高至2.8 倍,且不影响输出质量。推测解码是一种推理优化技术,旨在在不牺牲准确性的前提下,使大型语言模型运行得更快、更高效。它通过将一个小型、快速的模型与一个更大、更准确的模型配对,实现模型之间的“团队协作”。这项“推测性解码”的突破在加拿大温哥华举行的国际机器学习会议上发布。该技术允许任何小型“草稿”模型加速任何大型语言模型,即使它们使用不同的词汇表。推测性解码通过将一个小型、快速的模型与一个更大、更准确的模型配对来工作。当给出一个提示,传统的LLM 会逐步生成每个词,每一步都消耗大量资源。而使用推测性解码,小型辅助模型会快速起草一个完整的短语,然后由大型模型进行验证,从而减少计算周期。 |
| 《全球创新型企业动态监测快报》2025年04期 |