产业集群信息网

企业动态监测

三星发布TRUEBench：全球首个面向真实场景的多语言AI 性能评估基准

黄转青编译发布日期：2024年9月25日

电子信息

三星宣布已开发出名为“可信真实场景使用评估基准”（Trustworthy Real-worldUsage Evaluation Benchmark，简称TRUEBench）的自研AI 基准测试工具。该基准测试工具由三星研究院自主研发，旨在评估人工智能系统的实际应用效率。TRUEBench 提供了一套全面的评估指标，用于衡量大型语言模型在实际工作场景中的表现。为了确保评估结果的真实性，该工具涵盖了多种对话场景以及多语言环境。TRUEBench 借鉴了三星在内部生产流程中运用人工智能的经验，聚焦于10 类高频企业级任务，涵盖内容生成、数据分析、文本摘要和翻译等多个应用场景。测试体系构建了2485 组评估样本，覆盖10 个主要类别、46 个子类别，并支持12 种不同语言，充分体现了多语言、多情境的测试需求。

《全球创新型企业动态监测快报》2025年05期