三星发布TRUEBench:全球首个面向真实场景的多语言AI 性能评估基准
 
黄转青  编译  发布日期:2024年9月25日

电子信息
 
  三星宣布已开发出名为“可信真实场景使用评估基准”(Trustworthy Real-worldUsage Evaluation Benchmark,简称TRUEBench)的自研AI 基准测试工具。该基准测试工具由三星研究院自主研发,旨在评估人工智能系统的实际应用效率。TRUEBench 提供了一套全面的评估指标,用于衡量大型语言模型在实际工作场景中的表现。为了确保评估结果的真实性,该工具涵盖了多种对话场景以及多语言环境。TRUEBench 借鉴了三星在内部生产流程中运用人工智能的经验,聚焦于10 类高频企业级任务,涵盖内容生成、数据分析、文本摘要和翻译等多个应用场景。测试体系构建了2485 组评估样本,覆盖10 个主要类别、46 个子类别,并支持12 种不同语言,充分体现了多语言、多情境的测试需求。
 
《全球创新型企业动态监测快报》2025年05期
仿站