TG:百度：文心一言成国内首款通过中国信息通信研究院推理能力测评大模型

帮助中心 2025-05-21 08:08

　　中证报中证网讯（记者董添）5月20日，百度AI Day活动在北京举办，百度集团副总裁吴甜、中国信息通信研究院人工智能研究所平台与工程化部主任曹峰及文心一言用户代表陈君航现场分享了文心大模型最新技术、全球大模型发展及大模型能力测评、文心一言使用体验等。活动现场，中国信息通信研究院发布大模型推理能力评估结果。结果显示，百度文心X1 Turbo在24项能力评估中，16项达5分、7项达4分、1项达3分，综合评级获当前最高级“4+级”，成为国内首款通过该测评的大模型。文心X1 Turbo逻辑推理、代码推理、推理效果优化等技术能力及工具支持度、安全可靠度等应用能力均获得满分。

　　活动现场，吴甜对文心大模型最新版本的技术创新进行了系统性的讲解。她介绍，文心大模型4.5是多模态基础大模型，文心4.5 Turbo源自文心4.5，效果更好、成本更低；基于文心4.5 Turbo，文心X1升级到X1 Turbo，性能提升的同时，具备更先进的思维链，问答、创作、逻辑推理、工具调用和多模态能力进一步增强。

　　后训练方面，百度研制了自反馈增强的技术框架。在训练阶段，通过融合偏好学习的强化学习技术，实现多元统一奖励机制，提升了对结果质量判别的准确率。通过离线偏好学习和在线强化学习统一优化，进一步提升了数据利用效率和训练稳定性，并增强了模型对高质量结果的感知。

　　在深度思考方面，文心大模型最新版本突破了仅基于思维链优化的范式，在思考路径中结合工具调用，构建了融合思考和行动的复合思维链，模型解决问题能力得到显著提升，模型输出结果思路清晰、逻辑严密，表达自然。同时，结合多元统一的奖励机制，实现了思考和行动链的端到端优化，大幅提升了跨领域的问题解决能力。

　　在数据方面，文心大模型最新版本打造了“数据挖掘与合成-数据分析与评估-模型能力反馈”的数据建设闭环，为模型训练源源不断地生产知识密度高、类型多样、领域覆盖广的大规模数据。同时，数据建设流程具备良好的可扩展性，能够轻松迁移到全新的数据类型，实现快速、高效的数据生产。

　　中国信息通信研究院人工智能研究所平台与工程化部主任曹峰从全球大模型发展等多个行业视角在现场进行了趋势解读。他表示，2024年人工智能能力持续进化，在多任务语言理解、竞赛级数学、博士级科学问题等之前具有挑战性的基准测试中超越了人类的表现。评估结果表明，文心X1 Turbo擅长结构化的逻辑思考，并具备平衡模型能力与效率的优化技术，其有效的数据机制保障了模型的可信及可用程度，其推理服务能广泛支持各类应用。文心X1 Turbo强化推理泛化能力，拓宽工具链应用生态，加强安全机制建设，构筑可信应用保障壁垒。

　　中证网声明：凡本网注明“来源：中国证券报·中证网”的所有作品，版权均属于中国证券报、中证网。中国证券报·中证网与作品作者联合声明，任何组织未经中国证券报、中证网以及作者书面授权不得转载、摘编或利用其它方式使用上述作品。

　　北京华胜天成科技股份有限公司2024年度暨2025年第一季度业绩说明会

TGapp