TG:腾讯混元密集上新：发布端到端语音与视觉理解模型

帮助中心 2025-05-22 21:35

　　5月21日，腾讯宣布混元模型矩阵全面升级，旗舰快思考模型混元TurboS、深度思考模型混元T1双双迭代。基于TurboS基座，腾讯新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice。混元图像2.0、混元3Dv2.5及混元游戏视觉生成等一系列多模态模型也同步“上新”。

　　今年年初，混元TurboS正式发布，作为大规模混合Mamba-MoE模型，其在效果与性能上已展现出优势。据介绍，而这一最新突破，则得益于预训练阶段的tokens增训，以及后训练阶段引入长短思维链融合技术，使得TurboS理科推理提升超10%，代码能力提升24%，竞赛数学成绩大幅提升了39%。

　　基于TurboS的基座模型，混元进一步拓展了图片和音频的多模态理解能力。新发布的混元视觉深度推理模型T1-Vision，支持多图输入，具备原生长思维链，实现“边看图边思考”，整体效果相比此前级联方案提升5.3%，整体理解速度提升50%。

　　端到端语音通话模型混元Voice，实现低延迟语音通话，相比级联方案，响应速度提升超过30%，降至1.6秒，拟人性和情绪应用能力也有明显提升，目前已在腾讯元宝App灰度上线。实时视频通话AI体验，近期将推出。

　　今年以来，混元的迭代速度明显加快。在多模态生成领域，混元图像2.0实现“毫秒级”生图。混元3D v2.5凭借业界首创的稀疏3D原生架构，实现了可控性与超高清生成能力的代际飞跃，几何模型精度提升10倍，纹理贴图达4K。

　　近期，混元还将推出首个大规模、可漫游3D场景生成模型，支持沉浸式交互、多样风格场景生成及360全景漫游体验，助力游戏、具身智能等行业创新。

　　腾讯云副总裁、腾讯混元大模型技术负责人王迪表示，混元正加速向智能化的深度与广度迈进，为AI普惠与产业升级提供坚实支撑。混元坚定拥抱开源，持续推进多尺寸、多场景的全系模型开源。

　　据介绍，目前，混元已实现图像、视频、3D、文本等在内的全模态开源，其中，混元3D模型Hugging Face下载量超过160万。未来，混元计划推出多尺寸混合推理模型，从0.5B到32B的dense模型，以及激活13B的MoE模型，适配企业与端侧不同需求。混元图像、视频、3D等多模态基础模型及配套插件模型也将持续开源。

TGapp

TG官方网站

TG电脑版

TG官方平台

TG下载

TG:腾讯混元密集上新：发布端到端语音与视觉理解模型

猜你喜欢