TG:腾讯混元密集上新:发布端到端语音与视觉理解模型
5月21日,腾讯宣布混元模型矩阵全面升级,旗舰快思考模型混元TurboS、深度思考模型混元T1双双迭代。基于TurboS基座,腾讯新推出视觉深度推理模型T1-Vision和端到端语音通话模型混元Voice。混元图像2.0、混元3Dv2.5及混元游戏视觉生成等一系列多模态模型也同步“上新”。
今年年初,混元TurboS正式发布,作为大规模混合Mamba-MoE模型,其在效果与性能上已展现出优势。据介绍,而这一最新突破,则得益于预训练阶段的tokens增训,以及后训练阶段引入长短思维链融合技术,使得TurboS理科推理提升超10%,代码能力提升24%,竞赛数学成绩大幅提升了39%。
基于TurboS的基座模型,混元进一步拓展了图片和音频的多模态理解能力。新发布的混元视觉深度推理模型T1-Vision,支持多图输入,具备原生长思维链,实现“边看图边思考”,整体效果相比此前级联方案提升5.3%,整体理解速度提升50%。
端到端语音通话模型混元Voice,实现低延迟语音通话,相比级联方案,响应速度提升超过30%,降至1.6秒,拟人性和情绪应用能力也有明显提升,目前已在腾讯元宝App灰度上线。实时视频通话AI体验,近期将推出。
今年以来,混元的迭代速度明显加快。在多模态生成领域,混元图像2.0实现“毫秒级”生图。混元3D v2.5凭借业界首创的稀疏3D原生架构,实现了可控性与超高清生成能力的代际飞跃,几何模型精度提升10倍,纹理贴图达4K。
近期,混元还将推出首个大规模、可漫游3D场景生成模型,支持沉浸式交互、多样风格场景生成及360全景漫游体验,助力游戏、具身智能等行业创新。
腾讯云副总裁、腾讯混元大模型技术负责人王迪表示,混元正加速向智能化的深度与广度迈进,为AI普惠与产业升级提供坚实支撑。混元坚定拥抱开源,持续推进多尺寸、多场景的全系模型开源。
据介绍,目前,混元已实现图像、视频、3D、文本等在内的全模态开源,其中,混元3D模型Hugging Face下载量超过160万。未来,混元计划推出多尺寸混合推理模型,从0.5B到32B的dense模型,以及激活13B的MoE模型,适配企业与端侧不同需求。混元图像、视频、3D等多模态基础模型及配套插件模型也将持续开源。
猜你喜欢
- 03-13TG“0375 6015” 杭州将全面停
- 05-14TG政策催化不断通信ETF(5
- 05-06TGOpenAI发布革命性语音生成
- 05-13TG通信运营_提供通信运营技
- 05-17TGtt语音怎么进行语音直播签
- 05-15TG互联网新闻资讯 - OFweek通
- 03-12TG回忆杀:电报仅北京可发
- 03-22TG深圳市云天智能通讯有限
- 05-06TGMWC25盛典:揭示未来通信的