讯飞星火首发语音视觉虚拟人交互“三合一” 重新定义万物智联新时代

qifei168 2024-11-01 投资 997 次浏览 0个评论

10 月 29 日，已经预热半年的 Apple Intelligence 终于登台亮相，不过仅支持部分地区的英语语言，也还只是 Beta 版本。当下，全球包括中国的大部分国家及地区的消费者仍无法享受到 Apple Intelligence。

在此前秋季新品发布会上，苹果用了超过一半篇幅来展示新系统在 Apple Intelligence 加持下的威力，一些功能看起来颇具未来感，比如可以使用摄像头感知周围环境的多模态交互能力，将手机发布会活生生开成了一场 AI 产品说明会。

事实上，在不少大模型厂商看来，苹果在发布会所展示的 Apple Intellignce 也没有那么新鲜。比如多模态交互能力，国内外已有不少大模型都实现了对周围环境的实时感知，并且兼具更加个性化的互动能力。

10 月 24 日科大讯飞对外发布的讯飞星火 4.0 Turbo 就是其中之一。在多模态交互能力的基础上，讯飞星火首发语音视觉虚拟人交互的「三合一」，不仅能够具备语音、视频、图文的全联动的多模态交互，还加入了超拟人数字人功能，重新定义万物智联时代的多模 AIUI 交互标准，让 AI 在「栩栩如生」的基础上，还可以具备像人类一样的个性化能力。

苹果展示的 Apple Intelligence 实现了对现实环境的基础感知能力，比如 AI 只是简单地识别了周围物体后给出回答，演示功能局限在回答餐厅评价、动物品种等基础问答上，国内的大模型厂商则不满足于此。

在讯飞星火升级发布会的演示中，讯飞星火的超拟人数字人甚至可以根据现实情况的不断变化，来一场实地「解说」。科大讯飞研究院院长刘聪在现场摆放了三个玩偶，分别是孙悟空、奥特曼和怪兽。他在现场不断调整玩偶的位置、动作，超拟人数字人通过摄像头马上可以给出「解说」，「孙悟空举起了金箍棒，奥特曼正在防御」「怪兽来了，孙悟空和奥特曼开始联合对抗怪兽」……

苹果在发布会上展示的比如识别自行车品牌等购物场景，星火超拟人数字人也能做得更好。在科大讯飞的发布会上，超拟人数字人不只是识别面前的美妆品牌，还能够根据用户的实际需求，给出针对性的挑选建议，什么样的节日适合挑选什么礼物、什么价位的酒类产品口感更好，仿佛是一个精通万物的金牌导购员。

最新的讯飞星火还支持用户创新自己的个性化数字人，只需要在后台进行基础的编辑、定义，用户就可以快速生成专属于自己的数字人形象。

不用担心创建的数字人形象是否会雷同，讯飞星火目前支持超过 1300 种不同的人设，加上此前讯飞星火推出的一句话复刻声音功能，每个人都可以拥有专属于自己的个性化数字人。

语音是万物互联的入口，事实上，作为国内语音产业的王者，科大讯飞一直在引领语音交互的变革。早在 8 月全民开放的星火极速超拟人交互，就凭借更快响应速度的反应力、更具情感共鸣的感性力，更灵活可控的表达里以及更多种人设的角色扮演力，让万千用户体验到了 AI 超拟人化的魅力。而此次超拟人虚拟人交互，或将超拟人技术与虚拟人技术进行融合，让虚拟人交互更具人类特性，进一步打破现实世界与数字世界的边界。此前虚拟人技术已在讯飞多款软硬件产品中得到应用，比如搭载星火大模型讯飞 AI 学习机就通过虚拟教师实现引导式伴学，星火语伴通过伴读老师提升用户口语能力，讯飞智作更让虚拟主播走进现实，降低自媒体创业门槛。

在今年的发布会现场，科大讯飞预告，在硬件产品端，内嵌了星火多模 AIUI 能力的讯飞 AI 学习机阅读伙伴即将上线，孩子们「指哪读哪」，书中的文字可以马上「变身」成个性化数字人，跃然纸上，启发孩子思考和提问。相信随着讯飞星火多模 AIUI 能力的进一步集成，将重塑人机交互新体验。

转载请注明来自成特老酒坊，本文标题：《讯飞星火首发语音视觉虚拟人交互“三合一” 重新定义万物智联新时代》