本篇文章2255字,读完约6分钟
谈论“智能声音”这个词是多年前我第一次在电视广告中听到,“只要998!语音之王手机带回家!更大的电池,更高的音量,升级的超级语音助手……”但是随着技术的发展和移动互联网时代的到来,今天的智能语音技术已经不同于过去。然而,由更智能的语音交互技术带来的市场反馈并不比以前好多少,而安装在智能手机上的会话式语音助理如今已经非常“鸡肋”。
巨人的探索与“断戟”
苹果在2012年推出了集成到手机中的语音助手Siri。当时,一些媒体评论称,Siri将“开启新一代人机交互时代”。然而,在巨大的期望下,Siri并没有像苹果过去的产品那样“再次改变世界”,而是不幸地出现在一篇评价苹果不良产品的文章中。几年后,Siri仍然存在于我们的手机中,但是有多少人只是在按错键的时候,才意外地启动了这个曾经被称为革命性的产品。
不仅是Siri,微软的Cortanna和谷歌现在,作为第一代互动对话工具,也处于同样的情况。原因是交互体验差,缺乏核心功能。此外,使用场景的不便也困扰着大多数用户。
想象一下,当我们在嘈杂的公共场所向Siri大声发出各种指令时,我们肯定会从周围的人那里得到奇怪的眼神。由于嘈杂的环境和手机与人的语音头之间的距离,Siri无法真正识别你大部分时间表达的命令。经过反复尝试和失败,你肯定会发誓你再也不会打开这个功能了。
目前,所有智能手机都是在乔布斯2007年发布的苹果1的基础上改进的。在苹果1设计之初,交互模式主要是层界面,所有应用程序也是基于层交互模式生成的。因此,手机自然不是语音门户。后来,苹果加入了Siri,这成了一个尴尬的设计。这也是为什么al没有设计手机应用程序,但扬声器非常适合语音交互的场景。例如,在家庭中,当双手都很忙时,语音交互变得非常方便。基于同样的原理,在移动场景中低头看手机违反了正常的使用习惯,耳机自然靠近头部,在戴着耳机听歌的场景中,没有比语音更方便的互动方式了。
亚马逊的尝试和突破
这种情况随着亚马逊智能扬声器Echo的出现而改变。
2014年,亚马逊发布了一款带有智能语音助手的扬声器亚马逊回声。与Siri和其他语音助理类似,用户不仅可以用它来播放音乐,还可以用它来控制智能家庭设备和一系列对话体验。然而,Echo使用音箱作为“载体”来限制用户在室内的使用范围是很聪明的。当用户在室内使用时,不仅声音环境更好,而且即使他大声指示,用户也不会感到尴尬。这一场景的改变不仅为用户的体验增加了很多亮点,还改善了用户在公共环境中使用时无法保证的隐私。
发布后,Echo在2016年售出超过650万台,成为年度最受关注的智能硬件,并建立了新一代直接互动对话服务,作为人机交互的新标准。
Echo的成功证明了智能语音探索新一代交互式对话门户的可能性。更接近人类感觉组织的稳定场景和载体成为新的研究方向。继《回声报》之后,谷歌发布了基于家庭场景的语音激活设备谷歌主页。苹果还推出了Carplay汽车系统,其中包括汽车内的语音对话互动。目前,新一代的对话和互动场景包括家庭场景、汽车场景和室外场景,而耳机、汽车、扬声器等设备将成为智能语音互动的新入口。
中国企业的创新与挑战
在智能语音交互和争夺新入口的新场景中,除了巨人,一家刚刚成立的创新公司也在积极备战。
2016年下半年,中国初创公司芬奇将他们的智能手机带到了美国最受欢迎的筹款网站Kickstarter。在不到一个月的时间里,芬奇从4885名支持者那里获得了近100万美元的筹款,创下了海外国内耳机类别的新纪录,并吸引了许多美国媒体的关注。
芬奇是第一次将播放器和耳机结合成一个独立的智能播放设备。在耳机的形状下,它已经成为语音互动和深入学习的个人助手。在使用过程中,它可以通过说出歌曲的名字或歌手的名字来帮助用户找到并播放歌曲。同时,达芬奇还可以了解用户的使用习惯和听歌品味,并在工作过程中给出相应的建议。不仅仅是音乐、新闻广播、天气查询、定期提醒等等。,用户可以通过语音操作达芬奇做更多富有想象力的事情。
2月27日,芬奇在北京召开了一个以“理解你/一起听”为主题的新产品会议,并发布了世界上第一款在社交上理解你的智能耳机。发布了达芬奇1.5 Lite和达芬奇1.5专业智能耳机产品。
此外,Vinci1.5 Lite产品将重量降低至267克,使长时间佩戴更加舒适。除了扩展到3080个歌曲库和3个月免费听歌,百度音乐还增加了一个收听功能。当两个用户同时拥有达芬奇时,他们可以邀请对方离线或在线听歌曲,同步播放歌曲,边听边聊天,或者为对方点歌。将人工智能与私人社交结合起来,拉近密友之间的距离。
此外,芬奇1.5精简版在语音对话的互动体验方面更进了一步。除了利用深度学习和神经网络使语音互动音乐搜索和推荐体验更好外,更重要的是与国内人工智能新秀一起拓展8语音互动的新闻、问答等服务。未来,生活服务和其他对话类型将会有更多的互动参与,人工智能音乐体验也将成为达芬奇后期服务的核心。
达芬奇的游戏风格不同于巨人。它使用耳机作为语音互动入口的载体,不仅覆盖了巨人没有覆盖的室外场景,而且因为耳机靠近嘴和耳朵,具有自然匹配语音对话互动的优势,保证了私密性。达芬奇的出现突破了场景的限制,使得随时随地享受语音服务变得更加现实。
随着第一代基于手机的交互工具(如Siri和Cortana)成为“鸡肋”,人工智能硬件的新数据、新场景和新体验将会出现。以Echo和Vinci为代表的新型人工智能硬件可能会威胁到手机计算中心的入口位置。