本篇文章498字,读完约1分钟
北京,11月1日,科学技术日报——人工智能设备已经可以处理独立个体的请求,但是和我们一样,在嘈杂的鸡尾酒会上或者几个人同时说话时,它们也会感到“纠结”。根据《新科学家》杂志官方网站上最近的一篇文章,由美国剑桥三菱电机研究实验室的研究人员开发的用于语音识别的人工智能设备可以实时分离多个声源,极大地提高了自动语言识别的能力。
这项技术首次在日本东京的先进技术展览会上公开展示。团队称之为“深度聚类”机器学习,可以识别多种声源的“声纹”中的独特功能。然后,将每个说话者声音的不同特征组合在一起,允许它从多个声音中选择具有特定特征的声音,并最终重构每个说话者的语音。智能技术使用许多人说的英语进行培训和学习。即使说话的人是日本人,也很容易辨别。
据介绍,传统的语音识别方法使用两个收音机来模拟听者两只耳朵的位置,只能达到51%的准确率。形成的“鸡尾酒会效应”几十年来一直困扰着人工智能研究。
新的智能系统能成功分离两个人的声音,重建一个人声音的准确率高达90%。这项新技术可以帮助家庭和汽车更好地完成智能任务。它可以一次分离多达五个人的声音,并且可以用于电梯,空调谐单元和家用产品的智能控制。(方)