我们生活在一个嘈杂的世界里。如果你不喜欢噪音,降噪耳机可以减少环境中的杂音,但它们也会不分青红皂白地过滤掉所有声音,所以你很容易错过你真正想听到的东西。
现在,一个新的人工智能系统旨在解决降噪耳机的这一问题。
该系统名为“收听目标语音(Target Speech Hearing)”,用户可以选择一个人作为目标,即使所有其他声音都被消除,他的声音也依旧能被听到。
尽管这项技术目前仍处在概念验证阶段,但其开发者表示,他们正在与厂商讨论将其加入流行品牌的降噪耳机中,并努力尝试将其用在助听器上。
参与该项目的美国华盛顿大学教授什亚姆·戈拉科塔(Shyam Gollakota)说:“倾听特定人群的声音是我们在世界上如何沟通,以及如何与他人互动的一个基本要素。但在特定情况下,即使你没有任何听力问题,专注于特定的人也可能变得非常有挑战性。”
(来源:STEPHANIE ARNETT/MITTR | PUBLIC DOMAIN,ENVATO)
当人工智能模型需要在计算能力和电池寿命有限的耳机中实时工作时,这种复杂性就成为了一个问题。
为了满足这些限制,神经网络需要做到体积小、能耗低。
因此,该团队使用了一种名为“知识提取”的人工智能压缩技术。
他们使用了一个经过数百万种声音训练的大型人工智能模型(“老师”),并让它训练一个小得多的模型(“学生”),以模仿其行为和表现达到相同的标准。
然后,他们利用降噪耳机上的麦克风捕捉到的环境噪音,训练学生模型从中提取特定声音的发声模式(规律)。
要激活该人工智能系统,佩戴者需要面对目标对象,并按住耳机上的按钮几秒钟。
在这个“注册”过程中,系统会通过耳机上的麦克风捕获音频样本,并使用此录音提取讲话者的声音特征,即使附近有其他人声和噪音。
这些音频特征被输入到第二个神经网络中,该网络运行在一台微控制器计算机上,两者通过通用串行总线(USB,Universal Serial Bus)连接。
这个神经网络会持续运行,将目标声音与其他声音分开,并将其播放给耳机佩戴者。
一旦该系统锁定了一名讲话者,即使佩戴者转身离开,它也会继续优先区分这个人的声音。
该系统从讲话者的声音中获得的训练数据越多,其区分声音的能力就越强。
目前,该系统只能成功注册一种声音,而且该声音必须是注册时最响亮的那个,但该团队的目标是即使特定方向上最大的声音不是目标人物,该系统仍然可以工作。
微软研究语音和人工智能的高级研究员塞菲克·埃姆雷·埃斯基梅兹(Sefik Emre Eskimez)表示,在嘈杂的环境中捕捉一个声音是非常困难的。他没有参与这项研究。
“我知道很多公司都想这么做。”他说,“如果他们能做到这一点,就会解锁很多应用场景,尤其可以用在会议场景中。”
美国卡内基梅隆大学语言技术研究所的研究员萨姆勒·康奈尔(Samuele Cornell)认为,虽然语音分离研究往往是理论性的,而不是实践性的,但这项工作在现实世界中有着明确的应用。
他没有参与该研究。但其表示:“我认为这是朝着正确方向迈出的一步,是很新颖的尝试。”
支持:Ren
排版:溪树
01/ 分布式电合成氨路在何方?科学家开展合成氨热力学分析,首次找出能耗更低的候选介导金属
02/ 科学家打造基于量子芯片的神经储存器,每平方厘米支持万亿节点,有望用于自然语言处理任务
03/ 科学家揭示双层超构光栅新特性,为光子器件提供理论基础,可用于光计算、量子发射和新型显示
04/ 大连化物所团队提出一步法电池回收工艺,极大提高电池回收效率,实现向下一代储能电池的转变
05/ 生命科学大数据操作系统助力研究降本增效?CCF开源创新大赛暨第二届Bio-OS开源开放大赛报名开启