远距离语音识别,多麦克风系统问世
MEMS麦克风阵列随着语音控制需求增加而开始受到重视,语音控制存在的环境相当复杂,若使用时相隔距离较远,收音上就会遇到回音干扰、室内混响与多信号源干扰等问题,导致信噪比(SNR)降低,影响语音识别准确率。
过去手机大多采用单麦克风,能在低噪音、无混响与近距离下,获得信号品质较高的声音,但当环境中有许多声源和环境噪音,例如客厅、厨房与户外等,就无法做到声源分离,进而无法对声源定位和识别。为了远距离语音识别,多麦克风系统应运而生,通过几何结构组合成线型、环型与球型等阵列,数量从2~1000颗不等,目的是为了收集不同空间方向的声音信号来做噪音抑制、混响去除与人声干扰抑制后,方能做到声源侧向,再通过波束成形做声音定位。
近年随着语音识别能力提高,加上厂商希望缩小产品设计并降低成本,因此开始减少MEMS麦克风使用量,一般消费性产品采用的MEMS麦克风阵列型态以线型和环型为主。但线性麦克风阵列仍旧有其限制,仅能做到180度声源定位,无法针对全方位做空间指向性,像是亚马逊第三代Echo Dot就采用4颗麦克风,虽较前一代减少3颗,但仍是采用环型阵列。
1. 线型MEMS麦克风阵列:宽边阵列
电视和笔记本电脑等产品适合采用线性麦克风阵列中的宽边阵列,宽边阵列是指声波方向和麦克风阵列垂直,通过声波相加得出声源方位,且抑制来自阵列侧边的声音,使得前方和后方的响应一致,但该阵列具有轴对称性,无法分辨出前方和后方声源,因此适合声音仅来自前方或后方的产品。通过增加横向MEMS麦克风数量则能更有效抑制侧边声音,借此增加声源定位距离,不过,MEMS麦克风之间若间距过窄,会降低低频衰减、增加低频噪音干扰,但过宽又会造成机构设计困难,降低混迭频率,因此在产品设计上需特别衡量横向麦克风数量与其距离的安排。
以电视为例,其摆放的空间大多在较空旷的客厅,且人往往距离电视较远,因此电视需搭载远场语音识别让用户控制。要强化远场语音识别的能力和距离,需要将数个MEMS麦克风排列成宽边阵列,除了可以抑制电视两侧扬声器所制造的噪音外,也能增强声源定位距离,但远距离容易造成声音在室内不断反射,导致麦克风不断收到重覆信号,造成语音识别困难。
2. 线型MEMS麦克风阵列:端射阵列
针对单方向做声音检测的产品,例如手机、耳机、助听器、智能手环与智能手表等产品,就适合采用线性麦克风阵列中的端射阵列。端射阵列是指声波方向与麦克风阵列平行,当前方比后方先接收到声波时,就能通过麦克风拾取声波的时间差得知声波来源,通过讯号处理抑制其他方向的声音干扰,形成空间指向性。
以可穿戴设备为例,由于产品体积较小,难以通过多个麦克风做横向排列抑制周遭噪音,加上消费者使用可穿戴设备做语音控制时,往往会靠近嘴巴,代表定向声源只有一个方向,而需抑制的噪音源同样是来自嘴巴,并非声源的反方向,因此通过端射阵列设计,能专注收取单一方向的声音。
3. 环型MEMS麦克风阵列
环型MEMS麦克阵列是端射阵列的延伸应用,适用于需要针对全方位做声源定位和识别的产品,在设计上各MEMS麦克风需要等距且均匀分布在圆周上,且排列形成多个端射阵列,以利针对不同角度的声源做降噪、侧向与定位。目前运用最广的语音识别产品智能音箱,即是使用环型MEMS麦克风阵列。
由于智能音箱在使用上不具备方向性,多摆设在客厅、厨房与卧房,会因为环境多样性而使得噪声干扰方式不同,例如在客厅会受到多信号源干扰,在厨房则会受到诸多环境音干扰,在卧房则可能通过智能音箱播放音乐,导致噪音出现,加上用户声音可能来自四面八方,因此需通过环型阵列做波束成形的指向性收音和降噪,提高语音识别准确率。