您的位置:

人工电子耳蜗语音信号处理方法的研究进展

2022-07-29
来源:求医网
摘要人工电子耳蜗是全聋人康复的一项新技术。我们从系统角度出发,首先简单阐述了其原理及系统设计,在此基础上重点综述了目前人工电子耳蜗中所涉及的语音信号处理方法的研究进展状况,并对未来的研究提出了设想。

Advances of Research on Speech Signal Processing Strategy

in Cochlear Implant

Nie KaibaoLan NingGao ShangkaiYang Fusheng

(Department of Electrical Engineering, Tsinghua University,Beijing100084)

AbstractCochlear implant is a new technology to restore hearing ability to totally deaf people. First of all, this paper presents its principle and system design. Then, the advances of research on its speech signal processing strategy is reviewed in detail. Finally, on the basis of preliminary results, further promising development in cochlear implant is proposed.

Key wordsCochlear implantSpeech signal processingElectrical stimulationRehabilitation

1引言

人工电子耳蜗(Cochlear Implant)是近年来迅速发展起来的一项聋人康复新技术,其基本原理是用微弱电流脉冲直接兴奋聋人耳蜗内的听神经,使聋人恢复听觉。人工电子耳蜗可以在某种程度上使全聋人实现语言的理解能力,特别是对全聋儿童,若在早期植入这种装置,会达到比较好的效果。

据调查,我国目前大约有2300万听力不同程度(45dB以上)受损患者[1],其中600万为全聋人,300万为聋儿。对于低度听障患者,助听器可以帮助提高听力,而对于重度听障患者(95dB以上),助听器已失去效能。在目前生物及医学技术的限制下,人工电子耳蜗是恢复全聋人听觉的一种比较有效的方法。

残疾人的康复是全社会关注的重要事情,人工电子耳蜗的研究价值在于其重大的经济及社会意义。但是,人工电子耳蜗研究与开发涉及电子学、微电子学、材料科学、医学等多种学科,是一项系统工程。在人工电子耳蜗的研究中,语音信号的处理是非常关键的,听觉恢复的效果与语音信号的处理方法有直接的关系。因此,本文在对人工电子耳蜗的系统设计作初步的分析之后,重点介绍目前国外在语音信号的处理方面提出的几种新方案。

2人工电子耳蜗的设计原理

2.1工作原理

人工电子耳蜗是功能性电刺激(Functional Electrical Stimulation,FES)在康复工程中的应用之一。FES的原理是基于神经细胞的电兴奋性;当对神经细胞施加一定的外电流,细胞就会产生一个动作电位,这个动作电位会沿神经纤维传播到末端,引起末端器官的反应。目前,FES技术已在残疾人运动功能(如手抓物,站立,行走等)、器官功能(如心脏起搏器)、视觉及听觉功能康复等许多方面得到广泛的应用[15]

要研究电子耳蜗的工作原理,首先应当了解正常人的听觉是如何产生的。正常人听觉产生的机理比较复杂,涉及到生理学的研究范围,但可以简单地作如下概括:外界的声音振动经鼓膜、三块听小骨传至耳蜗,耳蜗内的淋巴液的振动又引起基底膜的上下行波式移动。基底膜上有很多微小的纤毛细胞,这些毛细胞随基底膜的波动而摆动,将机械振动转变为电信号,刺激耳蜗内的听神经,神经兴奋经神经元传至大脑语言中枢。失聪的原因可能是由于听觉传导通路中某一部分损伤(传导性耳聋),或者药物致使毛细胞受损,以及毛细胞先天性发育不全(神经性耳聋)等原因造成。但是,多数失聪者的听神经是完好或部分完好的,因此尚存在电刺激兴奋的可能性,即电刺激的方法可以恢复听觉,特别是语言的感知能力。

从生理上讲,内耳耳蜗形似蜗牛壳,从尖端到底高约为5 mm,耳蜗绕蜗轴盘旋周。从耳蜗的截面看,耳蜗被前庭膜和基底膜分为三部分:前庭阶、蜗管和鼓阶。基底膜从蜗底到蜗顶逐渐变宽,且底部比顶部较硬,其上面的毛细胞与听神经纤维相连。1960年,G.Von,Bekesy用正弦信号对耳蜗的特性进行了研究,证明了从蜗底到蜗顶,不同部分感受的音频频率是不同的,蜗底感受的频率较高,而蜗顶则感受较低的频率。由此可见,耳蜗可以被简单地认为是一个空间的机械式频率分析器。

人工电子耳蜗是对耳蜗特性的一种模仿,依据耳蜗对语音的部位编码原理,将苦干个电极植入耳蜗的鼓阶内,体外的语音信号经处理器处理后产生相应电极的电刺激脉冲,直接兴奋耳蜗内不同部位电极附近的听神经,可以使全聋人感受到声音。依据以上分析,电子耳蜗系统的设计可以作如下简述。

2.2系统设计

人工电子耳蜗系统可以分为体外和体内两部分。体外部分主要进行语言信号的采集、处理和编码、发送,主要包括麦克风、语音处理器、编码发射器、发射线圈等。植入体内的部分为接收线圈、接收解码器、刺激器和电极阵列[6,7,11,12]。人工电子耳蜗的系统结构见图1。

图1人工电子耳蜗的系统结构图

Fig 1System structure of a cochlear implant

语音信号处理器将麦克风检测到的声音信号进行特征提取或滤波等处理,产生不同电极的电刺激信号,编码发射器将这些信号编码、调制为高频信号,通过发射线圈将信号以无线方式发送至体内。体内的接受线圈接受到信号后,接收解码器进行解调、解码后还原出刺激信号,然后控制一个刺激电流生成器,产生相应电极的电刺激信号,并通过植入鼓阶内的电极阵列兴奋听神经。

目前电子耳蜗产品主要有澳大利亚Nucleus公司的22导人工电子耳、美国Minimed公司的16通道装置、Ineraid、Clarion等公司的产品[1,16]以及奥地利的电子耳蜗等。

在这些产品中,语音信号的处理方法有较大的差别,各种装置都有特定的处理方法,获得了一定的效果,以下就语音信号的处理发展和几种新方案进行初步的分析和介绍。

3语音信号处理方案的研究进展

国外自60年代起开始进行人工电子耳蜗的实验性研究工作,从最初的单导已发展为目前的多导系统,相应的语音信号处理方法也从简单到目前采用数字信号处理器的复杂系统。

语音信号处理部分的功能是将语音信号转换为与耳蜗中的电极相对应的电刺激信号,音频处理的范围一般为100 Hz~4 KHz。电子耳蜗的语音处理方法与耳蜗如何将语音振动信号转变为电信号的生理机制有关,因为人工电子耳蜗是一种仿生系统。

人工电子耳蜗的语音信号处理方法大致可以划分为两大类,一类是基于特征提取,即提取语音信号的基频和共振峰等特征信息,然后产生相应的刺激信号;另一类是基于滤波器组的方法,即对语音信号进行分频段滤波处理,直接得到电极的刺激信号。

3.1基于特征提取的信号处理方案

语音信号的特征主要为基频(Fundamental Frequency)和共振峰(Formant)。共振峰反映语音信号频谱的峰值,一般取前3个峰值F1、F2和F3;基频反映音调的变化,即描述周期性的浊音的频率(F0)。初期的语音信号处理方案有F0/F2、F0/F1/F2、F0/F1/F2/F3等方法[6,9,10],F0决定电极电流脉冲的频率,F1、F2和F3的频点位置与电极的位置相对应,其幅度大小决定刺激脉冲的幅度。提取F0、F1、F2、F3等特征的方法主要有滤波法、自相关法、倒谱法和线性预测编码法(LPC)等,其中线性预测编码法应用较多[9]。F0的提取可采用简化逆滤波(SIFT)法等。

选择这些参数主要是因为它们有助于电子耳蜗植入者理解语言,而且比较符合电诱发听觉的某些特点。在此基础上,Cochlear公司发展了一种微型语音处理器(Mini Speech Processor,MSP),其中使用的语音信号处理方法是MPEAK(Multipeak),它是F0/F1/F2/F3方法的一种扩展,在每个刺激周期内激活四个电极,两个电极表示F1和F2,另外两个电极(靠近耳蜗底部)传送2KHz以上的高频信息。用MPEAK法实现的MSP比以前的特征信号提取法性能好,特别是在有噪音的场合[6]

3.2基于滤波器组的信号处理方案

随着电极数目的增加,基于滤波器组的人工电子耳蜗语音信号处理方案不断在发展,如最大谱峰声音处理法(Spectral Maxima Sound Processor,SMSP)、谱峰法(Spectral Peak,SPEAK)、压缩模拟(Compressed Analog,CA)方案和连续交替取样(Continuous Interleaved Sampling,CIS)方案等[2,3,4,6]

3.2.1SMSP法SMSP法语音处理的原理如图2所示。SMSP法是将声音信号通过一组带通滤波器分为16个频带,并进行整流和低通滤波检测出该频带内信号的谱的包络。对每一时刻,可以得到16个频带内的语音信号的包络,然后选取其中6个最大的作为对应电极的刺激信号[6,