噪声谱估计算法对语音可懂度的影响

资源描述

《噪声谱估计算法对语音可懂度的影响_张建伟.doc》由会员分享，可在线阅读，更多相关《噪声谱估计算法对语音可懂度的影响_张建伟.doc（7页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、第 34 卷第 5 期声学技术 V o l . 34, N o . 5 2015 年 10 月 Technical Acoustics Oct., 2015 噪声谱估计算法对语音可懂度的影响张建伟，陶亮，周健，王华彬 (安徽大学计算智能与信号处理教育部重点实验室，安徽合肥 230031) 摘要：噪声谱估计是单通道语音增强算法的关键步骤，当前大部分语音增强算法旨在提高语音质量，提高语音可懂度的算法却很少。在传统的单通道语音增强算法中，语音质量的提高往往是以牺牲语音的可懂度为代价的。对目前主流的几种噪声谱估计算法对语音可懂度影响进行分析。在不同噪声背景、不同信噪比情况下进行

2、噪声谱估计，并采用谱减法对含噪语音信号作去噪处理，对比分析不同噪声、不同信噪比下增强前后语音的短时客观可懂度 (Short-Time Objective Intelligibility, STOI)值，最后根据信噪比，对比分析了不同噪声环境下，语音增强前后语音能量高于噪声能量的时频块所占比例。实验表明，相比其他噪声估计算法，最小统计 (Minima Statistics, MS)算法由于保留了更多的以语音能量为主的时频块，使得去噪后的语音有较高的可懂度。关键词：噪声谱估计；谱减法；时频块；最小统计；短时客观可懂度；语音可懂度中图分类号： TP391 文献标识码： A 文章编号： 1

3、000-3630(2015)-05-0424-07 DOI 编码： 10.16300/ki.1000-3630.2015.05.009 Effects of noise spectrum estimation algorithms on speech intelligibility ZHANG Jian-wei, TAO Liang, ZHOU Jian, WANG Hua-bin (Key Laboratory of Intelligent Computing and Signal Processing of Ministry of Education, Anhui University,

4、Hefei 230031, Anhui, China) Abstract: Noise spectrum estimation is a key step in single channel speech enhancement algorithms. Most of current speech enhancement algorithms are designed to improve speech quality, however, algorithms for increasing speech in- telligibility are few. The traditional sp

5、eech enhancement algorithms improve speech quality, while sacrificing speech intelligibility. In this paper, classical noise spectrum estimation algorithms are evaluated for their effects on speech in- telligibility. Noise spectrum is estimated in different noise environments with SNRs between 9 dB

6、and 3 dB. The spectral subtraction is thereafter used for speech denoising. The STOI(Short-Time Objective Intelligibility) value of the enhanced speech is computed. At last, according to the signal-to-noise ratio, the proportions of speech dominated time-frequency blocks under different noise enviro

7、nments are analyzed. Experimental results show that, compared with other noise estimation algorithms, the minimum statistics (MS) obtains high speech intelligibility because it retains more speech dominated time-frequency blocks after speech denoising. Key words: noise spectrum estimation; spectrum

8、subtraction; time-frequency blocks; Minima Statistics(MS); Short-Time Objective Intelligibility(STOI); speech intelligibility 0 引言语音增强算法在提高语音质量方面已经取得了很大的进展 1-3，相反，提高语音可懂度的算法却很少。 Lim 首次发现，在 55 dB 的白噪声背景下，谱减法并未提高语音的可懂度 4。 Hu 和 Loizou 也对语音可懂度作了研究，他们采用了 8 种不同的算法，对语音增强前和增强后的可懂度进行比较，结收稿日期 :

9、 2014-12-15; 修回日期 : 2015-03-29 基金项目 : 国家自然科学基金 (61301219、 61003131)、安徽省自然科学基金 (1408085MF113)资助项目。作者简介 : 张建伟 (1989 ), 女 , 山东莘县人 , 硕士研究生 , 研究方向为语音增强。果发现，所有算法增强后的可懂度均小于增强前的可懂度 5。研究者发现，在传统的语音增强算法中，语音质量的提高往往是以牺牲语音的可懂度为代价的 6。研究者们提出了很多相关的噪声谱估计算法，而且取得了一定的效果 7-11。 Hirsch12提出了一种不需要进行语音端点检测的噪声谱估

10、计方法，需要比较当前窗的功率谱和前一窗的估计噪声谱，使用一阶递归平均来更新噪声谱估计，该方法可以快速地适应变化缓慢的噪声。 Martin13提出了一种基于最小统计 (Minima Statistics, MS)的噪声谱估计方法，即在一个有限窗口内跟踪平滑含噪语音谱的最小值，然后对其按帧平滑，并乘以一个偏置补偿因子， 14 通讯作者 : 张建伟 , E-mail: 即可获得噪声谱估计。 Cohen 和 Berdugo 提出了 i i i i i i i i i opt 第 5 期张建伟等：噪声谱估计算法对语音可懂度的影响 425 一种最小受控递归平均算法 (Min

11、ima Controlled Recursive Averaging, MCRA)，该方法根据含噪语音的局部能量值与其待定时间窗内的最小值的比值确定子带中是否存在语音，如果给定帧的某个子带 1.2.1 Hirsch 算法 Hirsch 提出计算所有频域子带 i 的含噪语音幅度谱 Xi 的权重和，然后按照式 (2)对噪声估计进行一阶递归：中存在语音，那么该子带内的噪声谱等于上一帧的 N (k) (1)*X (k)*N (k 1) (2) 噪声谱，如果不存在，则根据含噪语音的功率谱更新噪声谱。 Cohen 在 2003 年提出了改进的最小控制递归平均方法 (Improved Min

12、ima Controlled Re- 其中： 0.85 表示平滑常数， Xi (k) 表示第 i 个子带的第 k 个频带的含噪语音幅度谱， N (k) 表示第 i 个子带的第 k 个频带的噪声估计， Xi 值在纯噪声段 cursive Averaging, IMCRA)，主要从三个方面进行了改进，即语音活跃期的最小值跟踪、语音存在概率估计、提出偏置补偿因子 15。 Sorensen 等人在 2005 满足瑞利分布。最后，噪声估计 N 乘以一个过估计补偿因子，取值范围是 1.5 至 2.5。当 (X N ) 为正值时，表示语音出现，停止递归；当 (X N

13、 ) 为年提出了一种基于连接语音时频域 (Connected Time-Frequency Speech Presence Regions, Conn_freq)16的噪声谱估计算法，该方法可连接时频域的语音缺失段，将缩小的背景噪声留在增强后的语音中，利用人的听觉系统中的掩蔽机制，减少对语音段中噪声的感知，消除语音缺失段的噪声。有研究者在噪声谱估计算法的基础上，提出了很多改进算法，在语音质量和可懂度方面有了一定程度的改善 17-20。虽然这些噪声谱估计方法得到广泛应用，但是其对于增强后语音可懂度的影响则至今未见相关报道。为此，本文讨论上述 5 种不同的噪声谱估计

14、算法对语音可懂度的影响。为尽可能排除增强过程中其他因素对可懂度的影响，增强算法采用经典的谱减法。论文首先回顾 5 种噪声谱估计方法，并将其应用于正常音的噪声谱估计。为了评价这 5 种算法对语音可懂度的影响，计算经增强后的语音可懂度，对增强前后的语音时频谱中的语音负值时，将其置零。该算法不需要进行语音端点检测，而且可以快速适应变化缓慢的噪声，语音存在段和语音缺失段都采用公式 (2)更新噪声谱，可以结合谱减法对语音作增强处理。 1.2.2 MS 算法最小值统计的方法依赖于两点，即 (1) 语音信号和噪声从统计意义上讲是独立的； (2) 含噪语音的功率会衰减至噪声

15、的功率水平。由于最小值总是小于平均值，因此最小值跟踪方法需要偏差补偿。为了能更快地跟踪并更新局部最小值和频谱最小值，作者把滑动窗口分为多个子窗口，在每个子窗口内更新估计噪声谱，提高了精确度 21。 MS 算法一阶平滑估计噪声谱的规则可用式 (3) 表示： N (, k) (, k)N (1, k)能量为主的时频块的保留情况进行分析，以探讨不 (1 opt (, k) Y (, k) 2 (3) 同噪声谱估计方法对可懂度影响的原因。 1 噪声谱估计及算法 1.1 信号模型设 y 表示时域含噪信号， x 表示干净语音信号， d 表示非相关加性噪声。对含噪信号作短时傅里叶变换

16、(Short-time Fourier Transform, STFT)， Y(k, l)、 X(k, l)、 D(k, l)分别是 y、 x、 d 的变换系数，我们得到时频域信号其中： N (, k) 表示第个搜索窗的第 k 个频带的估计噪声功率谱， Y (, k) 表示第个搜索窗的第 k 个频带的含噪语音谱，即含噪语音的频域表达式， opt (, k) 是时频独立的平滑参数，基于最小误差准则得到。搜索窗长 D 取 150，子窗数 U 为 10，子窗长 V 为 15，实验采用来自文献 21的算法，其他有关参数，默认为文献 21给定的数据。本算法无论是在语音存在段还是

17、语音缺失段，噪声功率谱估计均跟踪平滑含噪语音谱的最小值，不采用阈值区分语音活动和语音端点，可以结合任 Y (k, l)X (k, l)D(k, l) 式 (1)中： k 表示频带号； l 表示时帧号。 1.2 噪声谱估计算法 (1) 意需要噪声谱估计的语音增强算法。 1.2.3 MCRA 算法 MCRA 算法使用一个平滑参数对功率谱的过单通道语音增强算法都需要从含噪语音中估计噪声谱和先验信噪比，后者也建立在噪声谱估计基础上。去值取平均，其中平滑参数是通过子带中语音存在的概率来调整的。首先对输入的每一帧信号进行频域平滑： 1 K K Y 426 声学技术 2015 年 S

18、f (k, l) w iw b(i) Y (k i, l) 2 (4) 度； pmin (, k) 表示平滑功率谱最小值；和都是常数； PY (, k) 表示含噪语音功率谱； Rmin () 表其中： b(i) 表示加权系数， Y (k i, l) 表示含噪语音在时频域作短时傅里叶变换的幅度值，窗函数的长度是 2w1。其次，采用一阶递归进行时域平滑：示补偿因子，语音缺失段进行更新，语音存在段固定不变，至于补偿因子如何更新，这里不再陈述。搜索窗长 D 取 7，子窗数 U 为 5，子窗长 V 为 8，其他有关参数，默认为文献 16给定的数据。 S(k, l) s S(k

19、, l 1)(1s )S f (k, l) (5) 该方法在连接时频域的语音缺失段，将缩小的其中： s 0.8 表示平滑参数， S(k, l 1) 表示前一帧含噪语音的功率谱。同时跟踪含噪语音功率谱的局部最小值，估计语音存在概率，最后根据式 (6)、 (7)中规则更新噪声谱：背景噪声留在增强后的语音中，利用人的听觉系统中的掩蔽机制，减少对语音段中噪声的感知，消除语音缺失段的噪声。 1.2.6 不同算法噪声谱对比图 1(a)和图 1(b)分别显示了 MS、 MCRA、 H (k, l):N (k, l 1) N (k, l)(1) Y (k, l) 2(6) 0 d d H

20、 (k, l):N (k, l 1) N (k, l) (7) IMCRA、 Hirsch 四种算法在白噪声背景下，在信噪比分别为 9 dB 和 5 dB 情况下的噪声谱估计，选取其中： d 表示平滑参数；基于语音存在概率； H0表示假设语音缺失段； H1表示假设语音存在段； N (k, l) 表示第 l 个搜索窗的的第 k 个频带。 1.2.4 .4 IMCRA 算法该算法是对 MCRA 算法的改进，噪声谱的更新规则不变。该算法包含两次迭代：平滑和最小值跟踪。第一次迭代是在每个频域子带内进行粗略的语音活动检测，第二次迭代是对语音缺失段的功率

21、谱进行平滑，相对强语音信号部分并不进行平滑，使得语音活跃段的最小值跟踪具有鲁棒性。搜索窗长 D 取 120，子窗数 U 为 8，子窗长 V 为 15，其他有关参数，默认为文献 15给定的数据。与 MS 算法不同的是，该算法考虑到连续窗口的相邻频域子带之间语音存在的强相关性，分别在时域和频域对含噪语音功率谱进行平滑处理。 1.2.5 连接语音时频域 (Conn_freq)算法 Conn_freq 算法基于短时平滑功率谱和最小值跟踪，定义了两个语音存在检测规则，表示为第 20 帧作为观测。图 2 显示了 Conn_freq 算法在白噪声背景下，在信噪比为 9

22、dB 和 5 dB 情况下的噪声谱估计。从图 2 中可以看出， Conn_freq 算法估计的噪声谱更接近真实噪声谱变化。为了更好地观察对比这 5 种算法的真实噪声谱和估计噪声谱，我们将 Conn_freq 算法的噪声谱估计图单独列出。 D(, k) 1 0 p(,k)pmin (,k) p(,k)pmin p(, k)pmin (,k)+1 k0 K 1 (,k)+1 k 0 pmin pmin (, k) (, k) (9) 最终的语音存在检测估计为 D(, k) D(, k)D(, k) 。噪声功率谱估计为 P (, k) Rmin () pmin (, k), if D(,k

23、)=1 N P (, k), if D(,k)=0 (10) 图 1 不同算法在白噪声背景下的谱估计 Fig.1 Spectrum estimations of different algorithms in the white noise 其中：表示帧号； k 表示频带； K 表示频谱的长 environment of different SNRs 第 5 期张建伟等：噪声谱估计算法对语音可懂度的影响 427 图 2 Conn_freq 算法在白噪声背景下的谱估计人群嘈杂噪声等。干净语音数据和噪声数据均为 16 kHz 采样率，混合产生信噪比在 93 dB 范围内的带噪语音。

24、语音处理中，语音分帧帧长取 320 样点，帧间重叠 50%，数据加窗采用汉明窗， FFT 分析点数取 640 点。实验方法是将估计后的噪声谱用于谱减法 24对语音作增强处理，然后从不同的角度评价增强后语音的可懂度。谱减法是在频域将带噪语音的功率谱减去噪声的功率谱，从而得到纯净语音功率谱估计，开方后就得到语音幅度谱估计，用带噪语音的相位来近似纯净语音的相位，再采用逆傅里叶变换恢复时域信号 25。谱减法的原理图如图 3 所示。图 3 谱减法原理图 Fig.3 Principle diagram of the spectral subtraction method 算法

25、性能评价采用可懂度衡量指标 STOI 26 Fig.2 Spectrum estimations of Conn_freq algorithm in the white noise (Short-Time Objective Intelligibility, STOI) ，将其 environment of different SNRs 从图 1(a)中可以看出，在低信噪比 9 dB 的情况下， MS 算法的噪声谱估计最低， Hirsch 算法次之， IMCRA 算法和 MCRA 算法的噪声谱估计相似，只是在某些频点处， IMCRA 算法的噪声谱估计要高于 MCRA 算法。

26、MCRA 算法和 IMCRA 算法的噪声谱估计高于 Hirsch 算法，这是因为前两种算法在语音存在段不进行噪声谱更新，而是保持前一帧的噪声谱不变， Hirsch 算法仍然采用一阶递归更新噪声谱估计。从图 1(b)中可以看出，在信噪比为 5 dB 的情况下， MS 算法的噪声谱估计还是最低， Hirsch 算法次之， MCRA 算法的噪声谱估计最高，而且超越了真实噪声谱。从图 2 中可以看出， Conn_freq 算法在信噪比分别为 9 dB 和 5 dB 时的噪声谱估计变化接近真实噪声谱，但是稍高于真实噪声谱，并未超越含噪语音谱。 2 实验仿真实验采用来自中文语言

27、资源联盟 22 语音数据库的干净语音共 50 句，是汉语连续音节构成的语句，每个语句有 6 个左右音节，其中男女语音各半。噪音数据采用 Noisex92 数据库 23的三类噪声信号： White 高斯白噪声、 F16 飞机驾驶舱噪声和 Babble 用于衡量语音增强算法的可懂度性能，在 STOI 算法中，同时输入干净的语音 x(n)和经过增强算法重建的干净语音估计 y(n)， STOI 算法会给出一个 (0, 1) 范围内的值， STOI 值越大，表示处理后的语音的可懂度越高。图 4 显示了信噪比分别为 9、 6、 3、 0、 3 dB 时，在 White、 F

28、16 和 Babble 三种噪声背景下，语音增强前后的 STOI 值。图 4 显示了不同噪声、不同信噪比环境下不同算法的 STOI 值对比，从图 4(a)可以看出，在 White 噪声背景下， MS 算法处理后的语音可懂度最高，但是在信噪比为 9、 6 dB 时仍然低于增强前的语音可懂度，也就是说，经去噪处理后，含噪语音的可懂度并未得到提高。从图 4(b)中可以看出，在 F16 噪声背景下， Conn_freq 算法处理后的语音可懂度最低，在信噪比为 3、 0、 3 dB 时，其他四种算法处理后的语音可懂度均得到了提高，在信噪比为 9、 6 dB 时，

29、MS 算法处理后的语音可懂度最高，但是 9 dB 时小于增强前的语音可懂度。从图 4(c) 中可以看出，在 Babble 噪声背景下，经 Conn_freq 算法处理后的语音可懂度仍是最低， MS 算法处理后的语音可懂度最高， Hirsch 算法次之，然后依次是 IMCRA 算法、 MCRA 算法。在主观听辨实验中，挑选三名听力正常测试者对增强前后的语音分别进行词语听辨测试。分别在 2 pre 428 声学技术 2015 年率。从表 1 中可以看出，在 white 5 dB 噪声背景下， Hirsch 算法的词语识别率高于其他算法，其他情况下，采用 MS 算法增强后的语音

30、在听辨实验中词语的平均识别率均较其他四种算法要高。由以上分析可以得出，在 white 噪声背景下，在信噪比分别为 3、 0、 3 dB 时， MS 算法处理后的语音可懂度高于其他四种噪声谱估计算法和含噪语音的可懂度，而由图 1 的噪声谱估计曲线可以看出， MS 算法的噪声谱估计偏低于其他四种噪声谱估计算法。为了进一步分析五种噪声估计算法对语音可懂度的影响，下面采用语音信号增强前后的信噪比进行实验。定义语音信号增强前的信噪比 SNRpre 和增强后的信噪比 SNRpost，见下式： X 2 (k) SNRpre 10 lg( D2 (k) X 2 (k) SNRpost

31、 10 lg( ) D (k) (11) (12) 图 4 不同噪声不同信噪比环境下不同算法的 STOI 对比 Fig.4 STOIs of different algorithms versus SNRs in different noise environments 5、 0 和 5 dB 信噪比的高斯白噪声、 F16 飞机噪声和 Babble 噪声背景下进行听辨实验。表 1 列出了不同算法增强后语音听辨实验中的平均词语识别其中： X (k) 表示干净语音幅度谱； D(k) 表示噪声幅度谱； X (k) 表示去噪后的语音幅度谱； D (k) 表示估计的噪声幅度谱。如果 X 2

32、 k / D2 k 1 ，则 SNRpre 0 ，表示语音信号的能量高于或等于噪声信号的能量；如果 X 2 k / D2 k 1 ，则 SNR 0 ，表示语音信号的能量低于噪声信号的能量。文献 6提出，当掩蔽信号过高于目标信号时，会降低目标信号的可懂度。 Wang Deliang 提出的 IBM(Ideal Binary Mask)27实验表明，在英语含噪语音中，语音能量为主的时频块对语音可懂度的感知起关键作用，文献 28在汉语中进行了 IBM 实验，结果表明在中文含噪语音中，语音能量为主的时频块对语音可懂度感知也起重要作用。时频块是一帧信号 FFT 后某个频率点幅

33、度谱。表 2 列出了 SNRpre 0 的时频块经不同算法增强后的其信噪比仍然大于等于 0 的比例，表 3 列出噪声 SNR/dB 表 1 不同算法增强后的语音的词语识别率 Table 1 The world recognition rate by different algorithms 词语识别率 /% MS MCRA IMCRA Hirsch Conn_freq White Babble F16 5 99.27 97.13 99.00 98.13 97.00 0 99.33 97.80 98.93 98.53 97.53 5 93.67 86.93 91.00 96.13 93.0

34、7 5 99.53 98.37 98.67 99.00 94.00 0 98.27 97.87 97.20 97.20 89.40 5 97.20 93.73 95.87 96.67 75.47 5 99.40 98.53 98.20 99.37 97.53 0 97.60 95.93 95.33 95.73 94.53 5 93.53 82.07 87.60 85.87 81.87 5 MS MCRA IMCRA Hirsch Conn_freq 0.5321 0.3770 0.3987 0.4575 0.4385 White 0 0.5278 0.3720 0.3803 0.4564 0.

35、4242 5 0.4975 0.3410 0.3411 0.4271 0.3717 5 0.3562 0.2614 0.3105 0.3361 0.1712 Babble 0 0.3498 0.2524 0.2950 0.3235 0.1206 5 0.3382 0.2365 0.2726 0.3032 0.0754 5 0.3844 0.2348 0.2445 0.3009 0.2941 F16 0 0.3684 0.2070 0.2129 0.2769 0.2524 5 0.3300 0.1670 0.1709 0.2390 0.1911 SNR/dB MS MCRA IMCRA Hirs

36、ch Conn_freq 5 0.1911 0.0495 0.0648 0.0909 0.0348 White 0 0.2282 0.0685 0.0900 0.1260 0.0427 5 0.2546 0.0848 0.1104 0.1550 0.0472 5 0.2117 0.1025 0.1213 0.1518 0.0873 Babble 0 0.2514 0.1239 0.1435 0.1809 0.1000 5 0.2857 0.1411 0.1612 0.2052 0.1073 5 0.1034 0.0142 0.0214 0.0327 0.0161 F16 0 0.1405 0.

37、0237 0.0337 0.0511 0.0193 5 0.1728 0.0354 0.0472 0.0711 0.0211 第 5 期张建伟等：噪声谱估计算法对语音可懂度的影响 429 表 2 SNRpre0 dB 的时频块经不同算法增强后的其信噪比仍然大于等于 0 的比例 Table 2 The proportions of SNR0 dB in the time-frequency blocks of SNRpre0 dB after being enhanced by different algorithms 信噪比大于等于 0 的比例 /% 噪声 SNR/dB 表 3 SNRpre

38、0 dB 的时频块经不同算法增强后的其信噪比大于等于 0 的比例 Table 3 The proportions of SNR 0 dB in the time-frequency blocks of SNRpre0 dB after being enhanced by different algorithms 信噪比大于等于 0 的比例 /% 噪声了 SNRpre 0 的时频块经不同算法增强后的其信噪比大于等于 0 的比例。从表 2 和表 3 可以看出，不论 SNRpre 0 ，还是 SNRpre 0 ，在三种噪声背景下，采用 MS 算法增强后的大于等于 0 的时频块的比例在 55

39、dB 范围内最大，这表明采用 MS 算法增强后，语音的能量大于等于噪声的能量的时频块最多，这部分语音信息没有被噪声掩盖，因此采用 MS 算法对语音作去噪处理，可以获得较高的可懂度。从表 2 中还可以看出，随着信噪比值的增大，采用同一种算法增强后的仍然大于等于 0 的时频块的比例也随之增多。从表 3 中可以看出，随着信噪比值的增大，采用同一种算法增强后的信噪比大于等于 0 的比例随之减少。 3 结论本文分析了 Hirsch、 MS、 MCRA、 IMCRA 和 Conn_freq 等五种噪声谱估计算法对增强后语音可懂度的影响。详细分析了在白噪声背景下，五种算法在信噪比为

40、9 dB 和 5 dB 条件下的噪声谱估计，分析发现 MS 算法估计的噪声谱相比其他算法偏低。为评价算法对语音可懂度的影响，选用谱减法对含噪语音作增强处理，并对不同噪声、不同信噪比下语音增强前后的 STOI 值进行了对比，发现经 MS 算法处理后的语音可懂度高于其他算法。然后分析了增强前语音能量为主的时频块经不同算法增强后的其信噪比仍然大于等于 0 的比例和增强前噪声能量为主的时频块经不同算法增强后的其信噪比大于等于 0 的比例，通过对比发现，经 MS 算法处理后的语音中，语音的能量大于噪声的能量的时频块最多，这可能是 MS 算法相比其他噪声谱估计方法具有更高语音可懂度

41、的原因。参考文献 1 Yuan W, Lin J, An W, et al. Noise estimation based on time-frequency correlation for speech enhancementJ. Applied Acoustics, 2013, 74(5): 770-781. 2 Lu Ching-Ta. Noise reduction using three-step gain factor and iterative-directional-median filterJ. Applied Acoustics, 2014, 76(1): 249-

42、261. 3 Ming Ji. Crookes, Danny. An iterative longest matching segment approach to speech enhancement with additive noise and channel distortionJ. Computer Speech and Language, 2014, 28(6): 1269-1286. 4 Lim J. Evaluation of a correlation subtraction method for enhanc- ing speech degraded by additive

43、noiseJ. IEEE Transactions on Acoustics, Speech and Sinal Processing, 1978, 37(6): 471-472. 5 Hu Y, Loizou P. A comparative intelligibility study of sin- 430 声学技术 2015 年 gle-microphone noise reduction algorithmsJ. J. Acoust. Soc. Am., 2007, 122(3): 1777-1786. 6 Loizou P, Kim G. Reasons why current

44、 speech-enhancement algo- rithms do not improve speech intelligibility and suggested solu- tionsJ. IEEE Transactions on Audio, Speech, and Language Processing, 2011, 19(1): 47-56. 7 McAulay R, Malpass M. Speech enhancement using a soft-decision noise suppression filterJ. IEEE Transactions on Acousti

45、cs, Speech and Signal Processing, 1980, 28(2): 137-145. 8 McKinley B, Whipple G. Model based speech pause detectionC/ Acoustics, Speech, and Signal Processing, 1997. ICASSP-97., 1997 IEEE International Conference on. 1997, 2: 1179-1182. 9 Meyer J, Simmer K, Kammeyer K. Comparison of one and two-chan

46、nel noise-estimation techniquesC/ Proc. 5th Interna- tional Workshop on Acoustics Echo and Noise Control, IEAENC-97. 1997, 137-145. 10 Sohn J, Kim N, Sung W. A statistical model-based voice activity detectionJ. Signal Processing Letters, IEEE, 1999, 6(1): 1-3. 11 Ris C, Dupont S. Assessing local noise level estimation methods: Application to noise robust ASRJ. Speech Communication, 2001, 34(1): 141-158. 12 Hirsch H, Ehrlicher C. Noise estimation techniques for robust speech recognitionC/ Acoustics, Speech, and

展开阅读全文