数字声音及MIDI简介剖析.ppt-得力文库

资源描述

《数字声音及MIDI简介剖析.ppt》由会员分享，可在线阅读，更多相关《数字声音及MIDI简介剖析.ppt（37页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、MMTMMTYANGZHOUDAXUEYANGZHOUDAXUE物理科学与技术学院物理科学与技术学院第二讲第二讲数数字声音及字声音及MIDI简介声音是携带信息的极其重要的媒体声音是携带信息的极其重要的媒体(20%)(20%)，是多媒体技术，是多媒体技术研究中的一个重要内容。声音的种类繁多，如人的话音、乐器研究中的一个重要内容。声音的种类繁多，如人的话音、乐器声、动物发出的声音、机器产生的声音以及自然界的声音等。声、动物发出的声音、机器产生的声音以及自然界的声音等。这些声音有许多共同的特性，也有它们各自的特性。在用这些声音有许多共同的特性，也有它们各自的特性。在用计算机处理这些声音时，既要考

2、虑它们的共性，又要利用它们计算机处理这些声音时，既要考虑它们的共性，又要利用它们的各自的特性。的各自的特性。我们将研究声音的基础知识，掌握声音数字化的两个最基我们将研究声音的基础知识，掌握声音数字化的两个最基本的概念；了解基本的音频信号编码技术。本的概念；了解基本的音频信号编码技术。第第1 1节节声音声音声音是通过空气传播的一种连续的波，叫声波。反射(reflection)、折射(refraction)和衍射(diffraction)声音信号是由许多频率不同的分量信号组成的复合信号。复合信号的频率范围称为带宽。声音的本质声音的本质声音的本质声音的本质带宽为20Hz20kHz的信号称为音频

3、（audio）信号，可以被人的耳朵感知。话音信号带宽在80Hz3400Hz。频率决定音调。响度（音量）表示的是声音能量的强弱程度，主要取决于声波振幅的大小。用声压(达因平方厘米，牛顿平方米)或声强(瓦特平方厘米)来计量。声压的单位为帕(Pa)。人耳对lkHz、10-16W/cm2的纯音刚能听到。声强级表示响度的相对量，它定义为某响度与10-16W/cm2比值的对数值乘以10，单位为dB。正常人听觉的强度范围为0dB120dB。声音与听觉声音与听觉声音与听觉声音与听觉乐音乐音乐音乐音n n以小提琴为例，当它的以小提琴为例，当它的A A弦振动时，并不仅仅是整根弦在振弦振动时，并不仅仅是整根弦在振动

4、，这根弦的二分之一、三分之一、四分之一、五分之一动，这根弦的二分之一、三分之一、四分之一、五分之一处都在振动着。于是，整根弦的振动产生了最主要的处都在振动着。于是，整根弦的振动产生了最主要的频率，我们称之为频率，我们称之为基音基音基音基音，而弦长的二分之一、三分之一、，而弦长的二分之一、三分之一、四分之一等处的振动则产生了一些次要的频率，我们称之四分之一等处的振动则产生了一些次要的频率，我们称之为为泛音泛音泛音泛音。n n如果一个物体振动所发出的泛音为基音的整数倍，这个音如果一个物体振动所发出的泛音为基音的整数倍，这个音就会具有清晰可辨的音高，我们称之为乐音，如钢琴，小就会具有清晰可辨的音高，

5、我们称之为乐音，如钢琴，小提琴等发出的都是提琴等发出的都是乐音乐音乐音乐音；如果泛音是基音的非整数倍，这；如果泛音是基音的非整数倍，这个音就不具备清晰可辨的音高，我们称之为个音就不具备清晰可辨的音高，我们称之为噪音噪音噪音噪音，如汽车，如汽车发动机、计算机风扇等发出的都是噪音。发动机、计算机风扇等发出的都是噪音。基音和混入基音的泛音决定音色。声音的三要素声音的三要素声音的三要素声音的三要素n n音调、音强、音色音调、音强、音色为声音的为声音的三要素三要素。n n音强（响度）取决于声音的幅度。音强（响度）取决于声音的幅度。n n音调取决于声音的频率。音调取决于声音的频率。n n音色是由混入基音的

6、泛音所决定的。音色是由混入基音的泛音所决定的。声音的听觉特性声音的听觉特性声音的听觉特性声音的听觉特性n n声音的方向性声音的方向性n n人的耳朵对声音强度和频率的反应成人的耳朵对声音强度和频率的反应成对数形式对数形式对数形式对数形式n n声音的声音的掩蔽特性掩蔽特性（时域掩蔽、频域掩蔽（时域掩蔽、频域掩蔽）声音质量的度量声音质量的度量声音质量的度量声音质量的度量n n声音的质量与声音的带宽有关，一般来说频率范围越宽，声音的质量与声音的带宽有关，一般来说频率范围越宽，声音质量也就越高。声音质量也就越高。声音类型声音类型带带宽宽电话语音电话语音200200HzHz3.4kHz3.4kHz调幅广

7、播调幅广播(AM)(AM)5050HzHz7kHz7kHz调频广播调频广播(FM)(FM)2020HzHz15kHz15kHzCDCD10Hz10Hz20kHz20kHz信噪比（SNR）度量指试听者要把语音编码器的输出按质量分为：优（指试听者要把语音编码器的输出按质量分为：优（5 5分）、良分）、良（4 4分）、中（分）、中（3 3分）、差（分）、差（2 2分）、劣（分）、劣（1 1分）分）或分类为：察觉不到（或分类为：察觉不到（5 5分），稍稍察觉到但无不适感（分），稍稍察觉到但无不适感（4 4分），分），能察觉且有不适感（能察觉且有不适感（3 3分），有不适感但还能忍受（分），有不适感但还

8、能忍受（2 2分），很不分），很不适且无法忍受（适且无法忍受（1 1分）分）主观平均判分法（MOS，Mean Opinion ScoreMean Opinion Score）第2节声音信号数字化n n声音信号是典型的连续信号，不仅在时间上是连续的，声音信号是典型的连续信号，不仅在时间上是连续的，而且在幅度上也是连续的。而且在幅度上也是连续的。n n声音进入计算机的第一步就是数字化，数字化过程中最声音进入计算机的第一步就是数字化，数字化过程中最重要的步骤就是重要的步骤就是采样采样采样采样和和量化量化量化量化。n n采样（采样（采样（采样（samplingsampling）：将声音信号在时间上离

9、散将声音信号在时间上离散化，即每隔相等的一段时间抽取一个信号样本。化，即每隔相等的一段时间抽取一个信号样本。n n量化（量化（量化（量化（quantizationquantization）：）：）：）：将连续的信号幅度离散将连续的信号幅度离散化。如果幅度的划分是等间隔的，称为线性量化。如果幅度的划分是等间隔的，称为线性量化，否则为非线性量化。一般紧跟编码过程。化，否则为非线性量化。一般紧跟编码过程。电压范围电压范围量化步长量化步长量化结果量化结果编码编码逆量化结果逆量化结果 5 7 2 3 011 6 3 5 2 2 010 4 1 3 2 1 001 2 -1 1 2 0 000 0

10、-3-1 2 -1 111 -2-5-3 2 -2 110 -4-7-5 2 -3 101 -6-9-7 2 -4 100 -8多媒体数据的量化一般通过除以量化步长量化为整数。多媒体数据的量化一般通过除以量化步长量化为整数。逆量化就是乘以量化步长。逆量化就是乘以量化步长。量化步长越长，压缩字节越多，但是误差越大。量化步长越长，压缩字节越多，但是误差越大。量化步长越短，压缩字节越少，但是误差越小。量化步长越短，压缩字节越少，但是误差越小。量化除了有使幅度离散的作用外，同时：量化除了有使幅度离散的作用外，同时：（1 1）压缩字节）压缩字节（2 2）产生量化误差（）产生量化误差（量化误差量化误差：逆

11、量化的结果和原始：逆量化的结果和原始信号幅值之差，也称为信号幅值之差，也称为量化噪声量化噪声。）n n采样频率采样频率奈奎斯特理论指出：奈奎斯特理论指出：采样频率不应低于声音信号采样频率不应低于声音信号最高频率的两倍最高频率的两倍，这样就能把以数字表达的声音，这样就能把以数字表达的声音还原成原来的声音，称为无损数字化。还原成原来的声音，称为无损数字化。f fs s =2f 2fmaxmax 例如例如话音信号话音信号最高频率约为最高频率约为3.43.4kHzkHz，所以采样频所以采样频率取为率取为8 8kHzkHz。n n采样精度采样精度每个声音样本的数字化位数。反映声音波形幅度的采样精度。

12、也直接决定数据率的大小。质量质量采样频率采样频率（kHzkHz）样本精度样本精度（bitbit）单道声单道声/立体声立体声数据率数据率（kb/skb/s）电话电话8 88 8单道声单道声6464AMAM11.02511.0258 8单道声单道声8888.2.2FMFM22.05022.0501616立体声立体声705.6705.6CDCD44.144.11616立体声立体声1411.21411.2人机通信，计算机接收音频信号。获取、语音识别与理解。人机通信，计算机接收音频信号。获取、语音识别与理解。机人通信，计算机输出音频。音频合成；声音重构、模拟。机人通信，计算机输出音频。音频合成；声音重构

13、、模拟。产生真实感声音。产生真实感声音。人机人通信，人通过网络进行语音通信，需要的处理包人机人通信，人通过网络进行语音通信，需要的处理包括：语音采集、括：语音采集、编码解码编码解码、传输、检索，识别。、传输、检索，识别。音频信号处理的内容第3节音频处理技术关于音频信号的几个问题n n奈奎斯特（奈奎斯特（Nyquist）理论与混迭效应）理论与混迭效应n n量化量化n n信号的时域与频率特征信号的时域与频率特征n n人耳对音频信号的理解人耳对音频信号的理解n n信号的表示和编码信号的表示和编码n n信号的重构信号的重构音频信号处理的流程原始声音信号声电信号转换低通滤波模拟数字转换数字信

14、号处理传输存储声音合成功率放大数字模拟转换电声信号转换音频信号处理的重要硬件就是音频卡。音频卡结构音频卡结构第4节 WAVE音效和MIDI音乐n nWaveWave音效合成与音效合成与MIDIMIDI音乐合成是声卡最主要的功音乐合成是声卡最主要的功能。能。n nWAVEWAVE音效合成是由声卡的音效合成是由声卡的ADAD模数转换器和模数转换器和DADA数数模转换器来完成的。模拟音频信号经模转换器来完成的。模拟音频信号经ADAD转换后为转换后为数字音频后，以文件形式将数据直接存放在磁盘数字音频后，以文件形式将数据直接存放在磁盘等介质上，成为声音文件。这类文件我们称之为等介质上，成

15、为声音文件。这类文件我们称之为wave formwave form文件，通常以文件，通常以.wavwav为扩展名，因此也称为扩展名，因此也称为为wavwav文件。文件。n n缺点：缺点：wavwav文件需要占用很大的贮存空间。文件需要占用很大的贮存空间。n n为了节省存贮空间，人们使用各种算法对为了节省存贮空间，人们使用各种算法对wavwav文件进文件进行压缩，时下极为流行的行压缩，时下极为流行的MP3MP3就是一种高压缩比低失就是一种高压缩比低失真的压缩算法。真的压缩算法。WAVEWAVEWAVEWAVE文件格式文件格式文件格式文件格式偏移地址字节数数据类型内容文件头42字节00H4cha

16、rRIFF标志04H4longint文件长度-8字节08H4charWAVE标志0CH4charfmt标志10H4过渡字节（不定）14H2int格式类别（01H为PCM形式的声音数据)16H2int通道数，单声道为1，双声道为218H2int采样率（每秒样本数），表示每个通道的播放速度，1CH4longint波形音频数据传送速率，其值为通道数每秒数据位数每样本的数据位数8。播放软件利用此值可以估计缓冲区的大小。20H2int数据块的调整数（按字节算的），其值为通道数每样本的数据位值8。播放软件需要一次处理多个该值大小的字节数据，以便将其值用于缓冲区的调整。22H2每样本的数据位数，表示每个声道

17、中各个样本的数据位数。如果有多个声道，对每个声道而言，样本大小都一样。24H4char数据标记符data28H4longint语音数据的长度8位单声道0声道 0声道0声道 0声道8位立体声0（左）声道1（右）声道0（左）声道1（右）声道16位单声道0声道低字节0声道高字节0声道低字节0声道高字节16位立体声0声道低字节0声道高字节1声道低字节1声道高字节PCM数据（WAV文件音频数据）的存放方式 PCM波形样本的数据格式样本大小数据格式最大值最小值8位PCMunsignedint255016位PCMint32767-32767（MIDI）Musical instrument digital

18、interfacen nMIDIMIDI，即乐器数字化接口，是一种用于计算机与电子乐，即乐器数字化接口，是一种用于计算机与电子乐器之间进行数据交换的器之间进行数据交换的通信标准通信标准。MIDIMIDI文件（以文件（以.midmid为为文件扩展名）记录了用于合成文件扩展名）记录了用于合成MIDIMIDI音乐的各种控制指令，音乐的各种控制指令，包括发声乐器、所用通道、音量大小等。由于包括发声乐器、所用通道、音量大小等。由于MIDIMIDI文件文件本身不包含任何数字音频信号，因而所占的贮存空间比本身不包含任何数字音频信号，因而所占的贮存空间比wavwav文件要小得多。文件要小得多。n n从从808

19、0年代初问世至今，年代初问世至今，MIDIMIDI经历了长时间的发展，现已经历了长时间的发展，现已成为电脑音乐的代名词。成为电脑音乐的代名词。n nMIDIMIDI的发展与电子音乐合成密不可分。的发展与电子音乐合成密不可分。电子音乐合成电子音乐合成电子音乐合成电子音乐合成n n使用电子元器件（计算机）生成音乐的技术称为电子使用电子元器件（计算机）生成音乐的技术称为电子音乐合成。音乐合成。n n电子音乐合成方法分为两类：电子音乐合成方法分为两类：FM频率调制合成音乐样本合成频率调制（频率调制（频率调制（频率调制（FMFM）合成法合成法合成法合成法n n数字式频率调制合成法，简称为数字式频率调制合

20、成法，简称为FMFM合成法。合成法。n nFMFM电子合成器先由震荡器产生一个电子合成器先由震荡器产生一个载波载波作为基音，然后再产生若作为基音，然后再产生若干个干个调制波调制波带着许多泛音加在载波之上，可以对这个组合加以任带着许多泛音加在载波之上，可以对这个组合加以任意调整，然后加上典型的意调整，然后加上典型的声音包络线声音包络线（ADSRADSR），），再通过数控滤波再通过数控滤波器和数控放大器送往数字器和数控放大器送往数字/模拟转换器，从而形成最后的声音。模拟转换器，从而形成最后的声音。n n由于一个物体不可能总是一成不变的振动，所以它的频率和振幅由于一个物体不可能总是一成不变的振动，所

21、以它的频率和振幅都会随着时间的改变而改变，并最终趋于静止。我们把一声音的都会随着时间的改变而改变，并最终趋于静止。我们把一声音的发展过程分为四个阶段，分别是触发、衰减、保持和消失。这四发展过程分为四个阶段，分别是触发、衰减、保持和消失。这四个阶段我们统称为个阶段我们统称为“包络包络”。包络的发生时间，也决定了一个。包络的发生时间，也决定了一个乐音的时值。乐音的时值。由以下五部分组成：数字载波器调制器声音包络发生器数字运算器模数转换器频率调制（频率调制（频率调制（频率调制（FMFMFMFM）合成法合成法合成法合成法FM声音合成器的工作原理声音合成器的工作原理从理论上讲，从理论上讲，FM合成方法可

22、以产生任何乐音，但是，合成出来的声音不够真实。合成方法可以产生任何乐音，但是，合成出来的声音不够真实。FMFM合成法的发明人：合成法的发明人：John John ChowningChowning 2020世纪世纪6060年代，在斯坦福大学和他的同事研究年代，在斯坦福大学和他的同事研究FMFM理论和理论和合成技术，合成技术，19661966年研究成功，成为使用年研究成功，成为使用FMFM制作并录音的第一制作并录音的第一人。人。之后之后John John ChowningChowning通过斯坦福大学寻找美国的制造商。通过斯坦福大学寻找美国的制造商。被被YAMAHAYAMAHA采用。采用。乐音样本

23、合成法乐音样本合成法乐音样本合成法乐音样本合成法n n乐音样本合成法是把真实乐器发出的声音以数乐音样本合成法是把真实乐器发出的声音以数字的形式记录下来，播放时再加以调整、修饰字的形式记录下来，播放时再加以调整、修饰和放大，生成各种音阶的音符。和放大，生成各种音阶的音符。n n乐音样本通常放在乐音样本通常放在ROMROM芯片上，播放时以查表芯片上，播放时以查表的方式给出，所以这种合成器又叫做的方式给出，所以这种合成器又叫做波表波表（wave tablewave table）合成器。合成器。Wavetable合成器的工作原理 Wavetable合成器所需要的输入控制参数比较少，可控的数字音效也不多

24、，大多数采用这种合成方法的声音设备都可以控制声音包络的ADSR参数，产生的声音质量比FM合成方法产生的声音质量要高。乐音样本合成法乐音样本合成法乐音样本合成法乐音样本合成法n nMIDIMIDI实质上是由实质上是由MIDIMIDI控制器控制器（或（或MIDIMIDI文件）产生的指文件）产生的指示电子音乐合成器要做什么、怎么做（如演奏某个音示电子音乐合成器要做什么、怎么做（如演奏某个音符、加大音量、生成音响效果）的一套标准指令。符、加大音量、生成音响效果）的一套标准指令。MIDIMIDI不是声音信号，在不是声音信号，在MIDIMIDI电缆上传送的不是声音电缆上传送的不是声音，而是动作指令（而是动

25、作指令（MIDIMIDI文件）。文件）。MIDI设备的简单联接MIDIMIDI硬件硬件硬件硬件各个MIDI设备通过专用的串行电缆(MIDI线)连接，并以 31.25 kb/s（每字节10位）的速度传送着数字音乐信息。MIDIThru Out InMIDIMIDI的物理接口标准的物理接口标准的物理接口标准的物理接口标准MIDIMIDI通道的概念通道的概念通道的概念通道的概念单个物理MIDI通道分为16个逻辑通道，每个逻辑通道可指定一种乐器。MIDI键盘可设置在这16个通道中的任何一个，MIDI合成器可以被设置在指定的通道上接收MIDI指令。MIDIMIDI设备设备设备设备的复杂连接的复杂连接的

26、复杂连接的复杂连接把MIDI理解成一种局域网，网络各个部分通过专用的串行电缆(MIDI线)连接。指定各声音模块播放某一个通道。音序器规定发声顺序。输入设备，音序器，音源（声音模块）是MIDI系统重要的三个部分。MIDIMIDIMIDIMIDI指令举例指令举例指令举例指令举例演奏员按下演奏员按下MIDIMIDI键盘中间的一个键盘中间的一个“C”C”键时，键时，MIDIMIDI键键盘就会发送一个三字节组成的消息，用盘就会发送一个三字节组成的消息，用1616进制表示为：进制表示为：90 90 3C 403C 40。其中其中9090是状态字节，它表示一个字符开始，且向是状态字节，它表示一个字符开始

27、，且向0 0号声号声道传送；道传送；3C3C表示击键位置（共表示击键位置（共00007F7F共共128128键）；键）；4040表示表示击键的速度（共分成击键的速度（共分成00007F7F共共128128种不同速度）。种不同速度）。松开键后，松开键后，MIDIMIDI键盘立即又发出一个三字节消息：键盘立即又发出一个三字节消息：90 90 3C 003C 00。前两个字节含义与前面相同，第三个字节。前两个字节含义与前面相同，第三个字节“00”00”表示速度为表示速度为0 0，即这个键已中止。，即这个键已中止。当合成器收到第一个消息时即开始以指定的乐器声音当合成器收到第一个消息时即开始以指定的乐器

28、声音发出规定的音符声，而当合成器收到第二个消息时，合成发出规定的音符声，而当合成器收到第二个消息时，合成器立即停止发声。器立即停止发声。MIDIMIDIMIDIMIDI小结小结小结小结n n是一种在计算机和音乐合成器之间交换音乐信息的标准协是一种在计算机和音乐合成器之间交换音乐信息的标准协议。议。MIDIMIDI不是声音信号，在不是声音信号，在MIDIMIDI电缆上传递的是指令。电缆上传递的是指令。n n由于由于MIDIMIDI只是记录音乐信息的数字代码，所以生成的文件只是记录音乐信息的数字代码，所以生成的文件比较小，便于传播，也便于编辑修改。比较小，便于传播，也便于编辑修改。n n与与Mp3

29、Mp3、WavWav等音频格式不同的是等音频格式不同的是MIDIMIDI的播放质量很大程度的播放质量很大程度上取决于硬件或软件的音源环境，也就是说上取决于硬件或软件的音源环境，也就是说同样的同样的MIDIMIDI文文件在不同的电脑上可能有非常明显的效果差别件在不同的电脑上可能有非常明显的效果差别，原因是因，原因是因为它们调用的波表音色库不一样。为它们调用的波表音色库不一样。n n波表是重要的波表是重要的MIDIMIDI音乐生成方式。音乐生成方式。n nMIDIMIDI音乐常用作游戏音乐或背景音乐，典型应用就是手机音乐常用作游戏音乐或背景音乐，典型应用就是手机音乐。音乐。小结小结n n自然界数据进入计算机包含两个过程，转换成电信自然界数据进入计算机包含两个过程，转换成电信号和转换成数字信号。号和转换成数字信号。n n采样和量化是数字化过程中的基本过程。采样和量化是数字化过程中的基本过程。n n声音的基本特性包括声强，音频，不同类别的声音声音的基本特性包括声强，音频，不同类别的声音具有不同的频率范围，具有不同的处理方法。具有不同的频率范围，具有不同的处理方法。n n计算机可以处理的声音包括计算机可以处理的声音包括wavewave音效和音效和MIDIMIDI音效。音效。

展开阅读全文