最新多媒体音频系统PPT课件.ppt-得力文库

资源描述

《最新多媒体音频系统PPT课件.ppt》由会员分享，可在线阅读，更多相关《最新多媒体音频系统PPT课件.ppt（88页珍藏版）》请在得力文库 - 分享文档赚钱的网站上搜索。

1、声音信息的处理声音信息的处理声音的输出：声音的输出：波形声音数模转换波形声音数模转换频谱合成频谱合成样本合成（语音合成）样本合成（语音合成）声音的表示声音的表示与存储与存储声音的采集：声音的采集：波形声音数字化波形声音数字化乐器声（乐器声（MIDI）话音（语音识别）话音（语音识别）声音的处理：声音的处理：压缩和编码压缩和编码声音的采样和量化01010100001100100001000010011010101111001101影响数字音频质量的技术参数对模拟音频信号进行采样量化编码后，得到数字音频。数字音频的质量取决于采样频率、量化位数和声道数三个因素。1). 采样频率采样频率是指一秒钟时间内

2、采样的次数。在计算机多媒体音频处理中，采样频率通常采用三种：11.025KHz(语音效果)、22.05KHz(音乐效果)、44.1KHz(高保真效果)。常见的CD唱盘的采样频率即为44.1KHz。2). 量化位数量化位数也称“量化精度”，是描述每个采样点样值的二进制位数。例如，8位量化位数表示每个采样值可以用28即256个不同的量化值之一来表示，而16位量化位数表示每个采样值可以用216即65536个不同的量化值之一来表示。常用的量化位数为8位、12位、16位。3). 声道数声音通道的个数称为声道数，是指一次采样所记录产生的声音波形个数。记录声音时，如果每次生成一个声波数据，称为单声道；每次生

3、成两个声波数据，称为双声道（立体声）。随着声道数的增加，所占用的存储容量也成倍增加。数字音频文件的存储量以字节为单位，模拟波形声音被数字化后音频文件的存储量(假定未经压缩)为：存储量=采样频率量化位数/8声道数时间例如，用44.1KHz的采样频率进行采样，量化位数选用16位，则录制1秒的立体声节目，其波形文件所需的存储量为：4410016821=176400(字节)声音质量和数据率质量采样频率/kHz 样本精度/b/s 单道声/立体声数据率（未压缩）/kb/s 频率范围/Hz电话*AMFMCDDAT811.02522.05044.14888161616单道声单道声立体声立体声立体声64.

4、088.2705.61411.21536.02003400 507000 2015000 2020000 2020000说明：*电话使用律编码，动态范围为13位，而不是8位。多媒体音频系统声音文件的基本格式1. WAV 文件3. VOC 文件2. MIDI 4. MOD 文件声音的存储格式格式标准：数据规范1.0（Multimedia Programming Interface and Data Specification 1.0）。该标准是由IBM和微软公司于1991年8月联合开发的资源交换文件格式（resource interchange file format，RIFF）。grou

5、p ID =RIFFRiff Type=WAVE Format at Chunk ck ID=fmtSound Data Chunk ckID=data左图为WAVE 文件结构WAV 文件Windows 所用的标准数字音频称为波形文件，文件的扩展名是“.WAV”，它记录了对实际声音进行采样的数据。它可以重现各种声音，但产生的文件很大。采用的软件压缩方法主要有ACM和PCM 等。人的讲话声使用8位量化级11.025 KHz采样率就能较好的还原。CD音质需要16位量化级、44.1 KHz的采样率。MIDIMIDI文件的扩展名为“.MID”，它与波形文件不同，记录的不是声音本身，而是将每个音符记录为

6、一个数字，因此比较节省空间，可以满足长时间音乐的需要。MIDI 的主要限制是缺乏重现真实自然的能力。采用波表法进行音乐合成的声音卡可以使MIDI 音乐的质量大大提高。VOC 文件:VOC 文件也是一种数字声音文件，主要用于DOS 程序。与波形文件相似，可以方便地互相转换。MOD 文件:MOD 文件是移植过来的MODULE 音乐。它主要由一些业余音乐爱好者通过网络和BBS 支持。常见的声音文件扩展名文件的扩展名说明au Sun和NeXT公司的声音文件存储格式（8位律编码或者16位线性编码）aif(Audio Interchange) Apple计算机上的声音文件存储格式cmf(Creativ

7、e Music Format) 声霸（SB）卡带的MIDI文件存储格式mct MIDI文件存储格式mff(MIDI File Format) MIDI文件存储格式1/2mid(MIDI) Windows的MIDI文件存储格式mp2 MPEG Layer ， mp3 MPEG Layer mod(Module) MIDI文件的存储格式rm(RealMedia) RealNetworks公司的流放式声音文件格式ra(RealAudio) RealNetworks 公司的流放式声音文件格式续：常见的声音文件扩展名rol Adlib 声音卡文件存储格式snd(sound) Apple 计算机上的声音文

8、件存储格式seq MIDI文件存储格式sng MIDI文件存储格式voc(Creative Voice) 声霸卡存储的声音文件存储格式wav(Waveform)* Windows采用的波形声音文件存储格式wrk Cakewalk Pro 软件采用的MIDI文件存储格式说明：*支持PCM，ADPCM，率和A率波形多媒体音频系统声音处理软件声音处理软件：即声音工具，是用来录放、编辑俄分析声音文件的。常见的声音工具有： 1、Window 95/98 本身带的“Sound Recorder” 当你在英文版的Windows 95/98的界面上点击： Start Programs Accessories

9、 Multimedia/Entertainment 单击Sound Recorder 2、买声卡时带的工具 3、网络上下载的工具多媒体音频系统声音质量评价声音质量的方法：平均判分法（mean opinion score，MOS），召集若干实验者，由他们对声音质量的好坏进行评分，求出平均值作为对声音质量的评价。所得分数为MOS。声音质量的评分标准分数质量级别失真级别 5 优无察觉 4 良（刚）察觉但不讨厌 3 中（察觉）有点讨厌 2 差讨厌但不反感 1 劣极讨厌（令人反感）多媒体音频系统音乐n音乐音乐起初是与巫术和宗教活动联系在一起的，舜作“韶”、禹作“大夏”、武王作“大武”，

10、“乐”被孔夫子列为“六艺”之一。后来，音乐从宗教中渐渐脱离出来，成为一种独立的艺术。n以小提琴为例，当它的A弦振动时，并不仅仅是整根弦在振动，这根弦的二分之一、三分之一、四分之一、五分之一处都在振动着。于是，整根弦的振动产生了最主要的频率，我们称之为基音基音，而弦长的二分之一、三分之一、四分之一等处的振动则产生了一些次要的频率，我们称之为泛音泛音。 n如果一个物体振动所发出的泛音为基音的整数倍，这个音就会具有清晰可辨的音高，我们称之为乐音，如钢琴，小提琴等发出的都是乐音乐音；如果泛音是基音的非整数倍，这个音就不具备清晰可辨的音高，我们称之为噪音噪音，如汽车发动机、计算机风扇等发出的都是噪音。

11、音乐的四要素n音高音高：由基音的频率决定。即“哆”“唻”“咪”等音符。n响度响度：由声波的振幅决定。n音色音色：由基音与泛音的比例、泛音的分布、泛音随时间的衰减变化决定。不同发音源（乐器）的材质、形状不同，其泛音的排列组合也不同，也就构成了这一物体特殊的音色。n时值时值：乐音振动的持续时间，即节奏。电子音乐合成n使用电子元器件（计算机）生成音乐的技术称为电子音乐合成。电子音乐合成器又称为“魔音琴”。n电子音乐合成方法分为两大类：模拟合成法：减法合成加法合成数字合成法： FM频率调制合成音乐样本合成频率调制（FM）合成法n数字式频率调制合成法，简称为FM合成法。nFM电子合成器先由震荡器

12、产生一个载波作为基音，然后再产生若干个调制波带着许多泛音加在载波之上，您可以对这个组合加以任意调整，然后加上典型的声音包络线（ADSR），再通过数控滤波器和数控放大器送往数字/模拟转换器，从而形成最后的音响。n由于一个物体不可能总是一成不变的振动，所以它的频率和振幅都会随着时间的改变而改变，并最终趋于静止。我们把一声音的发展过程分为四个阶段，分别是触发、衰减、保持和消失。这四个阶段我们统称为“包络” 。包络的发生时间，也决定了一个乐音的时值。由以下五部分组成：数字载波器调制器声音包络发生器数字运算器模数转换器频率调制（FM）合成法FM声音合成器的工作原理声音合成器的工作原理从理论上

13、讲，从理论上讲，FM合成方法可以产生任何乐音，但是，这种合成方法可以产生任何乐音，但是，这种“物理课物理课式式”的合成方法合成出来的声音不够真实。的合成方法合成出来的声音不够真实。乐音样本合成法n乐音样本合成法是把真实乐器发出的声音以数字的形式记录下来，播放时再加以调整、修饰和放大，生成各种音阶的音符。n乐音样本通常放在ROM芯片上，播放时以查表的方式给出，所以这种合成器又叫做波表（wave table）合成器。Wavetable合成器的工作原理 Wavetable合成器所需要的输入控制参数比较少，可控的数字音效也不多，大多数采用这种合成方法的声音设备都可以控制声音包络的ADSR参数，产生的声

14、音质量比FM合成方法产生的声音质量要高。乐音样本合成法波表库容量音调数（复音数）音色数特殊效果Wavetable合成器的衡量标准软件波表与DLSn软件波表，故名思义就是用软件来模拟硬件波表合成器，它的原理跟硬件波表完全一样，只不过硬波表是把乐器的波形存放到ROM里，在需要的时候直接调用；而软波表是把乐器的波形存到硬盘上的某一个文件里，在需要的时候通过CPU运算调用。所以，软波表会占用比较多的CPU资源。著名的软波表有YAMAHA公司的S-YXG系列和ROLAND公司的VSC系列，还有韩国COWON公司的JET-MIDI。n由于硬波表价格难以令大众接受并且不易升级，于是就有了价格便宜的D

15、LS（Downloadable Sound Modules）波表合成技术，这是个介于硬波表和软波表之间的东西。虽然它能把波表存储在硬盘上，使用时再调入内存然后通过声卡上的专用音效芯片来处理。电子乐器数字接口（MIDI）n电子乐器数字接口（musical instrument digital interface, MIDI）是用于在音乐合成器、电子乐器、音序器和计算机之间交换音乐信息的一种标准协议。从80年代初问世至今，MIDI经历了长时间的发展，现已成为电脑音乐的代名词。MIDI系统系统定义：电子乐器数字接口（musical instrument digital interface，MI

16、DI）是用于在音乐合成器（music synthesizers）、乐器（musical instrument ）和计算机之间交换音乐信息的一种标准协议。计算机音乐：如何产生连续协调的音乐而不是单音录音/重放、音乐合成产生MIDI音乐的方法：一、频率调制（frequency modulation，FM）合成法；二、乐音样本合成法，也称波形表（wavetable）合成法。多媒体音频系统作曲软件作曲软件MIDI消息消息电子琴键盘电子琴键盘MIDI消息消息MIDI文件文件MIDI文件管理文件管理MIDI编辑编辑播放软件播放软件声音声音合成器合成器立体声立体声功率功率MIDI系统将电子乐器键盘上的

17、弹奏信息记录下来，包括键名、力度、时值长短等，是乐谱的一种数字式描述。当需要播放时，只需从相应的MIDI文件中读出MIDI消息，生成所需要的声音波形，经放大后由扬声器输出。如下图所示。合成器扬声器MIDI键盘MIDI接口音序器MIDI设备就是处理MIDI信息所需的硬件设备，其基本组成包括： MIDI设备配置 (1). MIDI端口 (2). MIDI键盘 (3). 音序器(Sequencer)(4). 合成器 (1). MIDI端口一台MID设备可以有一至三个MIDI端口，分别称为MIDI In、MIDI Out、MIDI Thru。它们的作用是：MIDI In：接收来自其它MIDI设备的M

18、IDI信息。MIDI Out：发送本设备生成的MIDI信息到其它设备。MIDI Thru：将从MIDI In端口传来的信息转发到相连的另一台MIDI设备上。(2). MIDI键盘 MIDI键盘是用于MIDI乐曲演奏的，MIDI键盘本身并不发出声音，当作曲人员触动键盘上的按键时，就发出按键信息，所产生的仅仅是MIDI音乐消息，从而由音序器录制生成MIDI文件。(3). 音序器(Sequencer)用于记录、编辑、播放MIDI的声音文件，音序器有以硬件形式提供的，目前大多为软件音序器。音序器可捕捉MIDI消息，将其存入MIDI文件，MIDI文件扩展名为 .MID。音序器还可编辑MIDI文件。(4)

19、. 合成器 MIDI文件的播放是通过MIDI合成器，合成器解释MIDI文件中的指令符号，生成所需要的声音波形，经放大后由扬声器输出，声音的效果比较丰富。MIDI合成方式MIDI合成方式主要有调频合成(FM)和波形表合成(Wave Table)两种方式。MIDI与音乐合成乐音四要素：音高（频率）、音色（乐器）、响度（强度）、时值（旋律）MIDI文件： MIDI文件中包含音符、定时和多达16个通道的演奏定义、128个键位演奏音符信息：键号、通道号、音长、音量和力度MIDI系统（MIDI）协议国际MIDI协会（International MIDI Association）的MIDI1.0规范：

20、MIDI数据流是单向异步的数据位流（bit stream），其速率为31.25kbps，每个字节为10位（1位开始位、8位数据位和1位停止位）。 MIDI乐器上的MIDI接口通常包含3种不同的MIDI连接器：IN（输入）、OUT（输出）和THRU（穿越）。单个物理MIDI通道（MIDI channel）分成16个逻辑通道，每个通道可指定一种乐器。MIDI消息：MIDI设备使用的一系列MIDI音符，可被认为是告诉音乐合成器如何播放一小段音乐的指令。MIDI数据是一套音乐符号的定义，而不是世纪的音乐声音，所以MIDI文件的内容被称为MIDI消息。MIDI消息组成：一个MIDI消息由1个8

21、位的状态字节并通常跟着2个数据字节组成。在状态字节中，最高有效位设置成“1”，低4位用来表示这个MIDI消息时属于哪个通道（4位可表示16个可能的通道），其余3位的设置表示这个 MIDI消息是什么类型的消息。MIDI的通道概念单个物理MIDI通道分为16个逻辑通道，每个逻辑通道可指定一种乐器。MIDI键盘可设置在这16个通道中的任何一个，MIDI合成器可以被设置在指定的通道上接受。 MIDI文件的特点 (1). 由于MIDI文件只是一系列指令的集合，因此它比数字波形文件小得多，大大节省了存储空间。(2). 使用MIDI文件，其声音卡上必需含有硬件音序器或者配置有软件音序器。(3). MID

22、I声音适于重现打击乐或一些电子乐器的声音，利用MIDI声音方式可用计算机来进行作曲。(4). 对MIDI的编辑很灵活，在音序器的帮助下，用户可自由地改变音调、音色以及乐曲速度等，以达到需要的效果。电子乐器数字接口（MIDI）nMIDI实质上是由MIDI控制器（或MIDI文件）产生的指示电子音乐合成器要做什么、怎么做（如演奏某个音符、加大音量、生成音响效果）的一套标准指令。MIDI不是声音信号，在MIDI电缆上传送的不是声音，而是动作指令。电子乐器数字接口（MIDI）n由于MIDI只是记录音乐信息的数字代码，所以生成的文件比较小，便于传播，也便于编辑修改。nMIDI音乐常作为背景音乐。n与Mp

23、3、Wav等音频格式不同的是MIDI的播放质量很大程度上取决于硬件或软件的音源环境，也就是说同样的MIDI文件在不同的电脑上可能有非常明显的效果差别，究其原因是因为它们调用的波表音色库不一样。各个MIDI设备通过专用的串行电缆(MIDI线)连接，并以 31.25 kbps（每字节10位）的速度传送着数字音乐信息。MIDIThru Out InMIDI的物理接口标准MIDI设备的连接不妨把MIDI理解成一种局域网，网络的各个部分通过专用的串行电缆(MIDI线)连接，并以 31.25 kbps 的速度传送着数字音乐信息。 MIDI软件产品软件产品中文名称中文名称：音效合成工具英文名称英文

24、名称：PROPELLERHEADS.REASON.V3.0.ISO-RiSE话音的形成原理肺中的空气受到挤压形成气流，气流通过声门（声带）沿着声道（由咽、喉、口腔等组成）释放出去，就形成了话音。气流、声门可以等效为一个激励源，声道可以等效为一个时变滤波器（共振峰）。话音信号具有很强的相关性（长期相关、短期相关）。话音的分类n浊音（voiced sounds）：声道打开，声带在先打开后关闭，在此期间声带要发生振动。浊音的激励源被等效为准周期的脉冲信号。n清音（unvoiced sounds）：声门打开，声带不振动，声音靠空气在声道里高速收缩产生。清音的激励源被等效为一种白噪声信号。n爆破音

25、（plosive sounds）：声道关闭之后产生压缩空气然后突然打开声道所发出的声音。n混合音话音技术n话音识别（Speech Recognition）n文本话音转换（Text To Speech）n话音压缩编码（Speech Coding）语音识别和文语转换语音识别和文语转换l话音本身就是一种编码，如何分辨相同编码的相近语音，即该词的特征语音l话音识别要求：识别字词句，语义和语境lIBM Via Voicel文语转换和语音合成l电脑播音软件数字音频信号的编码一般情况下，声音的制作是使用麦克风或录音机来产生，再由声卡上的WAVE合成器的(模/数转换器)对模拟音频采样后，量化编码为一定字长的

26、二进制序列，并在计算机内传输和存储。在数字音频回放时，再由数字到模拟的转化器(数/模转换器)解码可将二进制编码恢复成原始的声音信号，通过音响设备输出。如下图所示。模拟音频信号输入采样/量化编码传输/存储解码播放数字波形文件数据量大，数字音频的编码必须采用高效的数据压缩编码技术。音频信号能够被压缩编码的依据有两个，一是声音信号存在着数据冗余；二是利用人的听觉特性来降低编码率，人的听觉具有一个强音能抑制一个同时存在的弱音现象，这样就可以抑制与信号同时存在的量化噪声；另外人耳对低频端比较敏感，而对高频端不太敏感，由此引出了“子带编码技术”。音频信号的压缩编码方式可分为波形编码音源（参数）编码和混合编

27、码三种。语音信号的冗余度n幅度非均匀分布n样本之间的相关性n周期之间的相关性n基音之间的相关性n静止系数（话音间隙）n长期相关性（long term correlation）话音编译码器的分类n波形编译码器（waveform coder）：不利用生成话音的信号的任何知识，将话音视为一种普通的声音，直接对波形信号进行采样和量化。例如PCM、DPCM、ADPCM等。n音源编译码器（Source coder）：也叫参数编译码器、声码器（vocoder）。它从话音波形信号中提取生成话音的参数，使用这些参数通过话音生成模型重构出话音。n混合编译码器（Hybrid coder）：综合使用上述两种技术。使用

28、的激励信号波形尽可能接近于原始话音信号的波形。例如CELP。1). 波形编码波形编码的算法简单，易于实现，可获得高质量的语音。常见的三种波形编码方法为：脉冲编码调制(PCM)，实际为直接对声音信号作AD转换。只要采样频率足够高，量化位数足够多，就能使解码后恢复的声音信号有很高的质量。差分脉冲编码调制(DPCM)，即只传输声音预测值和样本值的差值以此降低音频数据的编码率。自适应差分编码调制(ADPCM)，是DPCM方法的进一步改进，通过调整量化步长，对不同频段设置不同的量化字长，使数据得到进一步的压缩。2). 参数编码参数编码方法通过建立起声音信号的产生模型，将声音信号用模型参数来表示，再对参数

29、进行编码，在声音播放时根据参数重建声音信号。参数编码法算法复杂，计算量大，压缩率高，但还原声音的质量不高。3). 混合编码混合编码是把波形编码的高质量和参数编码的低数据率结合在一起，取得了较好效果。衡量话音编码器的参数衡量话音编码器的参数n数据输出速率n延迟时间n话音质量n价格三种话音编译码器的对比话音处理话音处理l话音处理要求：通信带宽和通信质量l需要对话音编码和压缩提供标准：因特网上话音数据流单声道8位8KHZ=64kb/sG.711使用律和A律3.4KHZ=64kb/sG.721使用ADPCM3.4KHZ=32kb/sG.722使用ADPCM7KHZ=64kb/s等脉冲编码调制（PCM）

30、nPulse Code ModulationPCM的量化方式均匀量化与非均匀量化非均匀量化n对小信号采用小的量化间隔，对大信号采用大的量化间隔，这样可以用较少的位数编码。n对大信号来说，虽然绝对量化误差较大，但是因为：（1）大信号出现的机会不多，（2）信噪比（相对误差）与小信号是一致的，所以对总的话音质量影响不大。n非均匀量化也是一种压缩。律压扩与A律压扩nm 律(m -Law)压扩(G.711)主要用在北美和日本等地区的数字电话通信中。x为x 为输入信号，规格化为1= x =1m 为确定压缩量的参数，它反映最大量化间隔和最小量化间隔之比，取100 = m = 500。律压扩与A律压扩0 0

31、= | |x x| | = 1/A 1/A1/A 1/A = | |x x| | = 1 1A律(A-Law)压扩(G.711)主要用在欧洲和中国大陆等地区的数字电话通信中对于采样频率为8 kHz，样本精度为13位、14位或者16位的输入信号，使用m 律压扩编码或者使用A律压扩编码，经过PCM编码器之后每个样本的精度为8位，输出的数据率为64 kb/s。这个数据就是CCITT推荐的G.711标准。PCM与时分多路复用（TDM）差分脉冲编码调制（DPCM)n关键在于预测器与量化器的设计量化器预测器xkekekxkxk-自适应预测逆量化器自适应量化阶ek产生误差差分脉冲编码调制（DPCM)逆量化器

32、预测器ekekxkxk译码过程预测方程式线性预测：如果ai是常数，则为时不变线性预测，否则为自适应线性预测最简单的预测方程：= 11)(kiiikxkax),.,(1321kxxxxfxkk= 1= kkxx最简单的DPCMx0121123344x0012112334e011-1011010增量调制(M)增量调制 (delta modulation，DM) 是一种预测编码技术，是对实际的采样信号与预测的采样信号之差的极性进行编码，将极性变成“0”和“1”这两种可能的取值之一。如果实际的采样信号与预测的采样信号之差的极性为“正”，则用“1”表示；相反则用“0”表示。DM编码系统又称为“1位

33、系统”。自适应增量调制(ADM)nCVSD（连续可变斜率增量调制）：如果编码器的输出连续出现三个相同的值，量化阶就加上一个大的增量；反之，就加一个小的增量。自适应脉冲编码调制（APCM）nAPCM是一种根据输入信号幅度大小自动改变量化阶大小的一种波形编码技术。自适应差分脉冲编码调制自适应差分脉冲编码调制（ADPCM）综合了APCM的自适应特性和DPCM系统的差分特性自适应差分脉冲编码调制nADPCM是利用样本与样本之间的高度相关性和量化阶自适应来压缩数据的一种波形编码技术，CCITT为此制定了G.721推荐标准，这个标准叫做32 kb/s ADPCM。在此基础上还制定了G.721的扩充推荐

34、标准G.723，使用该标准的编码器的数据率可降低到40 kb/s和24 kb/s。nG.721 的输入信号是G.711 PCM代码，它的数据率为64 kb/s。而G.721 ADPCM的输出是用4位表示的差分信号，它的采样率仍然是8 kHz，它的数据率为32 kb/s，这样就获得了2 1的数据压缩。子带自适应差分脉冲编码调制n G.722编码标准nG.722是CCITT推荐的音频信号编码译码标准。nG.722标准的数据率为64 kb/s，采样频率由8 kHz提高到16 kHz，是G.711 PCM采样率的2倍，因而要被编码的信号频率由原来的3.4 kHz扩展到7 kHz。这就使音频信号的质量有

35、很大改善，由数字电话的话音质量提高到调幅(AM)无线电广播的质量。编码类型算法名称数据率标准应用质量波形编码PCM均匀量化公共网ISDN配音4.0-4.5(A) (A)64kbit/s G.711APCM自适应量化DPCM差值量化ADPCM自适应差值量化32kbit/s G.721SB-ADPCM子带一自适应差值量化64kbit/s G.722参数编码LPC线性预测编码2.4kbit/s 保密电话2.5-3.5混合编码CELPC码激励LPC4.8kbit/s 移动通信3.7-4.0VSELP矢量和激励LPC8kbit/s 语音邮件 RPE-CELP长时预测规则码激励13.2kbit/s I

36、SDN LD-CELP低延时码激励LPC16kbit/ G.728MPEG多子带感知编码128kbit/sCD 5.0音频编码标准和算法一览音频编码标准和算法一览声卡声卡是多媒体计算机必备的部件之一，用来处理各种类型数字化声音信息。语音硬件设备声音卡语音硬件设备声音卡声卡诞生于ISA时代，首先提出该理念是创新公司。后来随着PCI 标准的出现，开始有厂商搭配使用PCI 声卡控制器出售。当时这些声卡控制器都被装备在外接声卡上，后来集成声卡也开始提上了日程。很快，Intel 利用了该主意，并建议CPU 可以帮助处理音频的部分内容，因为中心处理器在大部分场合，并没有物尽其用，造成了资源浪费，因此

37、即使进行额外的工作负荷也是能够胜任的LINE INLINE OUTSPK OUTMIDI录音机、CD唱机等线性输出话筒扬声器线性输入立体声放大器MIDI设备MIC IN声卡工作原理l声卡的作用：播放音乐、录音、电话答录、约会通知、语音报时等l声卡的主要功能：立体声合成模拟混音音频信号的A/D和D/A变换数字音频信号的处理MIDI和CDROM接口音频信号输出功率放大放大器放大器游戏杆游戏杆CDROM控制器控制器麦克风麦克风Linein模数转换模数转换数模转换数模转换DSPMIDI合成器合成器MIDI接口接口CDROM合成放大合成放大音频输出音频输出声卡的结构与功能声卡一般由Wave合成器、M

38、IDI合成器、混合器、MIDI电路接口、CD-ROM接口、DSP数字信号处理器等组成。(1). Wave合成器Wave合成器的模/数转换和数/模转换是声卡上数据处理器件。(2). MIDI合成器标准的多媒体计算机通过MIDI合成器播放MIDI文件。(3). 混音器声卡上的混音器芯片可以对以下音源进行混合：数字化声音(DAC)，调频FM合成音乐(FM)CD音频(CD-ROM)，线路输入(AUX)，话筒输入(MIC)及PC声音输出(SPK)。(4). MIDI接口声卡能够接收、录制及输出MIDI信号，MIDI接口完成电子音乐设备与声卡之间的信号传输通道，通过软件控制可以将MIDI音乐设备演奏，反之

39、，也可以将电子音乐设备上演奏的音乐录制成MIDI数据文件，在计算机中进行模拟演奏或修改。(5). CD-ROM接口CD-ROM接口提供了从CD-ROM的CD-DA的输出信号到声卡音源输入的通路，CD-ROM播放CD唱盘的音频时，将音频信号直接通过声卡的功放送到扬声器，通过调节声卡的音量控制，即可控制CD唱盘的音量。(6). DSP数字信号处理器用作对数字音频信号的实时压缩和解压缩，以及用于语音朗读、语音识别等特殊音频信号的处理。了解了声卡的组成及工作原理后，可总结出声卡有以下主要功能：(1). 录制与播放波形音频文件。(2). 编辑与合成波形音频文件。(3). MIDI音乐录制和合成。(4). 文语转换和语音识别。声音信息的处理声音信息的处理声音的输出：声音的输出：波形声音数模转换波形声音数模转换频谱合成频谱合成样本合成（语音合成）样本合成（语音合成）声音的表示声音的表示与存储与存储声音的采集：声音的采集：波形声音数字化波形声音数字化乐器声（乐器声（MIDI）话音（语音识别）话音（语音识别）声音的处理：声音的处理：压缩和编码压缩和编码

展开阅读全文