声音数字化

温柔似野鬼°
948次浏览
2021年02月28日 15:25
最佳经验
本文由作者推荐

-

2021年2月28日发(作者:如何学好英语的方法)


第一章:数字音频基础




1.1.


了解声音



1.1.1.


声音基础,什么是声音?



声音源自空 气的震动,例如由吉他的琴弦、由声带或者扬声器的振膜所生产的震动。这些振动压缩附近的空气


分子,造成空气压力略有增加。受压的空气分子继而推动压缩它们周围的空气分子,被压缩的空气分子再 继续


推动下一组,如此往复。高压区在空气中向前移动,留下身后的低压区。当这些有高 低压变化的波浪抵达我们


时,转换为人耳朵里受体的震动,作为声音被我们接受。




在我们生活的世界里充满着各式各样的声 音,如闪电的雷鸣声、山溪潺潺的流水声、海水的波涛声、火


车轮船的汽笛声、节日喜庆 的锣鼓声、商场闹市的嘈杂声、人们相互之间的交谈声。。。。这些声音虽然发声


的形式 各不相同,但它们有一共同特点,即所有的声音都是物体的振动产生的。因此,有时就把产生声音的振

< p>
动物体称为声源。






声源可是以固体,也可以是液体。






声音来 自于振动,但振动并不一定能产生声音。振动必须通过弹性媒质才能把声音传播出去,正如


电厂的发电机发出的电能要能过导线才能输送到千家万户一样。例如扬声器的发声,当外加激发的音频信号使< /p>


扬声器纸盆前后振动时,邻近纸盆前面的空气层被带动一起振动,该空气层振动后又带动其 前面相邻的空气层


一起振动。这样一层层空气就由近及远地依次振动,从而使物体的振动 以一定的速度传播出去。值得指出,当


声音在媒质中向四面八方传播时,媒质本身并不随 声音一起传播出去,它只是在一圈圈向外扩散的圆形水波。


如果水面上有一片树叶,则可 以看到树叶在原来位置上下振动,它不会随水波扩散而向外漂去。这种运动形式


就叫波动 。



振动和波动是互相密切联系的,振动是波动的产生振源,而 波支是振动的传播过程。声音在本质上是机械


振动的传播过程。因此,声音也叫做声波。 声波传播的媒质同样可以是固体、气体、或液体。



声波在气体 和液体中只能产生纵波,


所谓纵波就是媒质质点振动方向和声波传播方向相同的波。


声波在固


体中不仅能产生纵波,而且还能产生横波,所谓横波就是媒 质质点振动方向和声波方向相垂直的波。



声波一般是通过空气 媒质,经外耳道使鼓膜产生振动,并经中耳放大,传到内耳转换成神经脉冲,刺激听


觉神 经产生声音的感觉。



声在每秒内传播的距离叫做音速。在


15


℃时空气中的这个值是


340



/


秒。


< p>
一个视觉上表示声音的波形,描述的就是这些空气压力的波浪。波形里的


0


线表示的是静止时的空气压力。当


波形到达波峰时,表示高压; 当滑至波谷,就表示低压。




图:


一个表示为视觉波形的声波



A


. 0


线



B


.


低压区



C


.


高压区




1.1.2.


声波的量化




一些描述波形的量:



振幅

< p>
:反映波形中从波峰到波谷的压力变化幅度。大振幅的波形声音大,小振幅的波形声音小。



周期


:描述了周期性的压力变化中的一个基本 单位,从


0


开始经过波峰到达波谷再返回


0




频率


:以赫茨(


Hz


)为单位,描述一秒钟内震动的次数。频率越高 ,音调越高。



相位


:以


360


度来表示来表示一个周期中波形所处的位置。


0


度表示起点,


90


度表示高压点,< /p>


180


度表示中间,


270


度表示低压点,


360


回到终点。

< br>


波长


:用长度单位来计量,例如厘米(


cm


)。表示了度数相同的两个相位之间的距离。当频率增加时,波长变


短。




图:


左侧为一个周期;右侧为一个完整的


20


赫兹 波形



A


.


波长



B


.


相位度数



C


.


振幅



D


.


一秒钟




1.1.3.


声波的相互作用




当两个以上的声波相遇时,他们相互增减。


< br>当他们波峰波谷相位都完全一致时,他们会相互增强,结果形成的波的形振幅比每个波都大。




图:


相位相同的波互相增强




如果两个波的波峰波谷相位完全相反,他们就互相抵消,结 果形成一个


0


波形。




图:


相位相反的波相互抵消




然而在大多数情况下,波的相位不尽相同,结果形成比单个 波要复杂得多的波形。例如,一个代表音乐、人声、


噪音和其他声音的复杂波形,把各个 波形组合在了一起。



基于独特的物理结构,一件乐器可以产生 极度复杂的波形。这就是为什么小提琴和小号即使演奏相同的音符


听起来也大不相同。< /p>




图:


两个简 单波形组合成一个复杂的波形。



声音的种类



纯音:轻敲音叉所发出的一种单一频率的正弦波声音



复合音:包含两个以上纯音的声音



基 本音:周期性的复合音与周期相同的声音或非周期性的复合音中最低频率的声音



谐波:又称倍音,在具有周期性的复合音中,除基本音以外,与基本音成整数倍的声音



单音:一个基本音与其整数倍的谐波组成的声音



谐和音:在单音的混合声中,其倍频相等的声音



噪音:无规律(非周期性)的声音



声音的三要素



①声调:声调的高低主要是由频率的高低决定的,人的耳朵所能感知的范围一般为


20Hz



20kHz



频率高的声音被称为高音




频率低的声音被称为低音



②响度:声 音的大小


,


衡量声音强弱有一个标准尺度,就是表示声音强弱的 单位,通常使用


dB


单位来表示




声压:由声波使空气的大气压发生变化的幅度,单位是< /p>


Pa


。声压变动的幅度越大声音就越大




声强:用


dB

< br>数来表示声音强弱的量





音色:是指在两个声音的大小和音调相等的情况下,其声音有不同的感觉




音色是由声音中所包含的谐波成分所决定的



,与声音的频谱、波形、声压等参数有关。



声音按频率分类:



次声波



20Hz



可听声波



20kHz


超声波



f(Hz)



人类说话声音频率范围 :


300Hz



3kHz


声音质量的频率范围:



1.2.



声音的数字化



1.2.1.


模拟音频和数字音频的比较



在模拟和数字音频中,声音的保存和传递方式大不相同




模拟音频:正负电压值


< p>
麦克方将声压的波动转换成线路中电压的变化:声音的高压转换成正电压,声音的低压转换成负电压 。当这些


电压变化经由麦克风线路传递后,可以以磁性的强弱变化记录于磁带或者以刻沟 的深浅记录于胶片。扬声器与


麦克风相反,它经由电压变化得到所记录声音的信息并通过 震动来重现声压。




数字音频:< /p>


0



1



跟磁带或胶片这类模拟声音记录载体不同,计算机将声音信息记录为


0



1


的序列。在数字储存中,原始的波


形被分散成一个个独立的快照,或称为


样本

。这个过程一般叫做声音的


数字化



采样


,有时也叫


模拟



数字转





比如当你通过麦克风用电脑来录音,模拟



数字转换 器将模拟信号转换成数字样本以方便储存和处理。



模拟信号




声音数字化过程:


采样



量化



编码



数字信号




A/D




ADC


模拟信号



D/A




DAC


数字信号




声音数字化过程图示



连续的模拟声音信号



声音信号的采样






离散的音频信号



< br>在某些特定的


时刻


对模拟信号进行


测量


叫做采样,由这些特定时刻采样得到的


信号称为离散时间 信号。



2-2


中的一系


列带黑点的竖线表示的是采样的时间,


竖线端点的值表示这个时刻波形的值。


只有采样得到的值会被记录下来,其他


值在采样后被舍弃。





2-2


中的一系列带


黑点


的竖线表示的

< p>
是采样的时间,竖线端点的值表示这个


时刻波形的值。

只有


采样得到的值会被


记录下来,其他值在采样后被舍弃。



v




O



t




1.2.2.


采样率



采样率表示每秒钟对音频信号 进行数字采样的次数。采样率决定了一个音频文件的频率范围。采样率越高,所


得的数字 波形就越接近于原始的模拟波形。低采样率限制了所能记录的声音频率范围,导致记录的声音失真严


重。




图:两个不同的采样率



A


.


低采样率使得原始声波失真



B


.


高采样率完美的体现了原始声波




采样定理


表明采样频率必须大于被 采样信号带宽的两倍,另外一种等同的说法是奈奎斯特频率必须大于被采样


信号的带宽。



为了重现一个给定的频率,采样率必须至少达到该频率的两倍 。例如,


CD


的采样率为


44,100 Hz


,所以


CD


重现最高


22,050Hz


的声音,该频率已经超过人耳所 能听到声音的上限


200,00Hz




如果信号的带宽是



100Hz


,那么为了避免混叠现象采样频率必须大于



200Hz




换句话说就是采样频率必须至少是信号中最大频率分量频率的两倍,否则就不能从信号采样中恢复原始信号。< /p>


根据奈魁斯特(


NYQUIST


)采样定 理,


用两倍于一个正弦波的频繁率进行采样就能完全真实地还原该


波形




此一个数码录音波的休样频 率直接关系到它的最高还原频率指标例如,



44.1KHZ< /p>


的采样频率进行采样,


则可


还原最高为< /p>


22.05KHZ


的频率


-----


这个值略高于人耳的听觉极限,


(


注:



可录


MD


,例< /p>


R900


的取样频率为


44.1KHZ< /p>


并且有取样频率转换器,可将输入的


32KHz/44.1KHZ /48KHZ


转换为该机的标准取样频率


44.1KHZ


的还原频率足已记示和真实再现世界上所有人再能辩的声音了


,


所以


CD


音频的采样规格定义为


16bit



44KHZ




即使在最理想的环境下用现实生活中几乎不可能制造的高精密 电子元器件真实地实现了


16bit


的录音

,


仍然会受


到滤波和声特定位等问题的困扰,


人们还是能察觉出一些微小的失真所以很多专业数码音频系统已经使用


18b it


甚至


24bit


进行录音和回放了。





下面列出了最常见的数字音频采样率:



采样率



11,025 Hz


22,050 Hz


32,000 Hz


44,100 Hz


48,000 Hz


96,000 Hz


质量水平参考



AM


电台(低级多媒体)



FM


电台(高级多媒体)


< p>
好于


FM


电台(广播标准)



CD


标准


DVD


高级


DVD


频率范围



0



5,512 Hz


0



11,025 Hz


0



16,000 Hz


0



22,050 Hz


0



24,000 Hz


0



48,000 Hz



量化:


采样得到的值其幅度可以是无穷多


个实数 值中的一个,


这些值要用二进


制数字来表示


必须对每个值分配一


个编码。


显 然对无穷多个值分配编码


是不可能的。



如果把信号幅度取值的数目加以限


定,


量化后得到的值只能取 有限个参


考值,


若实际值不在这些有限个值之

< br>内,


则使用四舍五入或者其他规则把


它近似到某个取值上 去。




v




O



t



2)


采样精度(位深度)


Bit depth



采样精度也称为量化位数



表示了量化时分配参考值的个数,


用编码位数来表示,


它反映度


量声音波形幅度的精度。


采样率决定 了频率范围,


位深度决定了动态范围。


当一个声波被采


样时,


每个样本被赋予一个与原始振幅最接近的振幅值。


更高的位深度提供了更多可能的幅


度值,产生更大的动态范围,更低的背景噪声 和更高的保真度。




例如,每个声音 样本用


16



(2

字节


)


表示,测得的声音样本值在


0



65 536


的范围内,


它的精度就是最大输入信号的


1/65 536








位深



8-bit


16-bit


24-bit


32-bit


质量参考



电话



CD


DVD


最佳



幅度值数量



256


65,536


16,777,216


4,294,967,296


动态范围



48 dB


96 dB


144 dB


192 dB



图:更高的位深保证更高的动态范围




声音数字化三要素



采样频率



量化位数



声道数



每秒钟抽取声波幅度样本的次数



每个 采样点用多少二进制位表示数据范


使用声音通道的个数





采样频率越高



声音质量越好



数据量也越大



11.025kHz


22.05 kHz


44.1



kHz



声音数字化计算公式:数据量 =采样频率×量化位数×声道数


/8(


字节

/



)


采样频率



(kHz)



量化位数



(bit)



8



11.025



16



8



22.05



16



8



44.1



16



数据量


(KB/s)



单声道



10.77



21.53



21.53



43.07



43.07



86.13



立体声



21.53



43.07



43.07



86.13



86.13



172.27



量化位数越多



音质越好



数据量也越大




8


位=


256



个值



16


位=


65536


个值

< br>


单声道



立体声



立体声比单声道的表现力丰富 ,


但数据量翻倍


-


-


-


-


-


-


-


-