音频基础知识

1. 声音介绍

声音(sound)是一种物理现象。物体振动时产生声波通过空气传到人们的耳膜经过大脑的反射被感知为声音。声音以波的形式振动传播。

声音是一种压力波:当演奏乐器、拍打一扇门或者敲击桌面时,他们的振动会引起介质——空气分子有节奏的振动,使周围的空气产生疏密变化,形成疏密相间的纵波,这就产生了声波,这种现象会一直延续到振动消失为止。

声音作为波的一种,频率和振幅就成了描述波的重要属性,频率的大小与我们通常所说的音高对应,而振幅影响声音的大小。声音可以被分解为不同频率不同强度正弦波的叠加。这种变换(或分解)的过程,称为傅立叶变换(Fourier Transform)。

 

2. 声音的三要素

i. 音调(pitch):

声音频率的高低叫做音调(Pitch)声音的高低(高音、低音),由频率决定,频率越高音调越高(频率单位Hz,赫兹),人耳听觉范围20~20000Hz。20Hz以下称为次声波,20000Hz以上称为超声波)。人耳的听力频率范围(20Hz ~ 20kHz),人耳对 3~4kHz 频率范围内的声音比较敏感。

ii. 响度(loudness):

人主观上感觉声音的大小(俗称音量),由“振幅”(amplitude)和人离声源的距离决定,振幅越大响度越大,人和声源的距离越小,响度越大。

iii. 音色(Timbre):

波形决定了声音的音调。由于不同对象材料的特点,声音具有不同的特性,音色本身就是抽象的东西,但波形就是把这种抽象和直观的性能。波形因音调而异,不同的音调可以通过波形来区分。

人耳的听力频率范围(20Hz ~ 20kHz),人耳对 3~4kHz 频率范围内的声音比较敏感

 

3. 模拟信号

音频信号是典型的连续信号,在时间和幅度上都是连续的。在任何一个特定的时间点都一个对应的幅值。时间和幅度上都是连续的信号成为模拟信号。

 

4. 数字信号

复杂的声波由许许多多具有不同振幅和频率的正弦波组成。代表声音的模拟信号是个连续的量,不能由计算机直接处理,必须将其数字化。

经过数字化处理之后的数字声音能够像文字和图形信息一样进行存储、检索、编辑和其他处理。

数字音频是指使用数字编码的方式也就是使用0和1来记录音频信息。

声音可以表达成一种随着时间的推移形成的一种波形,那么如何描述这种波形存储到计算机中呢?

每隔一定的时间间隔,存储波形图对应的位置(电平信号),然后将电平信号转化成二进制数据保存。

模拟音频数字化:

采样:对时间轴上的信号进行数字化。将时间轴上连续的信号每隔一定的时间间隔抽取出一个信号的幅度样本,把连续的模拟量用一个个离散的点表示出来,使其成为时间上离散的脉冲序列。采样定律(Nyquist定理):要想不产生低频失真,采样频率至少应为所要录制的音频的最高频率的2倍。

量化:在幅度轴上对信号进行数字化。将采样后离散信号的幅度用二进制数表示出来。每个采样点所能表示的二进制位数称为量化精度,或量化位数。量化精度反映了度量声音波形幅度的精度。

编码:按照一定的格式记录采样和量化后的数字数据,比如顺序存储和压缩存储。采样和量化后的信号还不是数字信号,需要将它转化为数字编码脉冲,这一过程称为编码。

音频编码的格式有很多种,而通常所说的音频裸数据指的是脉冲编码调制(PCM)数据。

 

5. 音频编码

一分钟量化格式 16比特(2字节),采样率 44100, 声道数 2(CD音质)的数据采样需要的存储空间约为10.1MB,从存储的角度或者实时传播的角度,这个数据量都太大了,所以需要对音频数据进行压缩编码。

压缩编码原理:压缩掉冗余信号,冗余信号是指不能被人耳感知的信号,包含人耳听觉范围之外的音频信号以及被掩蔽掉的信号

人耳掩蔽效应:当一个强音信号与一个弱音信号同时存在时,弱音信号将被强音信号所掩蔽而听不见,这样弱音信号就可以视为冗余信号而不用传送。

掩蔽 = 时域掩蔽 + 频域掩蔽

编码格式:WAV,AAC,MP3,Ogg

一般情况下音频的数据量要远小于视频的数据量,因而音频编码的数据流对于视音频的总数据量不会产生太大的影响。

 

6.音视频封装格式

日常生活中的视频文件 avi, rmvb, mp4, flv, mkv 等后缀,叫作 封装格式。

封装格式 是由 视频编码数据(H.264, MPEG2, VC-1) 和 音频编码数据(AAC, MP3, AC-3) 组成。

视频编码数据 是由 视频像素数据(YUV420P, RGB) 组成

音频编码数据 是由 音频采样数据(PCM) 组成

 

7.音频封装格式

容器的说明

MP3容器:是一种只用来盛放MP3音频的容器。

AAC流:AAC不能算封装容器,它太简单了,算是编码好的原始音频流吧,当然就只能是AAC音频编码的。

OGG容器:最常见的封装内容是Vorbis格式音频。虽然OGG容器能盛放所有这一列包括音频视频,但它本意是用来盛放如Vorbis、FLAC等开放格式的,封入视频也不常见。所以我只勾了Vorbis这一行。

MP4容器:很常见。虽然能盛放所有这一列,但是播放器不一定能播,所以通常不会收Vorbis那些。

M4A容器:与MP4相同。只不过声称自己仅含音频。M4V容器:与MP4相同。

MOV容器:苹果设计的容器,基本上也是什么都能盛放,但是与MP4一样,也要考虑播放器的感受。视频容器实际上就是其中盛放了既有视频流也有N个音频流,甚至还有其他东西例如字幕啥的而已。其他

基本上,比较新的编码格式都比较好。适应性我没多少经验。通常在普及率的基础上,越新的越好。

格式的历史网上很多,搜编码格式的历史就行,不需要搜容器格式的历史,不然很多文章把两者混在一起说,很是混乱。

 

8. 音频输出设置

8.1 音频采样率设置多少比较好?

音频采样率的设置建议取决于具体的使用场景和需求。一般来说,44.1kHz 是CD音质的采样率标准,也是许多音频设备和软件默认的设置。这个采样率可以捕捉到人类听觉范围内的所有频率,并且对于大多数应用来说已经足够了。如果需要更高的音质或者进行专业的音频处理,可以选择更高的采样率,如48kHz或更高。更高的采样率可以更准确地捕捉和重现声音的细节,但请注意,这也将增加文件大小和处理需求。

正常人听觉的频率范围大约在20Hz~20kHz之间,根据奈奎斯特采样理论,为了保证声音不失真,采样频率应该在40kHz左右。

其他数字音频常用的采样率如下:

8000 Hz 是电话所用采样率, 对于人的说话已经足够。
22050 Hz 是无线电广播所用采样率。
32000 Hz是miniDV 数码视频 camcorder、DAT (LP mode)所用采样率。
47250 Hz 是商用 PCM 录音机所用采样率。
50000 Hz是商用数字录音机所用采样率。
96000 或者 192000 Hz 是DVD-Audio、一些 LPCM DVD 音轨、BD-ROM(蓝光盘)音轨、和 HD-DVD (高清晰度 DVD)音轨所用所用采样率。
28224 MHz 是Direct Stream Digital 的 1 位 sigma-delta modulation 过程所用采样率。

8.2 比特率(Bit Rate Mode)的三种模式

  • 固定比特率(Constant Bitrate, CBR):
    在这种模式下,编码器会在整个文件中维持一个恒定的数据速率。这意味着无论内容的复杂度如何,输出文件的比特率都是固定的。CBR的优点在于它可以提供较为一致的比特率输出,便于网络传输和存储空间的管理。如电话通话、广播电视等。
  • 可变比特率(Variable Bitrate, VBR):
    这种模式允许编码器根据内容的实际复杂度动态调整比特率。在内容简单时,使用较低的比特率;在内容复杂时,则使用较高的比特率。适用于文件大小和质量都需要平衡的场合,如音乐、电影等。
  • 平均比特率(Average Bitrate, ABR):
    ABR模式旨在达到一个平均比特率的目标值,允许编码器在实际编码过程中动态调整比特率,但在整体上维持一个平均值。这种方式试图结合CBR和VBR的优点,在确保平均比特率的同时,允许在必要时使用更高的比特率来保证复杂场景下的质量。这种模式适用于需要保证文件大小和质量的平衡,同时又要控制文件大小的场合,如流媒体传输等。

8.3 音频质量与比特率的选择

比特率(kbps)的定义:比特率是指在单位时间内传输的数据量,以千位每秒(kbps)为单位。它直接影响到音频文件的压缩率和音质。

高比特率的优势:较高的比特率可以包含更多的音频细节,提供更清晰、更丰富的声音体验。例如,192 kbps以上的比特率通常能提供相当好的音质,而更高的比特率(如320 kbps)则可以提供接近无损的音质。

高比特率的缺点:虽然高比特率能显著提升音质,但也会使文件大小急剧增加。例如,一首5分钟的歌曲在320 kbps的比特率下可能会达到10MB以上,这对于需要节省存储空间或带宽的情况来说是不切实际的。

对于大多数应用场景,如网络流媒体、移动设备播放等,128 kbps到192 kbps的比特率通常是一个良好的平衡点,既能提供不错的音质又能控制文件大小。

8.4 声道(channel)

声道是指音频信号在传输或保存时所使用的独立通道的数量。通常情况下,声道数指的是单声道(mono)或立体声(stereo)。

单声道是指音频信号只有一个声道。在这种情况下,所有音频信号都被混合成一个通道中,因此无法分离各个源信号,也无法实现立体声效果。通常适用于电视广播的配乐或旁白等。

立体声是指音频信号通过两个独立的通道(左声道和右声道)进行传输或保存。这种方式可以在听众的耳朵中营造出立体声的环境感觉,使得听者能够清晰地辨别和定位声音的来源。

 

参考:

https://www.jianshu.com/p/1f44556faa96

https://zhidao.baidu.com/question/942139958890320292.html

https://baike.baidu.com/item/%E5%A3%B0%E9%9F%B3/33686?fr=aladdin

https://www.zhihu.com/question/54189685/answer/138286326

修改时间 2024-09-06

声明:本站所有文章和图片,如无特殊说明,均为原创发布。商业转载请联系作者获得授权,非商业转载请注明出处。
随机推荐
版权相关
WordPress 输入安全
Express 使用 cookie-parser 处理 cookies
用 JavaScript 实现数字增加滚动动画
JavaScript ES6 模块
Node.js 安装
JavaScript 类操作 classList
Node.js 使用 Jest 做单元测试