知识局丨语音标注必须要了解的基础知识

上次我们发了关于语音标注工具Praat的基础使用，有好多小伙伴们，也说想要了解一些关于语音标注的其他知识点，这不今天小编又快马加鞭的整理了N多基础点，无论你是数据标注师还是其他岗位的小伙伴，都有必要知道这些知识点

常见的语音声音特征（语音四要素）

（1）音色/音质：由发音体决定，指能够区分两种不同声音的基本特征，比如人说话的声音和小提琴的声音。在语音信号处理技术中，人声识别研究常将音色作为重要研究对象

（2）音调：指声音的高低，由声波的频率决定。例如，在一般情况下，男声听起来比较低沉，而女声听起来会比较尖锐

（3）音强：指声音的强弱，由声波的波动幅度决定，可简单理解为语音信号波形图中的信号幅度

（4）音长，指声波震动持续的长短，也称时长，由发音时间的长短决定

几个重要的语音概念

采样

由于声音为模拟连续信号，而计算机只能处理数字离散信号，因此要用计算机来分析和处理声音，就需要经历模数转换过程[Anlog to Digital Converter，即ADC]，即将模拟连续信号转换为数字离散信号。采样就是按照一定时间间隔从模拟连续信号提取一定数量的样本来，其样本值用二进制码0和1来表示，这些0和1构成了数字音频文件，其过程实际上是将模拟音频信号转换成数字离散信号

采样率

采样率表示了每秒对原始信号采样的次数，单位为Hz。显然，在一秒内采样的点越多，获取的信息越丰富，数字化语音信号的保真度越高，但占用的资源也越多。如果采样率低于语音频率的两倍，则会产生低频失真、信号混淆现象

在进行语音信号处理时，不同任务对采样率高低的要求不同，在选择合适的采样率时应均衡考虑信号保真度与存储空间。目前，主流的采样有8kHz、16kHz、22.05kHz、44.1kHz等

采样精度

采样精度就是指存放一个采样值所使用的比特数目。当用8个比特（采样精度为8位）存放一个采样值时，对声音振幅的分辨等级理论上为256个，即0至255；当用16个比特（采样精度为16位）存放一个采样值时，对声音振幅的分辨等级理论上为65536个，即0到65536。如果您将采样精度设置为16位，计算机记录的采样值范围则为-32768到32767之间的整数

声道/声音通道数

声音通道数：也称声道数，是指输入或输出信号的通道数，也就是声音录制时的音源数量或回放时相应的扬声器的数量。常见的声道数有单声道、双声道、立体声、四声环绕等

声道指输入或输出信号的通道。通常用多声道来输入或输出不同的信号。如果只需录制一个位置的一种信号时，只要使用单声道就可以了

信噪比

信噪比指信号与噪声之间的能量比。录音时信噪比越高越好。16位采样率的信噪比大约是96dB，8位采样率的信噪比大约是48dB。在录音时，在录音时简单估计噪音大小的办法是：当没有语音信号输入的时候，如果麦克风输入的信号振幅值超过200（单位为采样值，相当于46dB），则噪声就比较大，需要进行一定控制，如在比较安静的环境下录音，关闭窗户、空调、电扇等噪声源，远离电脑等噪声源等等，选用比较好的带有屏蔽的麦克风，选用比较好的声卡等等。噪声的振幅值越低越好，录音室里的录音一般可以控制在10以下（单位为采样值，相当于20dB）