深入了解我们如何测试手机音频

就在智能手机用户在移动设备上录制和播放更多的视频和音频内容时,DXOMARK于2019年10月首次推出智能手机音频的测试。从听音乐或看电影到录制音乐会或会议,智能手机音频技术不断发展,智能手机音频的应用方式也在不断变化。DXOMARK的工程师已经跟上了这些进步,并调整了音频测试基准,以保持它与用户的体验紧密相关。  在这篇文章中,我们将带你深入了解我们如何测试智能手机的播放和录音能力。我们将看看我们用来评估智能手机音频播放和录音质量的方法、工具和用例。

测试环境

根据我们的测试协议,手机音频性能测试是在不同的环境中进行的。尽管有一部分的录制是在真实生活环境下包括室内或户外,但是为了提高实验环境的一致性,绝大部分的测量都是在实验室条件下进行的。 

通过在一个声学平衡的房间里配置一圈扬声器组,我们的工程师可以根据录制模拟任何环境来进行录音。同样地,另有一间经过声学处理的房间则专门用于声音播放的感知评估。这些用于声学测试的房间均经过了声学处理以保证其均衡的频率响应。 

由于许多的客观测量需要非常严格的条件,我们会在消声环境中进行设备测试,这要归功于一个特别设计的,可以消除绝大部分声音反射的消声箱。对于需要较大实验装置的测量,比如我们的音频变焦测试,则会在消声室内进行以最小化实验过程中声音的反射 

DXOMARK的消音室

客观测试工具 

音频测试的重点在于评估设备是否具有以精确方式传达和捕捉声音的能力,因此使用科学实验级的经过声级校准器校准的麦克风进行测量,以及精心优化的扬声器为声源客观测量上具有非常重要的作用这些科学精准的实验设备我们实验室严格受控音频测试链的关键组成部分。 

左起依次为经过声学优化的Genelec 8010扬声器,用于科学级测量的Earthworks Audio M23麦克风,实验室用声级校准器型号CAL 200),以及电动旋转台X-RSW60A-E03 

被测设备可以用安装在支架上的夹子或者用磁性支架固定。在一部分的测试中,被测设备会被安装在一个由电脑程序控制自动旋转的转盘上进行360°精确测量。 

客观测试的结果由我们的工程师根据测量类型使用一系列不同的软件来进行数据处理。其中,频率响应,指向性,THD+N(总谐波失真 + 噪音)都由我们工程师在python上设计开发的程序进行处理其处理原理遵循音频行业广泛使用的信号处理方法其他的测量,比如音量测试则使用免费的REW软件。客观测试的结果处理完毕后其数据结果将进入DXOMARK内部开发的评分算法中进行评分。评分算法会根据具体的标准,例如频率响应的平坦度/分散度、音频响度值、各频段的失真百分比等进行算法设计,以得到最符合用户体验和听觉感知的分数。 

测试工具 

通过客观测试,我们可以得到很多关于智能手机音效的信息然而,没有什么比感知评估更能反映用户的真实体验。人耳是不可取代的复杂工具,可以提供其他测量工具无法提供的独特信息。因此客观测试与感测试是相互补充和加强的,缺一不可。 

实验室手机播放性能感知测试装置 

敏锐的听觉是我们经验丰富的音频工程师的一项基本素质受聘后他们还会接受额外的听觉培训在感知测试过程中,待测设备将与多达五台其他设备以及作为参考的录音室校准后的扬声器进行比较评估。感知评估遵守严格的测试协议,对各项属性进行明确的定义和阐述以确保测试结果的严谨准确。此外,每一测试都经过两道来自不同工程师的检查以消除测试有可能存在的偏 

音频的播放评估是在一个经过声学处理的实验室内进行的。一般情况下,待测设备以及其参照设备会被固定在一个半圆臂支架上以保证所有设备跟音频工程师保持相同的距离。在一部分的测试中,设备也会被固定在反射板用来增强设备的空间特征,例如立体声广和定位能力。并以此提测评的质量。 

一位工程师在DXOMARK的声学实验室进行手机录制测试 

录制评估由音频工程师通过标准化录音室耳机进行听测的它遵循与播放评估一样严格的测试协议。所有之前在我们实验室测试过的智能手机如今依然会被作为感知评估的参考设备,无论是用于播放,录音或是两者皆有。借助于不断的参照对比测试,我们的评估数据库和分数即便在多年测试以后也依然能保持一致。 

音频质量属性 

我们的音频质量属性已经按国际电信联盟(ITU)发布的报告ITU-R BS.2399 : Methods for selecting and describing attributes and terms, in the preparation of subjective tests进行了词汇标准化定义,如下面的音频质量属性图所示。标准化感知评价意味着我们音频使用的词汇的含义和定义建立一个国际广泛认同的共同理解。

音频属性和子属性以及评价术语 

从这些音频专业描述词汇中我们可以找出最大的集群构成我们主要的音频属性。这些属性又被细分为单独的构成品质,我们称之为子属性。 

音色 

音色描述了设备根据使用情况和用户期望呈现正确的频率响应的能力,要检测其低音、中音和高音频率,以及它们之间的平衡。根据参考音轨以及原始音频材料,良好的音调平衡通常包括频率的均匀分布。根据用户的使用情况,我们还会对不同音量下的音调平衡进行评估。此外,检测每个频率区域是否存在不必要的共振陷波,以及延展频率也非常重要。 

力度 

力度涵盖了一个设备呈现响度变化的能力,以及其传达冲力清晰的起音和低音精度的能力。力度是诸如律动,精准,冲击力等概念的基石。类似鼓声拨弦或者钢琴音符等音乐元素如果力度渲染松散,听起来就会模糊不清,不准确,而且会妨碍听觉体验。在电影和游戏中也是如此,缺乏力度渲染,动作部分很容易让人觉得不够生动。 

对于一个给定的声音,力度信息主要由信号的包络来承载。让我们看看一个简单的bassline,它不仅需要清楚地定义起音,使音符彼此区分开来,还需要准确地渲染延音以传达原始音乐想要表达的感觉。作为力度的一部分,我们还测试了整体的音量依赖性,或者换句话说,起音冲击力和低音精度如何根据用户的音量步骤而变化。此外,信噪比(SNR)也是麦克风测评的一部分 

空间感 

空间属性描述的是设备渲染虚拟声音场景使其能真实地反应现实的能力它包括感知声音场景的广度和深度,左/右平衡,虚拟声场中单个声源的定位能力以及它们的感知距离。  

如预期的那样,智能手机的单声道播放通常不是一个好的空间感再现的标志,甚至可能不具备良好的音频播放性能。智能手机还存在许多阻碍空间感实现的障碍,例如倒置的立体声渲染,或者不均匀的立体声平衡。值得庆幸的是现在这些问题已经越来越少了。而另一方面,一些诸如精确的定位能力和逼真的深度等细节元素则更难精准调试,同时也是智能手机音频中常出现的不足之处。 

空间感传达了沉浸式的感觉,使人们在音乐或电影中获得更好的体验。 

在录音测试协议中,我们也对声音采集的指向性进行了评估。 

音量 

音量属性涵盖了设备无论是在录音还是播放中可感知的音频响度音量稳定性,以及无缺陷呈现无论是安静还是响亮声音内容的能力。包括了客观和感知两项测试。 

这里用设备A一个例子,它具有非常好的音量一致性,音量阶梯均匀分布在最大值和最小值之间,有几乎一致的斜率也不存在音量不连续或者音量跳跃的情况。相反地,设备B的音量步长分布就相当不平稳。在低音量区域它的音量步长缺乏精确性,每一个音量都有巨大跳跃,而在大音量区,最后的五个音量步长几乎有完全相同的音量。 

音损 

音损是指任何意外的或者不必要的声音,通常是由设备的设计或者调音导致此外音损也可能来自于用户和设备之间的互动,例如改变音量大小,播放/暂停,或者是简单的握持设备。这也是为什么我们还会特别测试设备的麦克风对遮挡的处理最后,音损也可能来自于设备在处理例如录音时出现风噪声之类的环境限制时的挣扎音损主要可分为两类,时域音损(抽敲击…… 以及频域音损(失真,连续噪声,相位问题……) 

背景音 

音频背景属性是针对录音测试的,因为它只关注录制内容的背景。背景测试包括上面提到的一些音频属性,如音调平衡、指向性和音损 

音频基准测试 

DXOMARK音频测试协议是基于特定的用例,反映了人们使用手机最常见的方式听音乐或者播客,看电影和视频,录制视频,自拍视频,音乐会或者户外活动等等。这些使用场景被归入两类播放和录制。每个使用场景都涵盖了与评估相关的属性和子属性。 

播放 

根据我们对1550名参与者进行的问卷调查,电影/视频观看占了智能手机扬声器的大部分使用情况,其次是音乐/播客收听,然后是游戏。我们的播放测试协议包括对以下属性的评估音色、力度、空间、音量、音损 

客观测试 

在我们的音频工程师进行感知评估前,所有的待测设备都要在实验室里进行一系列的客观测量。关于播放测试协议,其测试的重点集中在音量,音色和音损上。 

客观测量是在消声箱内进行的。消声箱内安装有一个经过校准的麦克风阵列,一个音箱和一个可调节的手臂支架,支架的两侧都可通过磁力连接固定待测设备。箱子内部有玻璃纤维楔子,覆盖整个箱子内壁以确保在最大程度上消除声波反射,保证只有来自设备的声音被麦克风捕捉。 

用于智能手机音频测量实验室消声箱装置,含科学测量级别麦克扬声器 
消声箱内手机固定在正对扬声器的支架上进行录制测试 

客观测试是使用各种合成信号(粉红噪声、白噪声、正弦扫频、多音信号)以及音乐内容进行的。 

下表总结了播放测试协议内的客观测试项目 

属性  测试 备注
音量  音量稳定性  使用粉红噪声对待测设备的每个音量步长进行声压级(SPL)测量。设备的音量步长最好是能够均匀地分布。 
最大音量  测量设备在最大音量下播放不同类型的信号时的声压级(SPL) 
最小音量  在设备最小音量(第一级音量)下播放不同类型信号进行声压级(SPL)测量。 
音色 频率响应 待测设备的内部扬声器的频率响应是在三个选定的音量水平上测量的:轻音量、标称音量以及最大音量。 
音损 THD+N 

总谐波失真加噪声 

总谐波失真加噪声是在上面提到的三个音量水平上测量的。 

 

 

电影/视频 

由于许多用户都会使用手机的集成扬声器观看视频和电影,因此这个用例在我们的音频测试协议播放部分具有更大的权重。DXOMARK旨在提供一个全面的感知评估,侧重于测试电影或视频的音频内容由设备扬声器演绎再现的效果。 

播放的音调平衡应该跟原始音频材料保持一致,声音的清晰度尤其重要,但我们同时也关注整体音色的丰富程度以及低音端的精确性和影响力。在电影或视频中,音量的变化可能很重要,因此我们也测试设备对广泛的动态范围的处理以及检查是否有过度压缩的情况 

在评估设备渲染的立体场景广度以及各种音频图像元素的定位能力和深度的时候,我们会将设备固定在声学反射板上进行听测。 

音乐 

在过去的几年里,智能手机的音频质量已经有了极大改善,调查显示,有大量用户经常使用手机扬声器听音乐,考虑到这一点我们在音乐用例中广泛采用了各种类型的音乐。 

评估包括多个相关方面的测试,例如音调平衡相对于参考曲目的真实性,以及低音、中音和高音的适当重新分配。通常情况下,智能手机的音频播放往往缺乏一些低频和高频,因此我们在测试过程中尤其重视手机为音频拓宽频率边界所作出的努力。此外,我们还密切关注频谱中的凸起与凹陷,并评估不同音量下音调平衡的一致性。 

另外,与力度有关的一些属性,如起音,低音精度,冲击力也会在不同的音量下进行评估。例如在最大音量下,压缩的存在可能会阻碍起音或是低音精度,而在低音量情况下,冲击力就可能没有那么理想。 

类似于电影用例,音乐用例测试包括空间方面,如渲染的立体场景的广度和深度,以及乐器和声音的定位能力。这些子属性不仅在手机横向模式下进行测试而且也在纵向或是颠倒的横向模式下测试。 

手机的最大音量应该在不过度失真或是压缩的情况下尽可能的大。而智能手机音量不够大往往是很常见的。同样地,最小音量应该足够安静但依然能够非常清晰地听到声音内容。 

游戏 

游戏这个用例的测试回应了智能手机在游戏方面日益增长的使用需求。随着芯片和内存性能的飙升,手机的游戏性能越来越高,而手机游戏的音频能力也该如此。DXOMARK的音频游戏用例旨在评估音频为游戏提供的沉浸式感受效果,这意味着声音的广度,尤其是定位能力必须很强。冲击力和良好的低音能量也是必不可少。 

这些子属性都是在不同的音量下评估的,无论在哪个音量等级,手机的游戏体验都应该保持最佳。我们也会注意观察在最大音量下可能出现的音色受损,以及失真和压缩等音损。 

同时,我们还测试了游戏过程中的扬声器遮挡情况。在激烈的游戏过程中,来自扬声器的声音可能很容易被用户的手遮挡住,这在很大程度上取决于扬声器在手机上的位置,以及扬声器输出孔的机械设计。 

录制 

客观测试 

音频录制的客观测试集中在三个属性上: 音色音量以及方向性频率响应是针对主相机和默认的语音备忘录应用测量的。最大响度检测的是手机处理大音量录音的能力。 

音色和音量测试是在消声箱内使用扬声器进行的。而一些需要更大空间的客观测试,例如音频变焦测试,则在消声室内进行。 

下表总结了在录制测试协议下的客观测评内容 

属性 测试 备注
音色 频率响应  频率响应是在80dP SPL下测量的,一共有3种设置:横向模式+主摄像头,纵向模式+前置摄像头,纵向模式+语音备忘录应用 
音量 最大音量  手机横向放置,在以下四个不同的音量下用主摄像头录音94dBA, 100dBA, 106dBA, 112dBA 
录制音量  模拟条件(视频、自拍视频、语音备忘录、会议、音乐会)下的LUFS测量 
风噪声 风噪声指标  手机固定在一个旋转桌面,正对制风机四周有声源围绕,在不同的和风向条件下录制音频。 
音频变焦 音频变焦的指向性  手机以横向模式固定在旋转桌面,在距离声源2米处每个角度(10°步长)下手机在三个不同变焦录制音频的频率响应。 


模拟使用案例

模拟用例是在经过声学处理的房间里使用一圈扬声器进行的一系列模拟场景录音。我们通过使用预先录制的背景和各种声音的不同组合来实现手机麦克风录音过程中最常见的一些使用场景。 

实验室模拟这些环境可以实现录制内容的一致性,同时也能简化多种场景录制的过程。 

下表列出了最重要的录制模拟使用案例: 

 

背景 设置 备注
城市 视频(主摄像头) + 横向录制  Simulating videos filmed in busy urban environments.
城市 自拍视频(前摄像头) + 纵向录制  Several types of voices are played at different angles from the front, side, and rear. Voices are played consecutively and simultaneously, with varying intensity.
城市 语音备忘录 + 纵向录制  Simulating a memo recorded in busy urban environment.This use cases focuses only on one frontal voice varying in intensity.
家庭 视频(主摄像头) + 横向录制  Simulating videos filmed in home environments.
家庭 自拍视频(前摄像头) + 纵向录制  模拟在家庭环境中拍摄的视频。人声内容与城市用例的内容相似。 
办公室 语音备忘录 + 横向录制屏幕面朝上  模拟办公室环境下用语音备忘记录的会议内容。这个用例的重点是模拟放在办公桌上的设备录制的来自周围的声音各种声音内容的强度不同,可以连续同时播放。 

我们的音频工程师对录制的模拟用例进行感知评估的时候会考虑到用户的期望,包括对视野外声音和背景噪音的衰减,清晰的声音定位和距离感,宽广和身临其境的立体场景,自然的音调平衡和易辨识的语音内容,以及其他的一些相关子属性。 

室内/户外 

室内/户外用例是对模拟用例的补充,录音是在真实生活场景中进行的,而不是实验室模拟环境该项测试的重点在于语音的可识别度音量和信噪比此用例的录制借助一个专门设计的可同时容纳四部手机的支架。在室内或者户外环境中每台设备都开始录制后,由语音播报员在设定的距离内清晰地播报选定的哈佛句子。室外场景的特点是存在附近道路上过往车辆的声音以及一些户外的风声,而室内场景背景声则有吸尘器工作的声音。在这两种场景中,设备都有三个方向的录制:横向 + 后置主摄像头,纵向 + 前置摄像头,纵向 + 语音备忘录 

音乐会 

由于智能手机通常被用来记录音乐会和其他活动,这个用例旨在评估设备在高音量情况下处理音乐录制的表现 

测试是在前面介绍过的消声箱内进行的,设备会录制一组音量为115 dB的音乐曲目每个曲目都有一些共同元素,例如低音,鼓声和人声,但它们在流派,乐器和混音上有很大的区别。在测试曲目和条件上我们有意选择比较极端的情况,因此评估所涉及的一个关键问题当然是音损的控制,关注例如失真,压缩,抽吸等音损现象。此外音乐性上的音调平衡也是我们在录制音乐会测评时关注的焦点关于力度,有许多的元素都是其评估的对象,例如整体的冲击力,低音精确性以及鼓声的弹性 

这个用例也是测试设备音频聚焦能力的机会,通过将手机镜头聚焦在一个特定的元素成功地将该元素与音频场景中的其他内容包括背景噪音隔离开来是目前手机音频效果中非常尖端的功能。 

遮挡 

由于手机本身的结构,在录音过程中用户的手不小心遮挡住一个或几个麦克风是非常常见的现象。这个用例的目的是评估手机麦克风有多容易被遮挡以及设备的音频是如何处理遮挡情况的。 

在此项测试中的录音是在手机横向或者纵向时分别使用前置和后置摄像头进行的涉及语音备忘录程序时,则是在纵向或者倒置的纵向上录制录制过程中工程师将手放在预先设定的遮挡位置同时录制一系列语音 

测试过程我们关注的是遮挡引起的对音频录制效果的不良影响此外,虽然可能性相对较小但是这部分音质损伤也有可能来自不恰当的DSP(数字信号处理)。 

风噪 

用户在使用智能手机录音时风噪声是非常令人讨厌的干扰因素。因此我们将这一用例纳入我们的音频录制测试协议,以满足人们对于减少录音中风噪声影响的关注。手机厂商可以通过数字信号处理以及巧妙的麦克风位置安排,或者通常是两种方法的结合来实现降低录音风噪的效果。 

为了使我们的测量保持一致性与精确性,测试是在实验室受控条件下进行的。测试主要设备支持来自一台制风机和一个能旋转的智能手机支架,这两个设备都是在电脑程序脚本控制下自动运行的。另外还有四个经过校准的扬声器放置在旋转支架的四周以便测试语音总是能在待测设备的前方播放,这样的设置使得风的入射角成为一个单独的影响因素制风机设置了三个渐进的风速,此外还有一个无风的参考录音。录音的设置包含三种情况:横向模式+前置主相机,纵向模式+自拍相机,纵向模式+语音备忘录应用程序。 

正在接受风噪声测试的手机 
待测设备固定在正对制风机的旋转台上进行不同角度的风噪测试 

下面的表格涵盖了为风噪声测评设定的参数 

项目  参数 
用例  横向视频 

纵向自拍视频 

纵向语音备忘录 

风入射角  0° (风在设备前方) 

90° (风在设备侧面) 

风速  0 Hz (无风) -> 参照录音 

3 m/s 

5 m/s 

6.5 m/s 

 

除了语音内容之外,我们还使用了粉红噪声来测量风噪抑制其他的客观测试还包括风能计算,以及含风噪录音与无风参考录音相关性计算并由这三项客观分数给出可靠的信噪比数值。 

以上介绍的关于风噪声的客观测试只是我们测试中的小部分,我们的测试更多的是感知性的。在一套标准化的评估规则的帮助下,感知测评内容主要集中在音频的可辨识度上。除此之外测评过程也会考虑到音损。 

音频变焦 

音频变焦也是一种音频分离和过滤的形式,其目的是根据智能手机摄像头的焦点和变焦的程度将目标声源与周围环境声隔离。这项技术在比较新发布的智能手机中越来越普遍,同时它也是一个可以让手机音频效果从众多的竞争对手中脱颖而出的优势项目。 

您可以点击此处了解更多关于此项技术的介绍https://www.dxomark.com/what-is-audio-zoom-for-smartphones 

音频变焦测试的录音是在消声室中进行的,设备横向放置,使用前置主摄像头录制。另有一对扬声器放置在消音室的角落,在待测设备的斜后方发出背景噪音。在设备的正前方三米处放置一个带有假人脸的扬声器,用于播放主要的声音信号(语音或音乐)。 

在录音过程镜头聚焦并放大带有人脸的扬声器时,具有音频变焦功能的智能手机会随着变焦数的提高而越来越多地将主信号从背景音中分离出来。在进行音频变焦测试之前,我们会使用自动旋转支架用手机录制对数正弦扫频信号并以此测量手机在三个不同变焦水平上的指向性,即:广角(x1 Wide)、远摄 (Telephoto) 和超远摄(Super Telephoto)。如果设备通过此项客观测试被证明具有音频变焦功能,我们就会对每个变焦级别使用语音和音乐两种类型的信号进行一系列的录制。最后由我们的音频工程师对录音进行感知评估。 

感知测评过程中,我们需要对多个子属性进行评估。其中包括侧面排斥,相当于音频分离的强度音量一致性,这涉及到对缩放水平和音量增量之间的相关性进行评级,此外也包括音调平衡。事实上,对录制的声音内容进行音频变焦处理后,检查其主信号音色的完整性是非常重要的。有部分设备音频变焦的实现是针对语音的,而对乐器声音的处理并不总是到位的;不仅音色会变差,而且DSP(数字信号处理)也可能出现故障,甚至诱发音损,这一点也是包含在测评范围之内的 

 希望通过这篇文章,大家对于我们测试智能手机音频重要属性的一些科学设备和方法有了更详细的概念。