当 DXOMARK 于 2012 年首次开始测试智能手机摄像头图像质量时,该基准称为 DXOMARK Mobile,当时排名第一的摄像头是诺基亚 808 纯景 (Nokia 808 PureView),得分为 61 分。经过五次修改后,该基准现在称为 DXOMARK 影像第五版,在此基准下名列前茅的设备得分超过了 150 分!在短短 10 年多时间里,智能手机摄影技术发生了翻天覆地的变化,将曾经只有全尺寸专业相机才能实现的各种强大图像技术交给消费者手中。
DXOMARK 的影像质量团队一直持续密切关注智能手机摄像头技术的发展,并且调整测试基准以确保评鉴尽可能严格并跟上最新发展。
本文全面深入地介绍 2022 年 10 月发布的最新版DXOMARK 影像测试基准和评分系统,以前所未见的详细方式介绍了我们为评鉴图像质量所付出的极大努力,让您逐步了解 DXOMARK 如何测试每个智能手机摄像头、我们的测试理念和方法,包括所有图像质量属性和细项分数。DXOMARK 也首次自豪地分享我们完整的计分公式,包括细项分数的权重。
这是一段深入了解我们实验室的旅程,我们希望您会喜欢!
免责声明:本文包含受保护的材料,我们认为这些材料属于美国版权法第 107 条范围(即“合理使用”)。
测试方法
用户体验是我们测试方法的核心。我们对用户体验进行科学性的评鉴,并以透明而独立的方式呈现评鉴结果。我们定期研究用户的使用情况和偏好演变,然后更新我们在实验室或现实生活场景中的测试,并弥补不足之处。
我们如何评鉴图像质量?
自然场景下的影像质量评鉴(IQE)并不是一个新课题,它几乎与摄影艺术本身一样古老。 它包括量化并预测当前消费者使用的成像系统所产生的图像质量分布。 为此,我们需要整合经过校准的不同心理测量实验来构建质量标尺,以便我们的专业分析师评鉴个别质量属性 [1]。
评鉴的来源可以是客观的测量标准,也可以是比较性的感知指标。前者需要在实验室装置组建的受控拍摄环境下进行;后者则可以在实验室或自然环境中进行,只要可以进行公允的比较即可。在 DXOMARK,我们同时使用实验室装置和自然场景:在实验室装置上进行客观和感知评鉴,同时也在自然场景中进行感知测试。我们之所以这样测试是为了给自然场景和实验室场景之间建立一种对话,通过复合性的测试,得到最符合真实用户偏好的分数。
在没有现成的客观测量时,或者基于为了给图像质量属性提供补充性的观点时,我们会执行感知分析。这样做的原因有两个:首先,实验室无法重现每一个复杂的场景;其次,现代智能手机可以识别并根据某些类型的自然场景而调整。
下面是比对客观评鉴和感知评鉴的一个例子:
在实验室分析纹理时,我们首先测量客观的纹理锐度,然后使用人工智能计算的图表分数来评鉴细节保留水平。我们的专家在此基础上添加在现实生活情况中测试所得的感知分数。这包括细节保留、局部纹理丢失和不自然的细节勾勒。
我们的测试理念是,在一般情况下使用智能手机的默认模式以及默认的摄像头应用程序进行所有测试。但也有一些例外:就诸如闪光灯自动/关闭、变焦、人像(景深或散景)模式以及视频分辨率和帧率等设置而言,我们会手动选择要测试的模式(参见本文后面)。一方面,测试任意数量的摄像头应用程序和模式并不容易。另一方面,撇开这个困难不谈,上述方法也反映了绝大多数智能手机摄影者的使用经验,因为根据 DXOMARK-YouGov 调研 [2],78%的智能手机用户使用默认设置拍摄图像,只有11%的用户使用专业Pro模式设置拍摄图像。
实验室工具和装置:多种多样可重复的图像质量评鉴
DXOMARK 早在 2003 年就已经开始制造图像质量实验室的硬件和软件,这比我们测试第一款智能手机早了九年!我们所有的基准都仰赖我们自行开发的实验室装置来进行客观和感知测评。我们在实验室里模拟由灯光、俯仰摇摄、振动或白平衡等参数控制的场景,重现了我们的摄影师、工程师和科学家在现实世界中观察到的情况。
因此我们的测试速度快且可重复,并且可达到自然拍摄计划无法实现的水平。此外,我们也能够在不同的拍摄之间比较不同的设备,因为我们已经能够完全掌控拍摄环境。
影像测试基准使用了十几个实验室装置,并且主要使用以下装置:
- 固定的图表装置,一组参考硬件,包括我们标志性的 DMC(DXOMARK 图表)
- 开发HDR 自动对焦、运动和计时装置(又名 AF-HDR)用于在高动态范围照明条件下对自动对焦,噪点等进行进阶评鉴
- HDR 人像旨在重现具有轻微到强烈逆光条件的人像
- 散景感知设置旨在将计算式散景推向极限
在固定图表装置中,我们使用振动平台来重现人手握住摄像头的自然振动。我们还使用专有的自动照明系统,可重现 1 勒克斯至 1000 勒克斯之间的照明环境。最后,我们使用一组图表(其中包括 DMC,即 DXOMARK Chart)来测试几个特定方面。它是评鉴细节保留、分辨率、噪点、色彩渐晕、摩尔纹、混叠和曝光的理想选择。除了 DMC 之外,我们还使用色卡、视觉噪点等装置。我们在公司内部的车间组装并测试所有硬件,凭借严格的质量评鉴和校准来确保测量的可重复性。
HDR 自动对焦、运动和定时装置可以真实地重现现实生活中的情况和测试属性,例如自动对焦、纹理、噪点和曝光。在自动对焦方面,我们在棘手的场景中执行自动对焦,让物体在摄像头前面快速出现和消失。我们还使用右侧的计时框评鉴快门时滞,并测量拍摄时间。此装置通过不同大小的图案和各种灰度图像来评鉴纹理。左侧的移动图表提供了评鉴运动中的模糊纹理的方法。最后,顶部和右侧的明亮图表模拟了难处理的高动态范围场景。
这些装置及与其相关的测量工具都可以向我们的 Analyzer 部门购买,任何人都可以在自己的测试环境中利用我们的实验室基准来进行测试。
自然场景:在实验室外评鉴图像质量
摄影是从一个场景开始的。拍摄风景?还是人像?也许是静物?哪些因素可以决定一张照片?最后一个问题的答案是您需要一个优秀的摄影者和一枚好的摄像头。DXOMARK 不能让您成为一名优秀的摄影者,但可以评鉴后者。最新智能手机中内置如此多的新技术,它有时会像幕后的摄影助理一样,改善您拍摄的图像质量。
今天大多数智能手机都能够在许多条件下拍摄出不错的照片和视频。它们甚至经常对数码单反相机造成威胁。我们在 2020 年发布了一篇关于相机和智能手机之间的图像质量差距如何缩小的文章,详细说明了这一点 [3]。尽管实验室场景的可重复性很高,但它们只能测试符合其设计目的的场景,如果能够在不同的现实生活场景中进行测试,我们还能够检查摄像头的性能是否与实验室中的表现相符。我们还可以利用自然场景来寻找令人意想不到的行为,这些行为可能与新技术、漏洞、伪像甚至新的人机交互有关。
因此,我们需要付出更多努力,方能找到智能手机摄像头的弱点。为此,我们的摄影师和专家发挥创造力,为照片和视频设置了具有挑战性的场景,并在智能手机摄像头测试基准中纳入了广泛自然环境下的拍摄计划。
我们的拍摄计划包含了多种多样的场景。它们代表了智能手机摄影者可能遇到的大多数场景,通常包含多种挑战,诸如户外、室内、低光或夜间照片等。对于我们拍摄计划中定义的每个场景,我们都为重复性控制制定了非常明确的说明:
- 每张照片至少拍摄五次,以评鉴可重复性,并确保我们选择最佳的照片进行公平的比较。
- 我们使用多款设备进行拍摄,包括之前测试过的参考设备,以作比较之用。
- 每一张照片都是由专业摄影师拍摄的。在他们参与拍摄之前,我们都会对他们进行多天的拍摄培训。
- 每个场景都使用相同的方法取景,这在我们的拍摄指导书中有所描述。
- 拍摄时,我们使用专业模特。我们预先对他们进行培训,让他们在每个场景中都采用相似的表情和姿势。我们的拍摄计划还指定了每个场景中的模特肤色。
使用质量标尺进行评鉴
拍摄结束后,我们会在受控的审片室中评鉴照片。每个审片室都使用经过校准的屏幕和受控的照明水平。 图像质量评鉴工程师和专家随后将拍摄过程中使用的所有摄像头拍摄的照片逐一进行比较,并使用质量标尺对视频进行评分。
质量标尺是为主观分析定量的工具,其运作方式如下:对于每张图像和每个图像属性,分析师必须回答一个问题,并附以一个分数。这幅人像上的脸部是曝光不足(2 分)、曝光良好(5 分)还是曝光过度(-2 分)?风景中的天空是否出现严重的剪切(-2 分)、一些剪切(2 分)或毫无剪切(5 分)?图像质量标尺对于有效的设备评分至关重要。在此举一个示例说明它的重要性:光是在室内拍照场景中,我们就使用了 53 个图像质量感知标尺!
我们的工程师、专家和摄影团队设计了这些质量标尺,并随着时间推移予以改进。我们还定期进行消费者调查和筹组咨询小组。例如,为了制定 2022 年修订的摄像头基准,我们与 YouGov 进行了一项消费者调查。我们发现 50% 的用户对手机在低光下的表现不满意,于是我们深入研究低光曝光、色彩和对比度方面的难题。
我们为此构建了一个用户咨询小组。除了我们自己的专家,我们还邀请了来自欧洲、印度和中国的专业摄影师、摄影学生和没有任何摄影知识的消费者。我们使用成对比较法[4],提取了“临界差异”( Just Objectionable Difference ,简写为JOD)分数作为曝光或白平衡色偏的函数。这为了解用户的真实偏好提供了价值。然后,我们也改进了感知图像质量标尺中的接受和拒绝范围。因此,我们的图像质量标尺符合实际智能手机摄像头用户的需求。
定义客观测量的接受条件
对用户偏好的详细定义随后进入我们在实验室进行的客观评鉴中。例如,在色彩方面,我们在 L*a*b* 色域中以省略号的形式绘制用户偏爱的白平衡坐标,它不仅包括准确的白点,还包括最令用户喜爱的图像区域。这是一个客观的测量标准,我们把区分好坏图片的标准建立在实际的用户偏好上,而不是建立在一个任意的规范上。我们在每个场景中执行同样的测量过程,同时考虑照明条件和实际色温。
分数的内容?
评分是 DXOMARK 使命的核心。我们为每个给定的图像质量属性计算最低级别的分数。我们还根据光照条件(例如低光、户外和室内)计算分数。自智能手机摄像头得分创建以来,我们已将智能手机摄像头的整体得分分为多个细项得分。截至今日,我们计算五个主要细项分数:照片、视频、变焦、预览和散景。
影像子分数细节
静态摄影是智能手机摄像头最重要的元素,我们最新的消费者调查也证实了这一点。因此我们将这部分分数加权为整体成绩的 50%。在我们 2022 年修订版测试基准中,照片细项分数发生了翻天覆地的变化。我们扩展了照片空间,更新了我们的低光摄影分析框架,并创建了人像 HDR 实验室装置。在之前的版本中,我们只能通过自然场景和感知评鉴来评鉴后者。
DXOMARK 照片空间
我们所谓的照片空间是指,拍摄照片时覆盖的摄影场景范围。我们的目标是在每次新的摄像头测试基准中增加照片空间。我们的 2022 年修订版现在包括在实验室中使用 20 个装置拍摄的 1,800 张照片,以及在自然场景中拍摄的 600 多张图像。自然场景涵盖了智能手机用户可能拍摄的 25 个典型场景,例如:风景、城市景观、建筑、静物、物体、人物和家庭、逆光人像、近摄等。
我们基准的有效性并非基于评鉴 100% 的不同场景,而是基于摄像头在这些场景中遇到的所有技术挑战。我们将这些挑战分解为六个图像质量属性:曝光、色彩、自动对焦、纹理、噪点和伪像。我们将在本文的第二部分深入探讨这些属性的特殊性。
我们照片空间的最新成员是近摄类别。尽管大多数智能手机摄像头都声称具有微距功能,但真正能够拍摄 1:1 放大倍率(相当于微距摄影的标准清晰度)的摄像头仍然很少见。因此,对这些摄像头进行一系列近距离测试,可以让我们确定哪些摄像头的微距摄影表现更贴近真实的微距摄影。
我们将拍摄计划分为两部分:首先,我们对着官方身份证件连拍三张逐渐靠近的近摄照片,放大倍率至少小于 1:5,以评鉴被测设备是否可以通过最低图像质量水平的检验。在 2022 年,仅有 30% 的测试成功通过考验。
然后,我们拍摄一系列典型微距摄影场景的近摄照片,并进行感知测试,之后在开放尺度上计算近摄照片分数,并将其整合到照片的细分分数计算中。在得分最高的设备上,近摄照片得分只占不到照片细分分数的百分之三。
人像
根据 DXOMARK 和 YouGov 的一项调查[2],人物照片或视频占全球所有摄像头活动的 50% 以上。无论是毕业典礼,还是冬日午后在家里,拍摄人像的场景数不胜数。拍摄人物涉及许多难题,例如面部演色性、对比度、运动、肤色等等。
在实践中,曝光和色彩需要完美的设置才能使人像栩栩如生,同时忠实呈现模特的情感。Steve McCurry [5] 于 1985 年创作的著名人像“阿富汗女孩”展现了前景与背景、织物与头发、皮肤与眼睛之间的曝光与色彩的完美平衡。
如今,HDR 人像变成了拍摄人像时较为棘手的一个方面:在这种情况下,被摄主体和背景显示出重要的照度差异。要么主体处于低光的前景,而背景非常明亮,要么反过来。这往往导致只有人物或背景显示出适当的曝光。
在几年前,只有最优秀的摄影师才能应付这样的挑战,例如 Annie Leibovitz 于 2007 年拍摄的伊丽莎白女王二世人像 [6]。在这幅历史人像中,即使是画面中最暗的部分也呈现了令人难以置信的细节,而女王的面部在从窗户射进来的光线下,仍能获得很好的曝光。今天,大多数手机都可以在瞬间发挥这种魔力。
为了在智能手机摄像头上评鉴如此难处理场景的图像质量,我们开发了一个专门的实验室装置,其中包括明亮的背景和逼真的人体模型。我们凭借图像质量和 AI 专业知识,对 HDR 人像装置开发了四个专门的评鉴指标:面部曝光、背景曝光(亮度保留)、局部对比度质量和基于 AI 的细节保留测量。
决定性的时刻
为人父母的人都知道:在欢乐的时光里为孩子拍出完美的照片相当困难。他们不仅需要在最佳时刻触发快门,还需要在拍摄时定格,以获得足够好看,可以分享的照片。这也是街头摄影本身就是一门艺术的原因。
考虑到这两个挑战,DXOMARK 凭借其在自然场景中的专业知识开发了 HDR 自动对焦、运动和计时 (AFHDR) 装置。它的 2022 年修订版添加了移动物品,并在画面中重现逼真的运动,让新的版本变得更加完善。DXOMARK 智能手机摄像头基准中广泛使用了 AFHDR,使用它对自动对焦进行客观测量,包括快门时滞和运动模糊纹理。
除了 AFHDR 装置外,我们还会拍摄真实生活中的动作瞬间,借此测量快门时滞并评鉴运动模糊。我们的目标不在于创作艺术照片,而是创造多种多样的照明条件和用例。照明条件可分为户外或室内、阳光下或夜间。DXOMARK 对运动进行整体性的测量,这种方式所产生的分数能够真正地代表真实的用户体验。
根据 DXOMARK-YouGov 调查[2],24% 的智能手机用户将录制视频作为拍摄影像的主要方式。智能手机摄像头的视频用途也正在快速增长。为了同时反映现在和未来的使用,我们将此细项分数权重设置为总体分数的 28.5%。视频细项分数扎根于 10 年的视频质量评鉴研究和开发,我们定期为科学界和行业发表有关我们研究的论文[7] [8]。
选择正确的视频模式
在视频模式下,我们使用提供最佳视频质量的分辨率设置和帧率。为此,我们会在启动完整测试基准之前进行一个简短测试。例如,一款智能手机可能提供 4K 视频模式,但默认使用 1080p 全高清。在这些情况下,如果我们没有检测到防抖或噪点管理明显下降(例如,与 1080p 默认模式相比),我们将手动选择 4K 分辨率 30FPS 模式,这对视频细节保留大大有利。
在输出格式方面,如果该手机提供 10 位 HDR 视频格式,我们会偏爱这种格式。无论是 Dolby Vision、HDR10+、Vivid HDR 还是其他类型,我们对各种 HDR 格式都没有任何偏好。我们的专家会根据格式(SDR 或 HDR),在校准过的合适显示器上进行感知分析。
相同的图像质量属性,不同的方法
在视频中,我们使用与照片相同的六个基本图像质量属性来定义其图像质量,并增加了防抖属性。然而,考虑到视频的这些属性的时间性,我们评鉴这些属性的方式并不相同。的确,如果在拍摄几帧后,曝光、色彩或对焦与开始录制时完全不同,那么这些属性就算再好,有什么用处呢?
因此,我们调整了评鉴方法,为摄像机开发了一系列棘手的场景,以测试智能手机摄像头随着不断变化的环境调整的能力。例如,我们测试光线剧烈的快速变化、在暗部逐渐引入户外光线,或打开公寓内的灯。如果摄像头的转换快速且平稳,就可以获得高分。
在伪像方面,我们还评鉴了特定于视频的伪像,例如帧率问题、成块显示(图像压缩问题)、抖动或闪烁。
视频空间
我们的视频空间涵盖了广泛的场景选项。就像照片空间一样,它们涵盖三种照明条件:户外、室内和低光。我们精确地编写脚本来测试所有属性,包括防抖和它们的时域方面,并且涵盖范围广泛的运动和光线转换。这些用例场景包括低光晚餐、酒吧、公寓游览、步行和跑步户外视频、被摄体跟踪、视频摇拍等等。
计算式摄影可以使用两到四个固定镜头来模拟连续变焦,但并非所有智能手机生而平等。额外的镜头尽管可以标榜出色的硬件规格,但有时会导致测试结果比主镜头及其 23 毫米至 27 毫米的等效焦距差。
DXOMARK 于 2017 年推出了首个智能手机摄像头变焦评测。变焦分数首先仅针对远摄变焦,在 2019 年又添加了超广角分数。智能手机供应商利用 ISP 芯片的强大功能来执行变焦,通常是通过多个摄像头模块的图像融合。如今,此系统变得如此复杂,以至于我们需要对所有焦距范围进行评鉴。因此在 2022 年,影像测试第 5 版基准在整个变焦范围内引入了广泛的图像质量评鉴,包括超广角和远摄。我们在 8 到 10 个焦距下评鉴所有质量属性,并纳入了摄像头用户界面上的所有预设变焦按钮。
此测试的开发彻底改造了之前版本的测试。我们纳入了实验室的客观测试和在实验室或自然场景中进行的感知评鉴。我们凭借这种广泛的装置提供在每个焦距上拍摄所得的分数,然后生成每个摄像头模块的原始焦距之外的变焦性能曲线。
DXOMARK 实验室变焦装置
我们的实验室装置由一个智能手机和一个可重现手持动作的摇晃平台组成,该智能手机位于此摇晃平台上。该平台有一个坐落在一个可以滑动的导轨上的平台,可以对着我们的 DXOMARK“DMC”图表来回移动。我们将平台从等效焦距 12 毫米的短距离上开始移动,直到模拟等效焦距 200+ 毫米的距离为止。在每个距离上,我们都会在手机屏幕上进行捏变焦,以类似的方式框住 DMC 图表,然后使用用户界面按钮(例如:x0.5、x1 和 x3)将手机设置为默认变焦比例。如果此按钮是尚未测试的变焦比例,我们还会测量该变焦级别的图像质量。我们在实验室中评鉴的属性是曝光、纹理(细节保留和分辨率)和噪点,并在户外、室内和低光照明条件下进行一系列测量,然后提取最终的综合分数。
我们所做的深度测量可能会得到一些令人惊讶的结果,例如中等变焦级别的图像质量可能会比某些更极端的级别更差。例如,下图显示了谷歌 Pixel 6 Pro 和 苹果 iPhone 13 Pro Max 两款旧设备的变焦图像质量图表。我们观察到 iPhone 确实在 35-70 毫米范围内出现问题,而谷歌设备则在下一个级别(70-85 毫米)出现问题。它们的最大有效变焦比例也不同。直到 4 倍变焦,iPhone 都可以显示出良好的图像质量,反观Pixel 的图像质量则在 6 倍之后才真正开始下降。
视频变焦
变焦拍摄是一项非常微妙的工作。它需要非常先进的镜头和绝好的稳定性。然而,许多著名的电影摄影师都掌握了视频变焦,并借此提升他们艺术水平,例如 Sergio Leone 或 Stanley Kubrick。几年前,使用智能手机拍摄视频时,变焦要么很难处理,要么根本不可能。但是,从那以后,业界难以置信地提高了计算能力,让我们现在可以通过视频变焦来发挥创造力,甚至可以重现电影效果,例如摇拍和变焦、移动式变焦或对着人物进行渐进式变焦。DXOMARK + YouGov 调查显示 27% 的用户在录制视频时经常使用变焦放大功能 [2],这显示用户并未错过使用这些变焦功能的机会。因此我们在 2022 年引入特定的视频变焦分数。我们在多达六个焦距上对着 DMC 图评鉴纹理、噪点、曝光和分辨率。实验室测量与变焦流畅度的感知评鉴相辅相成。它可以显示摄像头在摄像头模块之间是否能够流畅地切换变焦。此测试产生了综合分数后,便会在整体变焦的细项分数中加分。
在传统的摄影世界里,散景纯粹只是硬件的特性。主要的镜头制造商致力于提供最快的光圈。这些镜头会产生一种“深度效果”,使图像被摄体以外的平面变得模糊。过去,这是将被摄体与背景正确分离的唯一方法。
人像照片尤其需要良好的散景,因为必须将注意力集中在模特身上。1987 年 David Demarchelier 为 Vogue 拍摄的这张著名的 Naomi Campbell 人像[10] 就是一个很好的例子。在电影中,分离平面可借由强调影像的重要部分来突出剧情。例如,电影制作人 Stanley Kubrick 在 1975 年的《Barry Lindon》和 1999 年的《大开眼戒》[11] 电影中使用了散景效果。
随着 iPhone 7 系列引入计算式散景功能,人像现在已成为手机摄影的主打产品。智能手机的散景不同于经典摄影中的散景。它使用两个或多个摄像头模块来评估创建模糊所需的景深,从而创造散景效果。另一种方法是利用人工智能系统将场景本身分割成前景、被摄体和背景。2016 年以来取得的进展令人震惊。确实,由于一些现代智能手机采用更大的传感器和大光圈镜头,现在甚至可以产生原生散景。该领域最好的智能手机摄像头采用了一种同时使用自然散景和算法的智能方法。
与全画幅相机相比,计算式散景效果的质量对于智能手机来说可能是一大问题。在这里,您可以看全画幅相机拍出了自然的模糊效果,色彩和形状也都不错,反观三星手机的模糊效果的形状不错,但色彩很少,而 iPhone 虽然保有不错的色彩,但形状却变成了椭圆形。首先,我们显示整个图像,然后显示街道灯光的细部裁剪图:
我们在 2017 年推出了我们的第一个散景基准,并且年复一年不断改进。我们在本文中详细解释我们如何测试散景。我们评鉴手机模糊对焦之外的区域的准确程度,并判断模糊效果的质量和流畅度。我们使用专业摄像头的散景效果作为参考标准,例如,全画幅单反相机上的 50 毫米 f/1.8 广角镜头。
散景测试需要全新的评鉴场景和测试方法。我们测量摄像头模糊背景的效果,以及它们处理各种棘手情况的能力。这些例子包括逆光人像或呈现尖刺元素的物体,例如皇冠。我们还使用自然装置来检测自动场景检测算法中的缺陷。例如,有些摄像头使用人脸检测来模糊人脸以外的所有图像内容,但这种方法非常容易出错,并且通常看起来不美观。
现代智能手机摄像头大量使用后期处理来生成最佳照片,让用户感觉自己正在拍摄的照片与实际结果之间可能存在差异。然而,统一预览和拍摄的图像是一项复杂的工程挑战,因为实时取景使用光图像处理,这与之后在后台处理的实际图像并不相同。有时最终图像是在拍摄后几秒钟内完成的!由于电池消耗、计算能力或手机过热方面的限制,智能手机工程师必须就这些因素与预览质量之间的权衡达成折中。
因此自 2019 年以来,DXOMARK 一直在为智能手机摄像头的预览图像质量评分。我们独特的测试基准可以对预览模式的质量进行评分,因此可以帮助智能手机制造商采用全面性的方法来提供摄像头的摄影体验。我们首先对在户外、室内和低光条件下拍摄的照片进行实时图像增量分析。我们将生成的分数称为“wysiwyg”(所见即所得)。然后,我们根据变焦流畅度、散景效果是否存在,和散景效果的质量,以及是否存在掉帧来修正该分数。
图像质量属性:DXOMARK 分数的支柱
在每个细项分数中,我们评鉴七个图像质量属性。这些属性是整个相机行业和科学界所共有的[12]。图像质量属性如下:曝光、色彩、自动对焦、纹理、噪点和伪像。
图像质量属性
“曝光”项目旨在测量摄像头如何根据拍摄对象和背景亮度进行适当的调整和拍摄,与图像的合适照明级别以及由此产生的对比度一样重要。测试此属性时,我们特别关注高动态范围条件,并检查摄像头拍摄场景从最亮到最暗部分的细节的能力。
条件和难题:我们摆设实验室装置,以评鉴智能手机摄像头在从低光 (1 勒克斯) 到高光条件 (1,000 勒克斯) 的各种情况下的曝光性能。我们还创造了难处理的照明条件(例如逆光场景中的人像),或明暗区域之间的巨大大差异(类似于森林中的阳光)的难题。我们借由许多精心设计的户外、室内、低光或夜间自然场景来补充实验室的评鉴。
评鉴:我们评鉴场景或面部曝光、动态范围、对比度和曝光在连拍中的可重复性。我们使用 L* 亮度和局部对比度保留平均信息量以及局部对比度质量指标作为客观测量。在感知方面,我们使用质量标尺来覆盖感知的测标曝光、暗部或亮部剪切是否存在,以及对比度。特别是,我们使用了多种多样的人像场景,并使用各种肤色的模特来更好地评鉴皮肤的曝光度呈现。
色彩属性测量摄像头在各种照明条件下再现色彩的准确程度,并涵盖演色性在观众眼中的悦目程度。一如曝光度,良好的色彩表现几乎对于每个人来说都很重要,特别是风景和旅行照片更需要仰赖宜人的场景和风景效果,人像照片的好坏也在极大程度上取决于宜人的肤色呈现。
ANALYZER 中用于色彩评鉴的 COLORCHECKER 图表
条件和难题:我们拍摄专业级的标准色彩图表(色卡、灰色图表等)的组合来测量演色性。我们布置了经过仔细校准的自定义实验室场景,以及各种条件下的自然场景。在实验室中,我们使用一个闭路系统来控制照明,以确保正确的光照水平和色温。照明条件的范围则介于极低光到户外条件。我们将自然场景分为人像和非人像。
评鉴:测试色彩时,我们评鉴摄像头估计白平衡的好坏程度和可重复性,然后评鉴它在场景中呈现悦目色彩的能力。客观测试总是从 a*b* 测量值的平均值和标准偏差开始。我们的一系列感知评鉴会考察白平衡的准确性和稳定性、肤色和演色性、是否存在色彩伪像或可以观察到色彩渐晕。在我们的 2022 摄像头基准中,我们对摄像头用户进行了全面的咨询性研究后,更新了可接受的色彩再现的范围。
我们评鉴可接受的范围旨在尊重摄像头制造商的标志性演色性,因为它是许多公司的重要卖点,这也是个人喜好问题。例如,一些摄像头刻意使微弱的钨丝灯光线下的色彩略偏暖色,以传达这种灯光所产生的气氛,我们不会因此而对其扣分。有些摄像头的色彩再现与历史悠久的电影年代的行业标准保持一致,我们不会对它们扣分。在我们基准的最新版本中,色彩评鉴还考虑了人类视觉系统 (HVS) 在不同亮度级别或照明色温下如何感知色彩。
自动对焦属性旨在测量摄像头在不同照明条件下可以用多快的速度来针对拍摄对象进行对焦,以及对焦的准确度。无论是拍摄正在玩耍的儿童还是体育赛事,任何拍摄动作的人都知道,对拍摄对象及时进行对焦并拍出想要的图像并不是件容易的事儿。
条件和难题:我们的实验室装置旨在再现两个主要场景:家庭和风景。此装置通过一组移动物体突破了自动对焦的极限。为了重现手持运动,我们使用了一个根据实际人体测量值校准的机器人平台。我们再次在这里探索各种照明条件。在测量自动对焦性能时,我们使用离摄像头几厘米远的图表,隐藏无限远的场景,并在每次拍摄前对摄像头进行散焦,然后测量关闭图表消失、我们的机器人按下快门,和摄像头拍摄图像之间的确切时间间隔,并记录快门时间。除了 Analyzer LED Universal Timer 外,我们还创建了一个人造快门触发器和多光束系统,以确保自动对焦测量的准确性。
评鉴: 我们测量摄像头自动对焦的准确性和速度,自动对焦锐度和时滞测量是我们客观测量的核心。我们还计算了失败次数(失焦图像)与拍摄次数的对比。在感知评鉴方面,我们查看了数百个场景并评鉴摄像头是否很好地跟踪和对焦摄影对象(拍摄对象的面部、近平面、中间平面或远平面,具体取决于场景)。我们在 2017 年推出了快门时滞评鉴基准,这仍然是 DXOMARK 最具标志性的测量之一,许多摄像头行业的人都将其作为参考基准。我们在两大主轴上评鉴自动对焦性能:快门时滞和锐度,前者以秒为单位,代表自动对焦的速度;后者代表自动对焦的准确性。
在这些测量中,我们提取了上图所示的四个指标,并将其用于计算自动对焦的客观分数:
-
- 被摄体的平均清晰度:被摄体始终清晰对焦至关重要,因此清晰度应该至少高于 90%。
- 清晰度的重复性:该指标应尽可能接近 0。
- 平均时滞显示设备拍摄图像的速度:应该尽可能短;点离蓝色虚线越近越好。如果不是这种情况,可能会错过您试图拍摄的关键时刻,尤其是儿童或体育运动等快速移动的被摄体。
- 时滞重复性也应尽可能接近 0,以便用户可以预测。
纹理属性侧重于摄像头对微小细节的保留程度,在摄像头供应商引入了降噪技术之后(例如,更长的快门时间或多帧融合),这变得尤为重要,因为这有时会产生细节变少或运动模糊变多的副作用。对于许多类型的摄影而言,特别是对于随意的拍摄来说,细节保留并不是怎么重要,但希望打印大幅照片,或者拍摄艺术作品的人都会期待摄像头有不错的纹理表现,此外,正确的细节保留也能更好地表现各种户外场景和人像。
条件和难题:DXOMARK 使用三种实验室装置,以涵盖纹理的各种重要情境:我们的旗舰 DMC(DXOMARK 图表),以及我们的 AF HDR 实验室装置,最后是 HDR 人像装置。它包括几个逼真的人体模型,可以逼真地再现面部特征(眼睛、头发、嘴巴……)和皮肤纹理。我们还在 AF HDR 装置中使用我们自己的“枯叶图”,符合 IEEE 的照相手机图像质量 (P1858)。因此,我们不仅可以评鉴内在细节保留,还可以评鉴儿童在家庭摄影中移动等情况引起的运动模糊。我们还会评鉴所有自然场景的纹理,并将其区分为人像和非人像。
评鉴:DXOMARK 的纹理新工具之一是一组称为“细节保留”的人工智能指标。这个新指标在 DMC 图表和真实人体模型上进行测量,取代了以前的感知分析。我们使用多年来收集的大型注释图像数据库开发了该指标的模型。这些图像来自智能手机摄像头、数码单反相机和无反光镜高分辨率相机。我们还通过 DXOMARK 开发的模糊方向性装置(Blur Directional Unit,简写为 BDU)的指标来测量运动模糊,用来估计模糊发生时拍摄到的运动的长度(越短越好)。
我们对自然场景的感知测试着眼于影响图像质量的不雅的成像(局部细节丢失、过度锐化或面部细节勾勒不自然),并评鉴运动物体上是否存在运动模糊。
纹理和噪点是图像处理的一体两面,改进其中一方,通常会降低另一方的质量。噪点属性表示整体摄像头体验中的噪点量。噪点来自场景本身的光线,也来自摄像头的传感器和电子元件。低光下,图像中的噪点量会迅速增加,如果您经常拍摄夜景或者室内照片,那么找一枚得分高的手机摄像头就很重要了,这能够保证您拍出极少的噪点甚至没有噪点。照片上有时会留下非常细微的亮度噪点,这在某些照明条件下是可以接受的,也是对过去的电影年代的缅怀。一些智能手机摄像头增加了集成时间,但由于防抖或后处理不佳,导致图像纹理呈现模糊或丢失。图像降噪处理也会减少细节并抹去纹理,使图像看起来更平滑。
条件和难题:纹理与噪点之间的权衡是图像处理中的一个关键问题,这也是我们在多种多样的照明条件下进行测试的原因之一。在实验室中,我们使用了两个内部开发的装置,并使其成为智能手机摄像头图像质量的标准。它们也支持纹理评鉴。自动对焦、运动和定时装置可以拍摄运动场景,以模拟用户的运动和逆光条件。我们的 Analyzer 软件在 DMC 图表上计算 AI 噪点分析。
智能手机摄像头图像处理软件还可以检测场景元素,例如人像或移动的汽车,并以不同方式处理此类内容。我们的照片和视频空间包括此类场景以及所有光照条件,以评鉴这些优化的算法。此外,我们自然场景的设计也可以用于检测过长的快门时间,或过度图像处理的任何副作用。
评鉴:我们对静物图进行创新的自动噪点分析,以评鉴视觉噪点。DXOMARK 专家已经在 DMC 上为许多照片进行了分类,而我们的团队也开发了基于神经网络和机器学习的测量 [13] [14]。特别是,该软件使用两种非常适合识别噪点的裁剪图:羽毛和女性人像。我们评鉴人像中的被摄体上和背景中的噪点,以及视场内或移动物体上的噪点管理。
下面是我们在各种光照水平下进行的噪点评鉴中提取的比较图表示例。
伪像属性量化了其他属性中未包含的图像缺陷,这些缺陷是由摄像头的镜头、传感器或处理所引起的。这包括看起来弯曲的直线,或去马赛克失败造成的不正常彩色区域。此外,镜头的中间部分往往比边缘清晰,这也是本细项得分的测试标的。其他伪像可能是计算式摄影的结果,例如重影或晕轮。每次观察到伪像,都会在 100 分的基础分数上扣分,理想的情况是使伪像得分尽可能接近 100 分,并尽可能获得最自然的图像。
视场锐度 3D 图表
条件与难题:我们的实验室测试解决方案使我们能够突显色像差和几何缺陷,特别是使用两个图表时。我们的 MTF 和点图也许看起来很简单,但事实上,它们是评鉴镜头系统标准性能的最佳工具。
我们通过一组全面性的自然场景来补充实验室中的光学伪像测量,以进行感知评鉴。因为,鉴于这些缺陷的性质,我们必须测试大量条件以识别所有缺陷。例如,为了提高图像质量,许多智能手机摄像头会合并多张图像,但这个数字过程可能会引入一些问题。现代计算式摄影中最常见的失败之一是 HDR 场景中的晕轮效果。下面的两张图像很好地说明了这个伪像。
另一种常见的伪像是重影,例如,它可能会出现在一个人挥手时,图像上的手指位置错误。因此,评鉴伪像时,必须测试场景中的运动。
评鉴:我们使用我们的 MTF 图表,由略微倾斜的黑白网格构成。亮区和暗区之间的变化可以用于计算视场中这条线的锐利度(锐度)以及振铃效应。点图表模式由等距的点组成,可测量畸变、视场中亮度降低(镜头渐晕)以及光学系统引入的色像差。
我们在感知分析中评鉴其他缺陷,例如混叠、耀斑、重影、色彩量化、彩色边纹或图像中任何新的意外缺陷。
自电影发明以来,手持摄像机的防抖性能一直是电影面临的主要挑战。斯坦尼康是 1976 年首次使用的摄像机防抖系统,拳击手洛基得意洋洋地跑上博物馆台阶的著名场景只有斯坦尼康才能实现。斯坦尼康可以平稳上楼梯、转弯、沿着碎石路拍摄,在任何方向平稳移动 [15]。但是斯坦尼康是一个笨重的解决方案。从那时起,在技术的进步下,即使最小的智能手机摄像头模块中也可以集成光学影像防抖功能。今天,费城的业余摄像师可以用他们 300 克的袖珍摄像头重现洛基场景。
防抖属性旨在测量摄像头消除录制视频时产生的运动的能力好坏。除非您在拍摄视频时将手机放在稳定的三脚架上,或是在一个外部防抖装置上,否则无论您多么小心地握住手机,它都会摇摆不定。在边走边拍或边跑边拍时,或者在移动的车辆中(如公交车或轮船)拍摄时也是如此。基于上述诸多原因,手持录制的视频通常看起来会摇晃。为了尽量减少摇晃的影响,许多智能手机在录制视频时都提供了电子 (EIS) 或光学影像防抖 (OIS),较高的防抖分数意味着视频更稳定、更宜人。每种防抖都有优点和缺点,具体取决于摄像头运动的性质。
条件和难题:我们在户外、室内和低光下设置了许多创造运动景象的场景。我们针对四种类型的拍摄运动:手持静态、手持摇拍、手持步行和跑步(仅限户外)。
评鉴:评鉴防抖时,我们的视频专家会评鉴运动补偿和伪像两个分数。运动是对实际的数字或硬件防抖性能的评鉴。第二个是伪像评鉴,主要与防抖的计算有关,涵盖了多种伪像:场景变化效果、帧移、“果冻”(抖动)效果、运动残影和帧间锐度差异等。
分数算法:如何用一个数字概括图像质量
总体评分是移动设备摄像头最常被提及的分数。我们根据细项分数计算出总分,由此产生的数字可以让您了解设备的整体图像质量性能,这是一个以用户为中心的分数。提供总分很重要,原因有二:它简单地总结了智能手机摄像头性能的所有方面,而无需搜索测试结果,并且很容易用于排名。在本节中,您可以了解 DXOMARK 如何使用细项分数、权重和附加分生成总分。
可信度:我们评分系统背后的一个重要概念
即使是最现代、最高端的智能手机摄像头也可能在一个测试场景中展现优异的成绩,但在另一个相似的场景中却失败了。换句话说,摄像头在某些情况下表现良好,并不意味着它的表现一直很好。手机摄像头现在被用于各种摄影场景,包括以前需要数码单反相机或无反光镜相机的棘手条件、低光场景、快速移动的拍摄对象或远程变焦。对于智能手机摄像头来说,在所有使用场景中提供一致的良好图像质量非常重要。毕竟,如果您口袋里的那台摄像头是最好的,那么它一定不会让您错过一生一次的拍摄机会。
为了应对这一挑战,我们于 2020 年推出可信度评分。它在每个图像质量属性的评分中加入了一个新的逻辑:我们的分数对失败的惩罚多于对成功的奖励。无论是自然场景还是实验室场景,我们都在每个场景中建立了照片成功必须具备的核心属性。这是一张低光人像?那么我们会更加重视纹理、噪点和自动对焦的成功率。这是一张在户外拍的运动照片?那么我们会仔细研究摄像头在零快门时滞和运动模糊呈现方面的表现。下图显示了在棘手的“千载难逢”的瞬间使用智能手机的示例。
分数结构
我们根据各种细项分数计算 DXOMARK 影像测试总分,总共有九个分数级别。在总分下方,主要的细项分数(第 2 级)是照片、视频、变焦、预览和散景。
我们定义了一个加权系统,为细项分数分配了不同的重要性,以便计算总分和更高级别的细项分数。我们根据 DXOMARK 与 YouGov[2] 进行的智能手机摄像头用户调查的结果创建了这个系统,并且在消费者咨询小组中采访摄影者。我们的最终目标是为了让测试分数尽可能以用户需求为核心基础。在计算总分时,照片表现被认为是最重要的,因此赋予它 1.75 的权重;视频是第二重要的分数,权重为 1;变焦权重为 0.48,预览权重为 0.16,散景权重为 0.11。
以下是有关五个主要细项(1 级)的更多详细信息:
- 照片分数,根据三个 3 级细项分数计算得出,即户外、室内和低光,其权重分别为 4、3、3。照片得分还包括近摄得分。
- 视频分数,根据三个 3 级细项分数计算得出,即户外、室内和低光,它们的权重也分别为 4、3、3。
- 变焦分数,根据四个 3 级细项分数计算得出,即视频变焦、户外、室内和低光照片。我们分解这几项 3 级细项分数到不同焦段上(4 级):超广角、广角、近距、中距和远距变焦。
- 散景分数分为户外(权重 2)和室内+低光(权重 1)3 级细项分数;再細分为物品(权重 1)和人像(权重 3)4 级细项分数。
- 预览分数使用四个 3 级细项分数:所见即所得、变焦流畅度、散景和帧率。除了变焦流畅度之外,每一项都按照明条件(户外、室内、低光)再细分为 4 级分数。
4 级和 5 级细项分数按属性或评鉴类型(感知/客观)汇总结果。我们根据更低级别的分数和测量值计算这些细项分数。例如,计算室内照片曝光客观细项分数(5 级)时,我们结合了两个 6 级分数:“标准客观曝光”和“HDR 客观曝光”。我们从“对比度”、“测标曝光”和“曝光可重复性”等 7 级客观分数中提取标准客观曝光分数。由于我们在三个不同的实验室装置上评鉴曝光,所以测标曝光分数是在每个装置中的原始 L* 亮度测量中获取的三个 8 级测标曝光分数的几何平均值,可以将其视为 9 级分数。
但这还不仅止于此!我们还提取了综合三种照明条件(户外、室内、低光)的智能手机摄像头图像质量属性总分,并将其显示在我们的摄像头测试结果页面中。
用例分数
我们在 DXOMARK 影像测试基准最新的第 5 版中引入了用例评分,以便在最常见的使用场景中进行设备比较。
智能手机用户告诉我们,他们拍摄的 50% 的照片都是人物 [2]。因此我们设计了“朋友和家人”用例来展示一款设备拍摄家人、朋友和宠物的照片和视频的技术性能力。我们在照片、视频、背景虚化和预览测试期间记录的人物和移动对象数据中提取这项分数。这是在所有光照条件下拍摄的 500 多张图像,包括实验室和真实场景中的模特。
用户的一大拍摄痛点是光线不足。的确,50% 的智能手机摄影者对自己拍摄的低光照片和视频表示不满 [2],因此我们设计了低光分数,此用例旨在呈现手机在最棘手的光照条件下拍摄优秀照片和视频的能力。我们在低于 50 勒克斯的光照水平下进行照片、变焦、视频、散景和预览测试,并根据此期间记录的数据来计算该分数,并添加了室内和户外分数,分别等同于 50 到 700 勒克斯和 700 勒克斯以上光照水平下的用例。
公式
DXOMARK 智能手机摄像头评分公式将测试结果、权重和附加分转换为总分。在 2022 年版的影像测试基准中,我们使用几何平均值计算分数,与之前使用的原始算术平均值相比,这样的计算方式可以更好地奖励表现四平八稳的设备。这意味着在所有测试项目中都拿下好成绩的设备的排名可能会高于仅在几项测试中获得优秀成绩,但有一些明显的弱点的设备。
照片、视频和变焦分数的分布范围的情况也与总分相似(在撰写本文时,从大约 20 分到 160 分)。与其他三个类别相比,散景和预览模式的质量还有一些改善的空间。它们的分数分布范围与第 4 版基准中相同(从大约 25 到 85 分)。我们对它们应用 +90 偏移量,以便将它们与其他 3 个细项分数放在同一数量级,如此一来,几何平均数就可以得到很好的平衡。
手机影像测试第 5 版的完整评分公式如下:
我们在本文在深入探讨了 DXOMARK 的测试方法、基准和评分过程。我们希望您会喜欢本文的探讨。如果您对智能手机摄像头有更多疑问,请随时与我们联系!
Appendix
[1] Keelan, B. (2002). Handbook of Image Quality: Characterization and Prediction. CRC Press.
[2] YouGov RealTime survey conducted on behalf of DXOMARK from December 17 to 23, 2021, among 2,000 people per country, representative of the national population aged 18 and over (France, Great Britain, USA), the urban population for India and the online population for China, using the quota method.
[3] Guichard, F. (2020, January 29). Camera vs smartphone: How electronic imaging changed the game. Image Quality and System Performance XVII, Burlingame, California, United States.
Also: “Camera vs Smartphone: How electronics imaging changed the game”. DXOMARK
[4] Mikhailiuk, A., Wilmot, C., Perez-Ortiz, M., Yue, D., & Mantiuk, R. (2020). Active Sampling for Pairwise Comparisons via Approximate Message Passing and Information Gain Maximization (arXiv:2004.05691). arXiv. URL
[5] Steve McCurry, “Afghan Girl”, National Geographic, Vol 167 N°6, June 1985. URL
[6] Annie Leibovitz, HM Queen Elizabeth II Wearing Garter Robes, Buckingham Palace, March 28, 2007, 2007, C-print, 31.6 x 48 cm (Royal Collection Trust) – Smarthistory
[7] Cormier, E., Cao, F., Guichard, F., & Viard, C. (2013). Measurement and protocol for evaluating video and still stabilization systems (P. D. Burns & S. Triantaphillidou, Éds.; p. 865303). URL
[8] Baudin, E., Bucher, F.-X., Chanas, L., & Guichard, F. (2020). DXOMARK Objective Video Quality Measurements. Electronic Imaging, 32(9), 166-1-166–167. URL
[9] “C’era una volta il West”, By Sergio Leone, Euro International Films and Paramount Pictures, 1968 IMDb
[10] David Demarchelier, Naomi Campbell. Conde Nast NPG
[11] “Eyes Wide Shut”, By Stanley Kubrick, Warner Bros, 1999, IMDb
[12] Burningham, N., Pizlo, Z., & Allebach, J. P. (2002). Image Quality Metrics. In Encyclopedia of Imaging Science and Technology. John Wiley & Sons, Ltd. URL
[13]Belkarfa, S., Choukarah, A. H., & Tworski, M. (2021). Automatic Noise Analysis on Still Life Chart. London Imaging Meeting, 2(1), 101–105. URL
[14] Bourbon, T., Hillairet, C. S., Pochon, B., & Guichard, F. (2022). New visual noise measurement on a versatile laboratory setup in HDR conditions for smartphone camera testing. Electronic Imaging, 34(9), 313-1-313–318. URL
[15] Kenigsberg, B. (2016, December 16). The Invention That Shot Rocky Up Those Steps. The New York Times.
本文提供的材料旨在用于评论、教育和信息目的。所有未由 DXOMARK 拍摄的照片均是收购、获许可使用的照片,或者已经注明出处,并链接至照片的原始来源,或者是属于公共领域的照片。此外,受版权保护但未取得授权的材料的使用方式如下:
- 它们并非本文的主要课题。
- 它们仅用于评论和教育目的。
- 它们不会干扰该媒体的原始目的。
- 这些图像和视频材料以较低分辨率呈现,不太可能影响版权所有者转售或以其他方式从作品中获利的能力
- 如果未经原始用户授权,DXOMARK 不会从受版权保护的媒体中谋取利益
据信,这符合美国版权法第 107 条对于任何受版权保护的材料的“合理使用”的规定。根据美国法典第 17 篇第 107 条的规定,本文中的材料属于无偿分发给想要将所含信息用于研究和教育目的的人。如果您希望将本网站中受版权保护的材料用于您自己超出“合理使用”范围的目的,则您必须获得版权所有者的许可。本网站上的信息不构成法律性或技术性建议。