Netflix VMAF 视频质量评估工具概述-技术文章-Elecard中文官网,Elecard下载试用,Elecard最新版,Elecard代理商,Elecard,StreamEye,StreamEye Studio,Stream Analyzer-用于多媒体产品开发的实时 IPTV、OTT 和 DVB 监视器、视频质量分析仪、实时编码器和视频转换器、组件和 SDK

原文地址: ** f-the-journey-continues-44b51ee9ed12

本文是 Netflix 关于自家的 VMAF(Video Multi-method Asses ** ent Fusion) 在人类视觉模型和机器学习的帮助下，它可以很好地评估视频的质量。目前，它已经开源并集成 ffmpeg 在这些第三方工具上。

by Zhi Li, Christos Bampis, Julie Novak, Anne Aaron, Kyle Swanson, Anush Moorthy and Jan De Cock

Netlfix 如何评价视频的质量？哪种视频编码方法更好？ Codec A 或者 Codec B？对于这部剧，10000 kbps 是否比 HD 或者分辨率更好 SD(标清) 更好？

从事晋升的时候 Netflix 在播放体验项目时，这些问题我经常问自己的常见问题。许多年前，依靠人们肉眼直觉的判断，我们很难回答这些问题。专业的视觉评价不足以跨越内容、编码实现和上述编码过程。我们可以尝试部署更常规的观测指标，PSNR 或者 SSIM，但它们并不能很好地反馈人们的视觉感受。所以我们开始了这次旅程，开发了一套自动回答上述问题的方法。这就是 VMAF 的来缘。

VMAF）它是将人类视觉建模与机器学习相结合的视频质量指标。该项目始于我们的团队和南加州大学 C.-C Jay Kuo 教授之间的研究合作。他的研究小组以前从事图像感知指标的研究，我们致力于将想法扩展到视频中。随着时间的推移，我们与德克萨斯大学奥斯汀分校等其他研究伙伴合作Alan Bovik教授和南特大学的Patrick Le Callet教授旨在改善与人类主观感知有关的教授 VMAF 准确性，用例的准确性和扩大其范围。我们在2016年6月Github上开源了 VMAF，并发布了第一个 VMAF 技术博客。在这篇博文中，我们希望分享我们的旅程。

行业实践

在Netflix之外，视频社区发现VMAF它是一种有价值的质量评估工具。该项目受益于研究人员和开源社区的广泛贡献。

VMAF已集成到第三方视频分析工具(如 FFmpeg，Elecard StreamEye，a href="http:// ** .compression.ru/video/quality_measure/video_measurement_tool.html"> MSU Video Quality Measurement Tool和 arewecompressedyet中，并且有更成熟的指标(如PSNR和SSIM）成为同样的地位。

在诸如NAB，Video @ Scale和Demuxed在行业贸易展览和聚会中使用 VMAF 演示和演示分数，比较各种编码技术的质量和效率。

该视频质量专家组（VQEG）是由视频质量评价专家组成的国际财团。克拉科夫和马德里 VQEG会议上，对VMAF多次讨论。我们很高兴看到其他研究小组VMAF交叉验证了感知的准确性。Rassool（RealNetworks）报告了4K内容的 VMAF 和 DMOS 分数之间的高度相关性。Bar ** n等人（Kingston University）结论了游戏内容的多个质量评价指标，VMAF 是预测主观分数的最佳方法。Lee等人(延世大学)将质量指标应用于多分辨率自适应流传输，并显示 VMAF 和 EPSNR 与感知质量相关性最高。在Gutiérrez在等人的研究中，VMAF 和 VQM 是表现最好的质量指标。(南特大学)生成了高清和超高清内容 MOS 分数。我们还读了一些声称 VMAF 无法达到预期效果的研究。我们邀请行业和研究人员对最新评估进行评估 VMAF 鼓励他们与我们分享可能会改进下一个版本VMAF反例和极端案例。我们还将在以下部分使用它VMAF解决一些问题的最佳实践。

VMAF为了获得更好的编码决策，可以作为优化标准，我们为此应用VMAF的报告。

VMAF 在 Netflix 比较实际编解码器

传统上，编解码器使用相同的方法：计算多个视频序列 PSNR 根据预定义的分辨率和固定量化设置，编码每个视频序列。然后，构建速率质量曲线，计算这些曲线之间的平均差（BD速率）。该设置适用于编解码器中的细微差异，或同一编解码器中的评估工具。对于我们的用例 Video Streaming，PSNR 由于不合适，因为它与感知质量的关系很差。

VMAF 填补空白，更好地捕捉编解码器之间的巨大差异的巨大差异，并与感知质量相关。它使我们能够比较真正相关区域的编解码器，即在能够获得速度质量点的凸包上。比较不同编解码器和/或不同配置之间的凸包，比较实际重要速率质量区域中的两个选项 Pareto 前沿。我们团队最近在编解码器比较中发表了一些工作技术博客, Optimized shot-based encodes:Now Streaming!上，并在 2018年图片编码研讨会和数字图像处理XLI的SPIE学术论文的应用程序中发表。

编码决策

VMAF在我们的整个生产过程中，不仅可以测量编码过程的结果，还可以指导编码达到最佳质量。在我们的动态优化器中，有一个关于如何中使用它VMAF的重要示例 Dynamic Optimizer，其中，每个镜头的编码决策由每个编码器选项的比特率和质量测量决定。在优化过程中，VMAF 获得准确的质量测量和选择分数凸壳上的最终分辨率/比特率点非常重要。

A / B

不同业务领域的研究人员(如电视)UI团队和流媒体客户端团队）正在不断创新以提高流媒体质量。借助VMAF，我们有一个工具，可以让我们在系统范围内运行 A / B 去量化对会员视频质量的影响。例如，研究人员改变了自适应流算法或部署实验中对新算法或旧算法进行了比较 VMAF。由于该指标在内容上的一致性和人类对质量感知的准确性，非常适合评价实验质量。例如，与使用比特率相反，VMAF 分数为 85 表示所有标题的质量都是“良好”，而相同的比特率可能表示标题之间的质量不同。

方向速度优化一直在努力

当我们于2016年6月在 Github 上首次发布VMAF使用其核心特征提取库 C 编写，控制代码使用 Python 主要目的是支持算法实验和快速原型设计。根据用户的要求，我们很快添加了一个独立的 C 可执行文件可以在生产环境中更容易地部署。我们在2016年12月 VMAF 添加到卷积函数中 ** X优化，这是VMAF计算量最大的操作。这使VMAF执行时间加快了约3倍。最后一次是在2018年6月，我们增加了帧级多线程功能，这是一个长期功能(谢谢DonTequila）。我们还介绍了跳帧功能，允许 N 每个帧中的每个帧都进行 VMAF 计算。这是第一次可以实时计算 VMAF，甚至在 4K 尽管准确性会降低，但情况也是如此。

libv ** f

在 FFmpeg 在社区的帮助下，我们将 VMAF 打包到一个名字libv ** f的C库中。图书馆提供了一个接口VMAF与您的测量值合并C / C 代码中。VMAF 现已包含在内FFmpeg 中作为过滤器。FFmpeg libv ** f 过滤器易于使用，用作输入的压缩视频比特流 VMAF。

精度提升

自从我们将 VMAF 自开源以来，我们一直在不断提高预测的准确性。随着时间的推移，我们修复了基本指标和机器学习模型中发现的许多不良情况，从而产生了更准确的预测。例如，修改基本测量，以提高亮度掩膜的一致性；更新场景边界的运动得分，避免场景变化引起的过度冲击；现在，当推断为高时 QP 区域时，QP-VMAF 保持单调。显然，VMAF 模型的准确性在很大程度上取决于主观分数的覆盖范围和准确性。与以往的数据集相比，我们收集了更广泛的主观数据集，包括更丰富的内容和源伪影，如胶片颗粒和相机噪声，以及更全面的编码分辨率和压缩参数。我们还开发了一种新的数据清理技术，可以消除原始数据中的人为偏差和不一致性，并将其开源到Github上。根据可用信息共同优化新方法的参数，以消除明确拒绝主题的需要。

检查条件适应性

VMAF 框架允许训练针对特定观看条件定制的预测模型，无论是在手机上还是在手机上 UHD 电视上。当我们将VMAF 开源时发布的原始模型是基于这样的假设:1080观众坐在类似的客厅环境中p在显示器前，观看距离为屏幕高度(3H）的3倍。这种设置通常对许多情况有用。然而，当将该模型应用于手机观看时，我们发现它并不能准确地反映观众对手机质量的看法。特别是由于屏幕尺寸小，相对于屏幕高度（> 3H）观看距离较长，观众可观看质量差异较小的高质量视频。例如，与其他设备相比，720在手机上p 和 1080p 视频之间的差异很小。考虑到这一点，我们训练并发布了它VMAF 移动模型。

默认模型和电话模型的示例显示在上面VMAF-比特率关系。可以解释为，在手机屏幕上观看时，相同的失真视频将被认为质量高于高清电视，并使用720手机型号p 和 1080p 视频之间的 VMAF 分数差异小。

最近，我们添加了一个新的 4K VMAF 可以预测模型 4K 并从电视上显示 1.5H 视频的主观质量。1.5H 观看距离是普通观众欣赏的4K内容清晰度的最大距离。4K模型类似于默认模型，因为它们都是 1/60 捕获质量的临界角频率/像素。但是，4K 假设视角较宽，模型会影响对象使用的中央凹和周围视觉。

量化预测不确定性

对 VMAF 一系列代表性视频流派和失真训练。由于基于实验室的主观实验规模有限，视频序列的选择不能覆盖感知视频质量的整个空间。因此，VMAF 预测需要与表示训练过程固有不确定性的信心范围（CI）相关联。为此，我们最近推出了一种方法 VMAF预测得分与 95％ CI 相伴，从而量化预测位于区间内的信心。通过引导和预测残差建立 CI 使用完整的训练数据。本质上，它使用它替换后再采样多个模型的预测残差训练。每个模型都会引入略有不同的预测。这些预测的可变性量化了可信度——这些预测越接近，使用完整数据的预测就越可靠。

上面基于 NFLX公共数据集的示例图显示了与每个数据点相关的95%CI。有趣的是，得分较高的一端 CI 得分较低的一端往往比较 CI 更严格。这可以通过以下事实来解释：训练VMAF模型数据集中，高端数据点多于低端数据点。值得注意的是，自举技术并不一定会提高训练模型的准确性，而是会为其预测提供统计意义。

最佳实践

通常，我们被问及一个特定的计算 VMAF 得分的方法是否合适，或者如何解释得分。本节重点介绍了使用 VMAF 一些最佳实践。

VMAF分数解释

VMAF分数范围从 0 到 100，其中 0 表示最低质量，100表示最高。思考VMAF一种很好的分数方法是将其线性映射到人的意见量表中，在这种情况下可以获得训练分数。例如，默认模型 v0.6.1 使用由绝对类别评分（ACR）训练方法收集的分数，使用该分数 1080p 观看距离为3H。观众对视频质量的评分为差、差、一般、好、优秀，粗略地说，差被映射为VMAF级别20，“优秀”为100。因此，VMAF70分可以被普通观众理解为 1080p 和 3H 好和一般在条件下的投票。另一个需要考虑的因素是，观众可以给出的最佳和最差的选票是通过整个视频中质量最高和最低的视频校准的(在训练过程中和实际开始之前)试者通常习惯于实验的规模））。在默认模型 v0.6.1 的情况下，最佳视频和最差视频分别是在量化参数（QP）低的1080p下压缩和在QP 高的 240p下压缩的视频。

以正确的分辨率计算VMAF

用于自适应流传输的典型编码管道会引入两种类型的伪像-压缩伪像（由于有损压缩）和缩放伪像（对于低比特率，在压缩之前先对源视频进行下采样，然后在显示设备上进行上采样）。在使用VMAF评估感知质量时，必须同时考虑两种伪像。例如，当一个信号源是1080p但编码是480p时，在该对上计算VMAF的正确方法是将编码上采样到1080p以匹配该信号源的分辨率。相反，如果将源下采样到480p以匹配编码，则获得的VMAF分数将无法捕获缩放伪像。当使用VMAF作为每标题编码的质量标准时，这一点尤其重要，其中凸包的构造对于选择最佳编码参数至关重要。

上面的示例说明了正确（左）和错误（右）计算 VMAF时形成的凸包。通过对VMAF进行上采样编码以匹配源分辨率来计算VMAF时，可以轻松识别出具有不同分辨率的曲线之间的交点。另一方面，如果对源进行下采样以匹配编码分辨率，则低分辨率编码将产生不必要的高分，并且曲线之间的交集模式也无法发现。

选择一个上采样算法

在对编码进行上采样以匹配源分辨率时，可以使用许多上采样算法，包括bilinear，bicubic，lanczos，甚至是更高级的基于神经网络的方法。确实，上采样算法的质量越高越好。原则上，应该选择一种最能匹配显示设备的算法。在许多情况下，在显示器中对视频进行上采样的精确电路是未知的。在这种情况下，我们建议一般使用双三次上采样作为近似值。

当分辨率不是 1080p 时解释 VMAF 得分

一个常见问题是：如果源视频和编码视频的分辨率都低于1080p，那么1080p模型（例如默认模型 v0.6.1）是否仍然适用？请注意，默认模型在 1/60 [度/像素] 的临界角频率下测量质量。考虑默认模型的一种方法是，它是“ 1/60 [度/像素] ”模型，这意味着它假定将60个像素打包成一个视角。如果应用几何图形，人们会发现它同样适用于 3H 的 1080p 视频，4.5H 的 720p 视频或 6.75H 的 480p 视频。换句话说，如果将 1080p 模型应用于 720p / 480p 视频，则所得的分数可以分别解释为以 4.5H / 6.75H 的观看距离获得的分数。在这么长的观看距离下，人眼看不见许多伪像，

请注意，这种解释没有校准其他因素，例如眼睛焦距，中央凹视力以及观众对 SD 和 HD 视频的期望。

时间池

VMAF 每视频帧产生一个分数。通常，对于较长的持续时间（例如，几秒钟的视频片段或什至两小时的电影）生成摘要分数通常很有用。尽管存在先进的技术来暂时合并每帧得分，但我们的经验结果表明，简单算术平均值（AM）是最好的平均方式，因为它与主观得分的相关性最高。

另一种有用的平均技术是谐波均值（HM）。通常情况下，它会产生与 AM 非常相似的汇总评分，除了在存在异常值的情况下，HM 强调小数值的影响。

以上示例说明了在不存在/存在小数值离群值的情况下AM / HM 之间的差异。当人们希望基于 VMAF 优化质量同时避免偶发的低质量视频编码时，基于 HM 的时间池很有用。

A / B实验指标

为了了解A / B中不同处理的效果，我们需要度量标准以将每帧 VMAF 分数汇总为每个会话度量标准（即，每个会话一个数字）。更为严峻的是，由于在自适应流传输中，基于各种因素（例如吞吐量）选择了要传输的最佳比特率，因此，基于每个流的持续时间，每个会话将具有不同的每帧 VMAF 值“组合”在该时段的播放期间播放。为了在每个会话中获得单个 VMAF 摘要编号，我们必须1）确定适当的聚合级别2）在这些聚合的基础上建立反映感知质量不同方面的指标。

如果将每帧 VMAF 分数汇总为每个流一个平均值，我们将错过会话期间发生的质量下降。如果我们根本不进行汇总，而是使用每帧值，那么基于每次会话的每帧值创建最终摘要指标的计算复杂度将太高。为此，我们建议间隔几秒钟的间隔，以在分析准确性和易于实现之间取得平衡。

为了了解A / B中不同处理方式的影响，我们建议使用可捕获质量三个关键方面的指标：聚合质量，开始播放质量和可变性。这些可能是整个会话的平均 VMAF，前 N秒的平均 VMAF，以及相对于先前值，VMAF 值下降到某个阈值以下的次数。

旅程继续

从帮助向 Netflix 用户提供最佳视频质量的内部项目，到开始吸引用户和贡献者社区的开源项目，VMAF 一直在不断发展并不断寻找新的应用领域。我们很高兴看到在 Netflix 内部和外部，VMAF 已被应用于编解码器比较，编码优化，A / B 实验，视频分析，后处理优化以及更多领域。独立研究人员已经帮助交叉验证了 VMAF 的感知准确性。开源社区帮助加快了该工具的速度，创建了易于使用的界面，并管理 Github。

但是我们才刚刚开始。

通过与研究人员和 VMAF 采纳者的对话，我们意识到当前 VMAF 可以在很多方面进行改进。举几个例子：

VMAF 使用简单的时间特征，即相邻帧之间的平均低通滤波后的差异。VMAF 可能会受益于更复杂的模型，该模型可以更好地测量时间感官效应。尽管与 PSNR 相比，VMAF朝着正确的方向发展，但VMAF并未完全抓住许多编解码器中感知优化选项的优势。当前，VMAF不使用色度功能，并且不能完全表达HDR / WCG 视频的感知优势。VMAF模型在几秒钟的视频中效果最佳。它不会捕获长期影响，例如新近度和优先级以及重新缓冲事件。

在未来的几年中，我们努力继续改进VMAF，并邀请行业，学术界和开源社区与我们合作。

致谢

在此感谢以下个人在VMAF项目中的帮助：C.-C Jay Kuo教授（南加州大学），Joe Yuchieh Lin，Eddy Chi-Hao Wu，Wang Haiqiang Wang，Patrick Le Callet 教授（南特大学），Jing Li，Yoann Baveye，Lukas Krasula，Alan Bovik 教授（德克萨斯大学奥斯汀分校），Todd Goodall，Ioannis Katsavounidis，视频算法团队成员，Streaming S＆A 的 Martin Tingley 和 Lavanya Sharan以及 VMAF 项目的开源贡献者。

技术文章

Netflix VMAF 视频质量评估工具概述

发表评论：

评论记录：

联系我们

在线咨询

免费通话

微信扫一扫