YouTube的响度规范化算法

为了将最高音质的视频提升到YouTube,您需要了解YouTube响度标准化规范。

但是,YouTube的响度标准化规范未发布。有些人已经被调查过,但具体的计算公式尚不清楚。

我尝试估算YouTube上响度规范化的公式。

YouTube响度规范化规范

以下是调查结果的摘要。

以在峰值未剪辑的范围内尽可能多地将声源的响度调整为响度目标值的方式执行响度归一化。

声源的响度是根据自己的规格计算的,但是通过用以下内容替换EBU TECH 3341的短期响度的加权曲线并获取短期响度的最大值,可以获得1 dB的精度。可以近似。

用于YouTube响度规范化的估计加权曲线

研究政策

我们将详细调查YouTube响度标准化的框架以及响度计算的详细信息。

YouTube的响度正常化的大框架

我想在这里引用时可能看起来像下面这样。

YouTube上的响度标准化是以在峰值未剪辑的范围内尽可能多地将声源的响度调整为响度目标值的方式完成的。使用表达式编写时,它将变为以下内容。

补偿(dB)=最小值( - 峰值,目标 - 响度)

峰值是声源的峰值,响度是声源的响度,目标是常数,响度目标值,而补​​偿是校正增益。总体积按补偿金额统一变化。

右键单击YouTube视频,从详细统计信息中看到的内容响度相当于响度 - 目标。

YouTube上的响度计算公式

YouTube的响度计算公式似乎正在使用自己的响度计算公式。所以,我需要猜测。

考虑以下模型,参考ITU-R BS.1770-3。

均衡器 - >按窗口切割 - >转换为LUFS - >门控 - >聚合

均衡器

通过均衡器对每个频率进行加权。

在先前的实验中,ITU-R BS.1770-3中采用的K加权和其他常用加权不适用,因此估计直接频率特性。

按窗口切割

使用Rect窗口剪切波形。

窗口长度和重叠率是参数。

作为参考,ITU-R BS.1770-3和EBU TECH 3341的瞬时和综合参数具有400ms的窗口长度和100ms的重叠长度(重叠率为75%)。 EBU TECH 3341的短期响度参数具有3秒的窗口长度和2.9秒或更长的重叠长度(重叠率为96.7%或更高)。

转换为LUFS

计算提取波形的RMS,并使用Log 10(RMS)将其转换为LUFS。

它还通过立体声1000 Hz正弦波校正为0。 ITU-R BS.1770-3的校正量为-0.691 dB。

门控

为了消除静音时间对响度的影响,我们丢弃通过切除获得的多个RMS值中的小声音。

参见ITU-R BS.1770-3和EBU TECH 3342,并执行绝对门限选通和相对门限选通。

参数是相应的阈值。我也尝试不做门控的模式。

作为参考,ITU-R BS.1770-3和EBU TECH 3341的参数是绝对阈值-70 LKFS和相对阈值-10 dB。用于计算EBU TECH 3342的响度范围的参数是绝对阈值-70 LKFS和相对阈值-20 dB。

聚合

取Gating中剩余的多个RMS值的平均值或最大值。

在ITU-R BS.1770-3取平均值,但在这里根据,似乎还有你使用的是短期的最大值的可能性。

用于参数估计的测试视频

准备测试影片以估计响度计算模型的参数。

根据这里 ,如果没有一定数量的播放号码,似乎有可能不应用响度标准化,或者除非在发布后经过了一些时间,否则不会应用响度标准化。如果没有自己准备测试视频,就有足够的播放次数,选择一些已经发布足够次数的现有视频,并制作测试视频。

附录中描述了测试视频列表。

均衡器参数估计

通过使用具有恒定音量的正弦测试影片,您可以消除除响度均衡之外的其他影响。使用它我们首先估计均衡器的频率响应。

对于各种频率的正弦波声源,测量YouTube上的内容响度并通过取得声源RMS的差异来估计频率特性。估计结果如下。有关详细数据,请参阅附录。

用于YouTube响度规范化的估计加权曲线

结果是不稳定的,例如,即使在16 kHz以上的相同频率下,结果也会根据动画而有所不同,因此在下面的讨论中,我们将仅使用低于15 kHz的数据。使用线性插值外推44 Hz或更低,15 kHz或更高。

除均衡器之外的参数估计

接下来,固定均衡器的频率特性并估计均衡器以外的参数。

使用各种参数计算各种视频的响度。与YouTube计算的响度(Content Loudess)进行比较,查找误差最小的参数。测试视频列表在附录中描述。

参数列表

参数
窗口长度400毫秒,3秒
重叠率75%, 96.7%
绝对阈值无,-70 LKFS
相对门槛无,-10 dB,-20 dB
聚合意思是,最大

结果列表

参数估计目标(LUFS)误差Stddev(dB)误差最大值(dB)
abs threshold none,rel threshold none,window 0.4 sec,重叠75%,mean-16.154494085.5125536210.73290254
abs threshold none,rel threshold none,window 3 sec,overlap 96.7%,mean-14.976814844.90827864611.91484089
abs threshold none,rel threshold - 10 dB,窗口0.4秒,重叠75%,平均值-13.949879233.9543709897.389401665
abs threshold none,rel threshold - 10 dB,window 3 sec,重叠96.7%,mean-13.686847213.6840072747.647167492
abs threshold none,rel threshold - 20 dB,窗口0.4秒,重叠75%,平均值-14.498314374.5312554069.145055115
abs threshold none,rel threshold - 20 dB,window 3 sec,重叠96.7%,mean-14.016606914.0487230579.667181199
abs threshold - 70 LUFS,rel threshold none,窗口0.4秒,重叠75%,平均值-16.154494085.5125536210.73290254
abs threshold - 70 LUFS,rel threshold none,窗口3秒,重叠96.7%,平均值-14.976814844.90827864611.91484089
abs threshold - 70 LUFS,rel阈值 - 10 dB,窗口0.4秒,重叠75%,平均值-13.892175143.9115433187.447105751
绝对阈值 - 70 LUFS,相对阈值 - 10 dB,窗口3秒,重叠96.7%,平均值-13.665658633.6660259727.668356069
绝对阈值 - 70 LUFS,相对阈值 - 20 dB,窗口0.4秒,重叠75%,平均值-14.471706544.523919589.171662946
abs threshold - 70 LUFS,rel阈值 - 20 dB,窗口3秒,重叠96.7%,平均值-14.005124264.0383895339.678663846
abs threshold none,rel threshold none,窗口0.4秒,重叠75%,最大值-8.9937215021.1069610212.968119771
abs threshold none,rel threshold none,窗口3秒,重叠96.7%,最大值-10.312464140.901435591.746039964
ITU-R BS.1770-3-10.3931764511.0314121233.14216451
RMS-13.0300789610.175618429.41685531

具有最小误差的参数组合是窗口大小3秒,重叠率96.7%,最大聚合,误差的标准误差是0.9dB,最大误差是1.7dB。它是EBU TECH 3341的短期响度的最大值。响度目标值为-10.3 LUFS。

这样,您就可以估算YouTube的响度计算方法。

附录

均衡器参数测量结果(tsv)

除均衡器之外的参数估计数据(tsv)

参考书目

ITU-R BS.1770-3

EBU TECH 3341

EBU TECH 3342

我试图验证Youtube的响度标准化。

改变历史

2018/12/09修正了计算错误(最新版本)

2018/12/7第一版

摘要

我在YouTube上查找了响度规范化的公式。我找到了一个表达式,其精度约为1 dB。