Algorithme de normalisation de la sonie de YouTube

Afin de générer une vidéo de qualité sonore optimale sur YouTube, vous devez connaître les spécifications de normalisation de l'intensité sonore de YouTube.

Cependant, la spécification de normalisation de la sonie de YouTube n'est pas publiée. Certaines personnes ont déjà été examinées, mais des formules de calcul spécifiques ne sont pas connues.

J'ai essayé d'estimer la formule de normalisation de la sonie sur YouTube.

Spécification de la normalisation de la sonie YouTube

Ce qui suit est un résumé des résultats de l’enquête.

La normalisation de l'intensité sonore est effectuée de manière à ce que l'intensité sonore de la source sonore soit ajustée autant que possible à la valeur cible d'intensité sonore dans une plage où la crête n'est pas réduite.

La sonie de la source sonore est calculée avec ses propres spécifications, mais en remplaçant la courbe de pondération de la sonie à court terme de EBU TECH 3341 par la suivante et en prenant la valeur maximale de la sonie à court terme, il est possible d’obtenir la précision de 1 dB. Peut être approché.

Courbe de pondération estimée utilisée pour la normalisation de la sonie sur YouTube

Politique de recherche

Nous étudierons le cadre de la normalisation de la sonie de YouTube en détail et les détails du calcul de la sonie.

Un grand cadre de la normalisation de la sonie de YouTube

Je pense que cela ressemble probablement à ce qui suit quand on parle d’ ici .

La normalisation de la sonie sur YouTube est effectuée de manière à ce que le son de la source sonore soit ajusté autant que possible à la valeur cible de la sonie dans la plage où la crête n'est pas coupée. Lorsqu'il est écrit avec une expression, il devient le suivant.

Compensation (dB) = Min (- Crête, Cible - Loudness)

Peak est le pic de la source sonore, Loudness est le volume de la source sonore, Target est une constante, la valeur cible du volume et Compensation est le gain de correction. Le volume global change uniformément en fonction du montant de la compensation.

Cliquez avec le bouton droit de la souris sur une vidéo YouTube. L'intensité du contenu affichée à partir des informations statistiques détaillées est équivalente à Loudness - Target.

Formule de calcul de la sonie sur YouTube

La formule de calcul de la sonie de YouTube semble utiliser sa propre formule. Donc, je dois deviner.

Examinons le modèle ci-après en référence à la Rec. UIT-R BS.1770-3.

Égaliseur -> Couper par fenêtre -> Convertir en LUFS -> Gating -> Agrégation

Égaliseur

Peser chaque fréquence avec un égaliseur.

Dans des expériences précédentes, la pondération en K adoptée dans la Rec. UIT-R BS.1770-3 et d'autres pondérations courantes ne s'appliquaient pas. Estimez donc les caractéristiques de fréquence directes.

Coupé par fenêtre

Découpez la forme d'onde avec la fenêtre Rect.

La longueur de la fenêtre et le taux de recouvrement sont des paramètres.

Pour référence, les paramètres momentanés et intégrés des Recommandations UIT-R BS.1770-3 et EBU TECH 3341 ont une longueur de fenêtre de 400 ms et une longueur de recouvrement de 100 ms (le rapport de recouvrement est de 75%). Le paramètre de sonie à court terme de EBU TECH 3341 a une longueur de fenêtre de 3 secondes et une longueur de chevauchement de 2,9 secondes ou plus (le rapport de chevauchement est de 96,7% ou plus).

Convertir en LUFS

Calculez le RMS du signal extrait et convertissez-le en LUFS avec Log 10 (RMS).

Il corrige également la valeur 0 avec l’onde sinusoïdale stéréo 1000 Hz. Le montant de correction pour la Rec. UIT-R BS.1770-3 est de -0,691 dB.

Gating

Afin d'éliminer l'influence du temps de silence sur le volume, nous éliminons les sons faibles parmi plusieurs valeurs RMS obtenues en coupant.

Voir UIT-R BS.1770-3 et EBU TECH 3342 et effectuez une détection de seuil absolu et une définition de seuil relative.

Les paramètres sont les valeurs de seuil respectives. J'essaie aussi des modèles qui ne font pas de gating.

Pour référence, les paramètres de l'UIT-R BS.1770-3 et EBU TECH 3341 sont Absolute Threshold -70 LKFS et Relative Threshold -10 dB. Les paramètres permettant de calculer la plage de sonie de EBU TECH 3342 sont Absolute Threshold -70 LKFS et Relative Threshold -20 dB.

Agrégation

Prenez la moyenne ou le maximum de plusieurs valeurs RMS restantes dans la synchronisation.

UIT-R BS.1770-3 utilise une moyenne, mais il semble qu'il soit possible d'utiliser la valeur maximale de Court terme en fonction de cela .

Test vidéo utilisé pour l'estimation des paramètres

Préparez un film test pour estimer les paramètres du modèle de calcul de la sonie.

Selon ce qui précède , il semble qu’il soit possible que la normalisation de la sonie ne soit pas appliquée s’il n’ya pas un certain nombre de numéros de lecture ou ne l’est que si un certain temps s’est écoulé depuis la publication. Sans préparer eux-mêmes les vidéos de test, il y a suffisamment de numéros de lecture, sélectionnez certaines des vidéos existantes qui ont été postées suffisamment de fois et faites-les tester.

Une liste de vidéos de test est décrite en annexe.

Estimation du paramètre de l'égaliseur

En utilisant un film test sinusoïdal à volume constant, vous pouvez éliminer les effets autres que l’égalisation sur le volume. En utilisant cela, nous estimons d’abord la réponse en fréquence de l’égaliseur.

Pour la source sonore sinusoïdale de diverses fréquences, mesurez le volume du contenu sur YouTube et estimez les caractéristiques de fréquence en prenant la différence par rapport au RMS de la source sonore. Le résultat de l'estimation est ci-dessous. Pour des données détaillées, voir l'annexe.

Courbe de pondération estimée utilisée pour la normalisation de la sonie sur YouTube

Le résultat était instable. Par exemple, les résultats étaient différents selon l'animation, même à la même fréquence supérieure à 16 kHz. Par conséquent, dans la discussion suivante, nous n'utiliserons que des données inférieures à 15 kHz. Extrapoler avec interpolation linéaire pour 44 Hz ou moins et 15 kHz ou plus.

Estimation de paramètre autre que l'égaliseur

Ensuite, fixez les caractéristiques de fréquence de l’égaliseur et estimez des paramètres autres que l’égaliseur.

Calculez le volume de différentes vidéos avec différents paramètres. Comparez avec le volume (Content Loudess) calculé par YouTube et recherchez le paramètre avec le moins d'erreur. La liste des vidéos de test est décrite dans l’annexe.

Liste de paramètres

ParamètresValeur
Longueur de la fenêtre400 ms, 3 sec
Rapport de chevauchement75%, 96.7%
Seuil absoluAucun, -70 LKFS
Seuil relatifAucun, -10 dB, -20 dB
Agrégationmoyenne, max

Liste de résultats

ParamètresCible estimée (LUFS)Erreur Stddev (dB)Erreur Max (dB)
seuil abs aucune, seuil rel aucune, fenêtre 0,4 s, chevauchement 75%, moyenne-16.154494085.5125536210.73290254
seuil abs aucune, seuil rel aucune, fenêtre 3 s, chevauchement 96,7%, moyenne-14.976814844.90827864611.91484089
seuil abs aucun, seuil rel - 10 dB, fenêtre 0,4 sec, chevauchement 75%, moyenne-13.949879233.9543709897.389401665
seuil abs aucun, seuil rel - 10 dB, fenêtre 3 s, chevauchement 96,7%, moyenne-13.686847213.6840072747.647167492
seuil abs aucun, seuil rel - 20 dB, fenêtre 0,4 sec, chevauchement 75%, moyenne-14.498314374.5312554069.145055115
seuil abs aucun, seuil rel - 20 dB, fenêtre 3 s, chevauchement 96,7%, moyenne-14.016606914.0487230579.667181199
seuil abs - 70 LUFS, seuil rel, aucune, fenêtre 0,4 s, chevauchement de 75%, moyenne-16.154494085.5125536210.73290254
seuil abs - 70 LUFS, seuil rel, aucune, fenêtre 3 s, chevauchement de 96,7%, moyenne-14.976814844.90827864611.91484089
seuil abs - 70 LUFS, seuil rel - 10 dB, fenêtre 0,4 sec, chevauchement 75%, moyenne-13.892175143.9115433187.447105751
seuil abs - 70 LUFS, seuil rel - 10 dB, fenêtre 3 s, chevauchement 96,7%, moyenne-13.665658633.6660259727.668356069
seuil abs - 70 LUFS, seuil rel - 20 dB, fenêtre 0,4 sec, chevauchement 75%, moyenne-14.471706544.523919589.171662946
seuil abs - 70 LUFS, seuil rel - 20 dB, fenêtre 3 s, chevauchement 96,7%, moyenne-14.005124264.0383895339.678663846
abs seuil aucun, rel seuil aucun, fenêtre 0,4 s, chevauchement 75%, max.-8.9937215021.1069610212.968119771
abs seuil aucun, rel seuil aucun, fenêtre 3 sec, chevauchement 96,7%, max-10.312464140.901435591.746039964
UIT-R BS.1770-3-10.3931764511.0314121233.14216451
RMS-13.0300789610.175618429.41685531

La combinaison de paramètres avec l'erreur la plus petite correspond à une taille de fenêtre de 3 secondes, à un taux de chevauchement de 96,7%, à l'agrégation maximale, à l'erreur standard d'erreur de 0,9 dB et à l'erreur maximale de 1,7 dB. C'est la valeur maximale de la sonie à court terme de EBU TECH 3341. La valeur cible de loudness est -10.3 LUFS.

Avec cela, vous pouvez estimer la méthode de calcul de la sonie de YouTube.

Annexe

Résultat de mesure du paramètre d'égaliseur (tsv)

Données d'estimation de paramètres (tsv) autres que l'égaliseur

Références

UIT-R BS.1770-3

UER TECH 3341

UER TECH 3342

J'ai essayé de vérifier la normalisation de la sonie de Youtube.

Changer l'historique

2018/12/09 Correction d'une erreur de calcul (dernière version)

2018/12/7 première édition

Résumé

J'ai cherché la formule de normalisation de la sonie sur YouTube. J'ai trouvé une expression qui peut être approchée avec une précision d'environ 1 dB.