Afin de générer une vidéo de qualité sonore optimale sur YouTube, vous devez connaître les spécifications de normalisation de l'intensité sonore de YouTube.
Cependant, la spécification de normalisation de la sonie de YouTube n'est pas publiée. Certaines personnes ont déjà été examinées, mais des formules de calcul spécifiques ne sont pas connues.
J'ai essayé d'estimer la formule de normalisation de la sonie sur YouTube.
Contenu
- 1 Spécification de la normalisation de la sonie YouTube
- 2 Politique de recherche
- 3 Un grand cadre de la normalisation de la sonie de YouTube
- 4 Formule de calcul de la sonie sur YouTube
- 5 Test vidéo utilisé pour l'estimation des paramètres
- 6 Estimation du paramètre de l'égaliseur
- 7 Estimation de paramètre autre que l'égaliseur
- 8 Annexe
- 9 Références
- 10 Changer l'historique
- 11 Résumé
Spécification de la normalisation de la sonie YouTube
Ce qui suit est un résumé des résultats de l’enquête.
La normalisation de l'intensité sonore est effectuée de manière à ce que l'intensité sonore de la source sonore soit ajustée autant que possible à la valeur cible d'intensité sonore dans une plage où la crête n'est pas réduite.
La sonie de la source sonore est calculée avec ses propres spécifications, mais en remplaçant la courbe de pondération de la sonie à court terme de EBU TECH 3341 par la suivante et en prenant la valeur maximale de la sonie à court terme, il est possible d’obtenir la précision de 1 dB. Peut être approché.
Politique de recherche
Nous étudierons le cadre de la normalisation de la sonie de YouTube en détail et les détails du calcul de la sonie.
Un grand cadre de la normalisation de la sonie de YouTube
Je pense que cela ressemble probablement à ce qui suit quand on parle d’ ici .
La normalisation de la sonie sur YouTube est effectuée de manière à ce que le son de la source sonore soit ajusté autant que possible à la valeur cible de la sonie dans la plage où la crête n'est pas coupée. Lorsqu'il est écrit avec une expression, il devient le suivant.
Compensation (dB) = Min (- Crête, Cible - Loudness)
Peak est le pic de la source sonore, Loudness est le volume de la source sonore, Target est une constante, la valeur cible du volume et Compensation est le gain de correction. Le volume global change uniformément en fonction du montant de la compensation.
Cliquez avec le bouton droit de la souris sur une vidéo YouTube. L'intensité du contenu affichée à partir des informations statistiques détaillées est équivalente à Loudness - Target.
Formule de calcul de la sonie sur YouTube
La formule de calcul de la sonie de YouTube semble utiliser sa propre formule. Donc, je dois deviner.
Examinons le modèle ci-après en référence à la Rec. UIT-R BS.1770-3.
Égaliseur -> Couper par fenêtre -> Convertir en LUFS -> Gating -> Agrégation
Égaliseur
Peser chaque fréquence avec un égaliseur.
Dans des expériences précédentes, la pondération en K adoptée dans la Rec. UIT-R BS.1770-3 et d'autres pondérations courantes ne s'appliquaient pas. Estimez donc les caractéristiques de fréquence directes.
Coupé par fenêtre
Découpez la forme d'onde avec la fenêtre Rect.
La longueur de la fenêtre et le taux de recouvrement sont des paramètres.
Pour référence, les paramètres momentanés et intégrés des Recommandations UIT-R BS.1770-3 et EBU TECH 3341 ont une longueur de fenêtre de 400 ms et une longueur de recouvrement de 100 ms (le rapport de recouvrement est de 75%). Le paramètre de sonie à court terme de EBU TECH 3341 a une longueur de fenêtre de 3 secondes et une longueur de chevauchement de 2,9 secondes ou plus (le rapport de chevauchement est de 96,7% ou plus).
Convertir en LUFS
Calculez le RMS du signal extrait et convertissez-le en LUFS avec Log 10 (RMS).
Il corrige également la valeur 0 avec l’onde sinusoïdale stéréo 1000 Hz. Le montant de correction pour la Rec. UIT-R BS.1770-3 est de -0,691 dB.
Gating
Afin d'éliminer l'influence du temps de silence sur le volume, nous éliminons les sons faibles parmi plusieurs valeurs RMS obtenues en coupant.
Voir UIT-R BS.1770-3 et EBU TECH 3342 et effectuez une détection de seuil absolu et une définition de seuil relative.
Les paramètres sont les valeurs de seuil respectives. J'essaie aussi des modèles qui ne font pas de gating.
Pour référence, les paramètres de l'UIT-R BS.1770-3 et EBU TECH 3341 sont Absolute Threshold -70 LKFS et Relative Threshold -10 dB. Les paramètres permettant de calculer la plage de sonie de EBU TECH 3342 sont Absolute Threshold -70 LKFS et Relative Threshold -20 dB.
Agrégation
Prenez la moyenne ou le maximum de plusieurs valeurs RMS restantes dans la synchronisation.
UIT-R BS.1770-3 utilise une moyenne, mais il semble qu'il soit possible d'utiliser la valeur maximale de Court terme en fonction de cela .
Test vidéo utilisé pour l'estimation des paramètres
Préparez un film test pour estimer les paramètres du modèle de calcul de la sonie.
Selon ce qui précède , il semble qu’il soit possible que la normalisation de la sonie ne soit pas appliquée s’il n’ya pas un certain nombre de numéros de lecture ou ne l’est que si un certain temps s’est écoulé depuis la publication. Sans préparer eux-mêmes les vidéos de test, il y a suffisamment de numéros de lecture, sélectionnez certaines des vidéos existantes qui ont été postées suffisamment de fois et faites-les tester.
Une liste de vidéos de test est décrite en annexe.
Estimation du paramètre de l'égaliseur
En utilisant un film test sinusoïdal à volume constant, vous pouvez éliminer les effets autres que l’égalisation sur le volume. En utilisant cela, nous estimons d’abord la réponse en fréquence de l’égaliseur.
Pour la source sonore sinusoïdale de diverses fréquences, mesurez le volume du contenu sur YouTube et estimez les caractéristiques de fréquence en prenant la différence par rapport au RMS de la source sonore. Le résultat de l'estimation est ci-dessous. Pour des données détaillées, voir l'annexe.
Le résultat était instable. Par exemple, les résultats étaient différents selon l'animation, même à la même fréquence supérieure à 16 kHz. Par conséquent, dans la discussion suivante, nous n'utiliserons que des données inférieures à 15 kHz. Extrapoler avec interpolation linéaire pour 44 Hz ou moins et 15 kHz ou plus.
Estimation de paramètre autre que l'égaliseur
Ensuite, fixez les caractéristiques de fréquence de l’égaliseur et estimez des paramètres autres que l’égaliseur.
Calculez le volume de différentes vidéos avec différents paramètres. Comparez avec le volume (Content Loudess) calculé par YouTube et recherchez le paramètre avec le moins d'erreur. La liste des vidéos de test est décrite dans l’annexe.
Liste de paramètres
Paramètres | Valeur |
---|---|
Longueur de la fenêtre | 400 ms, 3 sec |
Rapport de chevauchement | 75%, 96.7% |
Seuil absolu | Aucun, -70 LKFS |
Seuil relatif | Aucun, -10 dB, -20 dB |
Agrégation | moyenne, max |
Liste de résultats
Paramètres | Cible estimée (LUFS) | Erreur Stddev (dB) | Erreur Max (dB) |
---|---|---|---|
seuil abs aucune, seuil rel aucune, fenêtre 0,4 s, chevauchement 75%, moyenne | -16.15449408 | 5.51255362 | 10.73290254 |
seuil abs aucune, seuil rel aucune, fenêtre 3 s, chevauchement 96,7%, moyenne | -14.97681484 | 4.908278646 | 11.91484089 |
seuil abs aucun, seuil rel - 10 dB, fenêtre 0,4 sec, chevauchement 75%, moyenne | -13.94987923 | 3.954370989 | 7.389401665 |
seuil abs aucun, seuil rel - 10 dB, fenêtre 3 s, chevauchement 96,7%, moyenne | -13.68684721 | 3.684007274 | 7.647167492 |
seuil abs aucun, seuil rel - 20 dB, fenêtre 0,4 sec, chevauchement 75%, moyenne | -14.49831437 | 4.531255406 | 9.145055115 |
seuil abs aucun, seuil rel - 20 dB, fenêtre 3 s, chevauchement 96,7%, moyenne | -14.01660691 | 4.048723057 | 9.667181199 |
seuil abs - 70 LUFS, seuil rel, aucune, fenêtre 0,4 s, chevauchement de 75%, moyenne | -16.15449408 | 5.51255362 | 10.73290254 |
seuil abs - 70 LUFS, seuil rel, aucune, fenêtre 3 s, chevauchement de 96,7%, moyenne | -14.97681484 | 4.908278646 | 11.91484089 |
seuil abs - 70 LUFS, seuil rel - 10 dB, fenêtre 0,4 sec, chevauchement 75%, moyenne | -13.89217514 | 3.911543318 | 7.447105751 |
seuil abs - 70 LUFS, seuil rel - 10 dB, fenêtre 3 s, chevauchement 96,7%, moyenne | -13.66565863 | 3.666025972 | 7.668356069 |
seuil abs - 70 LUFS, seuil rel - 20 dB, fenêtre 0,4 sec, chevauchement 75%, moyenne | -14.47170654 | 4.52391958 | 9.171662946 |
seuil abs - 70 LUFS, seuil rel - 20 dB, fenêtre 3 s, chevauchement 96,7%, moyenne | -14.00512426 | 4.038389533 | 9.678663846 |
abs seuil aucun, rel seuil aucun, fenêtre 0,4 s, chevauchement 75%, max. | -8.993721502 | 1.106961021 | 2.968119771 |
abs seuil aucun, rel seuil aucun, fenêtre 3 sec, chevauchement 96,7%, max | -10.31246414 | 0.90143559 | 1.746039964 |
UIT-R BS.1770-3 | -10.39317645 | 11.03141212 | 33.14216451 |
RMS | -13.03007896 | 10.1756184 | 29.41685531 |
La combinaison de paramètres avec l'erreur la plus petite correspond à une taille de fenêtre de 3 secondes, à un taux de chevauchement de 96,7%, à l'agrégation maximale, à l'erreur standard d'erreur de 0,9 dB et à l'erreur maximale de 1,7 dB. C'est la valeur maximale de la sonie à court terme de EBU TECH 3341. La valeur cible de loudness est -10.3 LUFS.
Avec cela, vous pouvez estimer la méthode de calcul de la sonie de YouTube.
Annexe
Résultat de mesure du paramètre d'égaliseur (tsv)
Données d'estimation de paramètres (tsv) autres que l'égaliseur
Références
J'ai essayé de vérifier la normalisation de la sonie de Youtube.
Changer l'historique
2018/12/09 Correction d'une erreur de calcul (dernière version)
Résumé
J'ai cherché la formule de normalisation de la sonie sur YouTube. J'ai trouvé une expression qui peut être approchée avec une précision d'environ 1 dB.