Para elevar el video de mejor calidad de sonido a YouTube, debe conocer la especificación de normalización de sonoridad de YouTube.
Sin embargo, la especificación de normalización de sonoridad de YouTube no se publica. Algunas personas ya han sido investigadas, pero no se conocen fórmulas de cálculo específicas.
Intenté estimar la fórmula para la normalización de la sonoridad en YouTube.
Contenidos
- 1 Especificación de normalización de sonoridad de YouTube
- 2 Política de investigación
- 3 Un gran cuadro de la normalización de la sonoridad de YouTube.
- 4 Fórmula de cálculo de sonoridad en YouTube
- 5 Video de prueba utilizado para la estimación de parámetros
- 6 Estimación de parámetros de ecualizador
- 7 Estimación de parámetros distintos del ecualizador
- 8 Apéndice
- 9 Referencias
- 10 Cambiar la historia
- 11 Resumen
Especificación de normalización de sonoridad de YouTube
El siguiente es un resumen de los resultados de la encuesta.
La normalización de la sonoridad se realiza de una manera que la sonoridad de la fuente de sonido se ajusta al valor objetivo de la sonoridad tanto como sea posible dentro de un rango donde el pico no se recorta.
La sonoridad de la fuente de sonido se calcula con sus propias especificaciones, pero al reemplazar la curva de ponderación de Sonoridad a corto plazo de EBU TECH 3341 con lo siguiente y tomar el valor máximo de Sonoridad a corto plazo, es posible obtener una precisión de 1 dB Puede ser aproximado.
Política de investigación
Investigaremos en detalle el marco de la normalización de la sonoridad de YouTube y los detalles del cálculo de la sonoridad.
Un gran cuadro de la normalización de la sonoridad de YouTube.
Creo que probablemente se parece a lo siguiente cuando se hace referencia aquí .
La normalización de la sonoridad en YouTube se realiza de manera que la sonoridad de la fuente de sonido se ajusta al valor objetivo de la sonoridad tanto como sea posible dentro del rango donde el pico no se recorta. Cuando se escribe con una expresión, se convierte en lo siguiente.
Compensación (dB) = Min (- Pico, Objetivo - Sonoridad)
Pico es el pico de la fuente de sonido, Loudness es el volumen de la fuente de sonido, Target es una constante, el valor objetivo de sonoridad y Compensation es la ganancia de corrección. El volumen global cambia uniformemente por la cantidad de Compensación.
Haga clic con el botón derecho en un video de YouTube y el volumen del contenido visto en la información estadística detallada es equivalente a Loudness - Target.
Fórmula de cálculo de sonoridad en YouTube
La fórmula de cálculo de sonoridad de YouTube parece estar utilizando su propia. Por lo tanto, tengo que adivinar.
Considere el siguiente modelo con referencia a ITU-R BS.1770-3.
Ecualizador -> Cortar por ventana -> Convertir a LUFS -> Puertas de enlace -> Agregación
Ecualizador
Ponle peso a cada frecuencia con un ecualizador.
En experimentos anteriores, la ponderación de K adoptada en UIT-R BS.1770-3 y otra ponderación popular no se aplicó, por lo que se estiman las características de frecuencia directas.
Cortar por la ventana
Cortar la forma de onda con la ventana Rect.
La longitud de la ventana y la relación de superposición son parámetros.
Para referencia, los parámetros momentáneos e integrados de ITU-R BS.1770-3 y EBU TECH 3341 tienen una longitud de ventana de 400 ms y una longitud de superposición de 100 ms (la relación de superposición es del 75%). El parámetro de sonoridad a corto plazo de EBU TECH 3341 tiene una ventana de 3 segundos y una superposición de 2,9 segundos o más (la relación de superposición es de 96.7% o más).
Convertir a LUFS
Calcule el RMS de la forma de onda extraída y conviértalo a LUFS con Log 10 (RMS).
También corrige ser 0 con onda sinusoidal estéreo de 1000 Hz. La cantidad de corrección para ITU-R BS.1770-3 es -0.691 dB.
Gating
Con el fin de eliminar la influencia del tiempo de silencio en la sonoridad, descartamos los sonidos pequeños entre los múltiples valores RMS obtenidos al recortar.
Consulte UIT-R BS.1770-3 y EBU TECH 3342 y ejecute la activación por umbral absoluto y la activación por umbral relativa.
Los parámetros son los respectivos valores de umbral. También trato de patrones que no hacen gating.
Para referencia, los parámetros de ITU-R BS.1770-3 y EBU TECH 3341 son Umbral Absoluto -70 LKFS y Umbral Relativo -10 dB. Los parámetros para calcular el rango de sonoridad de EBU TECH 3342 son Umbral absoluto -70 LKFS y Umbral relativo -20 dB.
Agregacion
Tome el promedio o el máximo de los múltiples valores RMS restantes en Gating.
UIT-R BS.1770-3 toma un promedio, pero parece que existe la posibilidad de usar el valor máximo de Corto plazo según esto .
Video de prueba utilizado para la estimación de parámetros
Prepare una película de prueba para estimar los parámetros del modelo de cálculo de sonoridad.
Según aquí , parece que existe la posibilidad de que la normalización de la sonoridad no se aplique si no hay un número determinado de números de reproducción, o no se aplicará a menos que haya transcurrido algún tiempo desde la publicación. Sin preparar los videos de prueba por sí mismos, hay suficientes números de reproducción, seleccionar algunos de los videos existentes que se han publicado suficientes veces y hacer que los videos de prueba.
Una lista de videos de prueba se describe en el Apéndice.
Estimación de parámetros de ecualizador
Al utilizar una película de prueba sinusoidal con un volumen constante, puede eliminar otros efectos que no sean la ecualización en el volumen. Usando esto primero estimamos la respuesta de frecuencia del ecualizador.
Para la fuente de sonido de onda sinusoidal de varias frecuencias, mida el volumen del contenido en YouTube y estime las características de frecuencia tomando la diferencia del RMS de la fuente de sonido. El resultado de la estimación es a continuación. Para obtener información detallada, consulte el Apéndice.
El resultado fue inestable; por ejemplo, los resultados fueron diferentes según la animación, incluso a la misma frecuencia por encima de 16 kHz, por lo que en el siguiente análisis solo usaremos datos por debajo de 15 kHz. Extrapolar con interpolación lineal para 44 Hz o menos y 15 kHz o más.
Estimación de parámetros distintos del ecualizador
A continuación, corrija las características de frecuencia del ecualizador y estime los parámetros distintos del ecualizador.
Calcula el volumen de varios videos con varios parámetros. Compare con la sonoridad (contenido en voz alta) calculada por YouTube y busque el parámetro con el menor error. La lista de videos de prueba se describe en el Apéndice.
Lista de parámetros
Parámetros | Valor |
---|---|
Longitud de la ventana | 400 ms, 3 seg. |
Relación de superposición | 75%, 96.7% |
Umbral absoluto | Ninguno, -70 LKFS |
Umbral relativo | Ninguno, -10 dB, -20 dB |
Agregacion | significa, max |
Lista de resultados
Parámetros | Objetivo estimado (LUFS) | Error Stddev (dB) | Error Max (dB) |
---|---|---|---|
umbral de abs ninguno, umbral de rel ninguno, ventana de 0,4 segundos, superposición del 75%, media | -16.15449408 | 5.51255362 | 10.73290254 |
umbral abs ninguno, umbral rel ninguno, ventana 3 seg, superposición 96.7%, media | -14.97681484 | 4.908278646 | 11.91484089 |
umbral abs ninguno, umbral rel - 10 dB, ventana de 0,4 segundos, superposición del 75%, media | -13.94987923 | 3.954370989 | 7.389401665 |
umbral abs ninguno, umbral rel - 10 dB, ventana 3 segundos, superposición 96.7%, media | -13.68684721 | 3.684007274 | 7.647167492 |
umbral abs ninguno, umbral rel - 20 dB, ventana de 0,4 segundos, superposición del 75%, media | -14.49831437 | 4.531255406 | 9.145055115 |
umbral abs ninguno, umbral rel - 20 dB, ventana 3 segundos, superposición 96.7%, media | -14.01660691 | 4.048723057 | 9.667181199 |
umbral abs - 70 LUFS, umbral rel ninguno, ventana de 0,4 segundos, superposición del 75%, media | -16.15449408 | 5.51255362 | 10.73290254 |
umbral abs - 70 LUFS, umbral rel ninguno, ventana 3 segundos, superposición 96.7%, media | -14.97681484 | 4.908278646 | 11.91484089 |
umbral abs - 70 LUFS, umbral rel - 10 dB, ventana de 0,4 segundos, superposición del 75%, media | -13.89217514 | 3.911543318 | 7.447105751 |
umbral abs - 70 LUFS, umbral rel - 10 dB, ventana 3 seg, superposición 96.7%, media | -13.66565863 | 3.666025972 | 7.668356069 |
umbral abs - 70 LUFS, umbral rel - 20 dB, ventana de 0,4 segundos, superposición del 75%, media | -14.47170654 | 4.52391958 | 9.171662946 |
umbral abs - 70 LUFS, umbral rel - 20 dB, ventana 3 seg, superposición 96.7%, media | -14.00512426 | 4.038389533 | 9.678663846 |
umbral de abs ninguno, umbral de rel ninguno, ventana de 0,4 segundos, superposición 75%, máx. | -8.993721502 | 1.106961021 | 2.968119771 |
umbral abs ninguno, umbral rel ninguno, ventana 3 segundos, superposición 96.7%, máx. | -10.31246414 | 0.90143559 | 1.746039964 |
UIT-R BS.1770-3 | -10.39317645 | 11.03141212 | 33.14216451 |
RMS | -13.03007896 | 10.1756184 | 29.41685531 |
La combinación de parámetros con el menor error fue el tamaño de la ventana 3 segundos, la tasa de superposición 96.7%, la agregación máxima, el error estándar de error fue de 0.9 dB, el error máximo fue de 1.7 dB. Es el valor máximo de Sonoridad a corto plazo de EBU TECH 3341. El valor objetivo de sonoridad es -10.3 LUFS.
Con esto, puedes estimar el método de cálculo de sonoridad de YouTube.
Apéndice
Resultado de la medición del parámetro del ecualizador (tsv)
Datos de estimación de parámetros (tsv) distintos del ecualizador
Referencias
Intenté verificar la normalización de la sonoridad de Youtube.
Cambiar la historia
2018/12/09 Se corrigió un error de cálculo (última versión)
Resumen
Busqué la fórmula para la normalización de la sonoridad en YouTube. Encontré una expresión que se puede aproximar con una precisión de aproximadamente 1 dB.