Algoritmo de normalização de volume do YouTube

Para aumentar o vídeo com a melhor qualidade de som para o YouTube, você precisa conhecer a especificação de normalidade de intensidade do YouTube.

No entanto, a especificação de normalidade de intensidade do YouTube não é publicada. Algumas pessoas já foram investigadas, mas fórmulas de cálculo específicas não são conhecidas.

Tentei estimar a fórmula de normalização de volume no YouTube.

Especificação de normalização de intensidade do YouTube

A seguir, um resumo dos resultados da pesquisa.

A normalização da intensidade do som é executada de uma maneira que a intensidade sonora da fonte de som é ajustada ao valor desejado de intensidade máxima o máximo possível dentro de um intervalo em que o pico não é interrompido.

O volume da fonte sonora é calculado com as suas próprias especificações, mas substituindo a curva de ponderação da sonoridade de curto prazo da EBU TECH 3341 com o seguinte e tomando o valor máximo da sonoridade de curto prazo, é possível obter a precisão de 1 dB Pode ser aproximado.

Curva de ponderação estimada usada para a normalização da intensidade do YouTube

Política de pesquisa

Vamos investigar detalhadamente a estrutura da normalização do volume do YouTube e os detalhes do cálculo do volume.

Um grande quadro de normalização do volume do YouTube

Eu acho que provavelmente parece o seguinte quando se refere a aqui .

A normalização da intensidade do som no YouTube é feita de forma que a intensidade sonora da fonte de som seja ajustada ao valor desejado de intensidade máxima o máximo possível dentro do intervalo em que o pico não é interrompido. Quando escrito com uma expressão, torna-se o seguinte.

Compensação (dB) = Min (- Pico, Alvo - Loudness)

Peak é o pico da fonte sonora, Loudness é o volume da fonte sonora, Target é uma constante, o valor alvo da loudness e Compensation é o ganho de correção. O volume global muda uniformemente pela quantidade de compensação.

Clique com o botão direito em um vídeo do YouTube e o volume de conteúdo visto a partir da informação estatística detalhada é equivalente a Loudness - Target.

Fórmula de cálculo de volume no YouTube

A fórmula de cálculo de volume do YouTube parece estar usando a sua própria. Então, eu preciso adivinhar.

Considere o seguinte modelo com referência ao ITU-R BS.1770-3.

Equalizador -> Cortar por janela -> Converter para LUFS -> Gating -> Agregação

Equalizador

Peso cada freqüência por um equalizador.

Em experimentos anteriores, a ponderação K adotada na ITU-R BS.1770-3 e outras ponderações populares não se aplicavam, então calcule as características de freqüência direta.

Cortada pela janela

Recorte a forma de onda com a janela Rect.

O comprimento da janela e a taxa de sobreposição são parâmetros.

Para referência, os parâmetros momentâneos e integrados da ITU-R BS.1770-3 e da EBU TECH 3341 têm um comprimento de janela de 400 ms e um comprimento de sobreposição de 100 ms (a taxa de sobreposição é de 75%). O parâmetro de intensidade sonora de curto prazo da EBU TECH 3341 tem um comprimento de janela de 3 segundos e um comprimento de sobreposição de 2,9 segundos ou mais (a taxa de sobreposição é de 96,7% ou mais).

Converter para LUFS

Calcule o RMS da forma de onda extraída e converta-a em LUFS com o Log 10 (RMS).

Também corrige para ser 0 com onda senoidal de 1000 Hz estéreo. A quantidade de correção para o ITU-R BS.1770-3 é de -0,691 dB.

Gating

Para eliminar a influência do tempo de silêncio no volume, descartamos pequenos sons entre vários valores de RMS obtidos por recorte.

Consulte a ITU-R BS.1770-3 e a EBU TECH 3342 e execute o limite absoluto e o limite relativo.

Os parâmetros são os respectivos valores limite. Eu também tento padrões que não fazem gating.

Para refer�cia, os par�etros da ITU-R BS.1770-3 e da EBU TECH 3341 s� Threshold Absoluto -70 LKFS e Threshold Relativo -10 dB. Os parâmetros para calcular a faixa de intensidade de som do EBU TECH 3342 são Threshold absoluto -70 LKFS e Threshold relativo -20 dB.

Agregação

Tome a média ou o máximo de vários valores de RMS restantes no Gating.

ITU-R BS.1770-3 leva uma média, mas parece que existe uma possibilidade de usar o valor máximo de curto prazo de acordo com isso .

Vídeo de teste usado para estimativa de parâmetros

Prepare um filme de teste para estimar os parâmetros do modelo de cálculo de volume.

De acordo com isso , parece que existe a possibilidade de que a normalização de intensidade não será aplicada se não houver um certo número de números de reprodução, ou não será aplicada a menos que algum tempo tenha decorrido desde a postagem. Sem preparar vídeos de teste por conta própria, há números de reprodução suficientes, selecione alguns dos vídeos existentes que foram publicados com bastante frequência e faça com que eles testem vídeos.

Uma lista de vídeos de teste é descrita no Apêndice.

Estimativa de parâmetros do equalizador

Usando um filme de teste senoidal com um volume constante, você pode eliminar outros efeitos além da equalização no volume. Usando isso, primeiro estimamos a resposta de freqüência do equalizador.

Para a fonte sonora de onda senoidal de várias frequências, meça a intensidade do conteúdo no YouTube e estime as características de frequência tirando a diferença do RMS da fonte de som. O resultado da estimativa está abaixo. Para dados detalhados, consulte o Apêndice.

Curva de ponderação estimada usada para a normalização da intensidade do YouTube

O resultado foi instável, por exemplo, os resultados foram diferentes dependendo da animação, mesmo na mesma frequência acima de 16 kHz, portanto, na discussão a seguir, usaremos apenas dados abaixo de 15 kHz. Extrapolar com interpolação linear para 44 Hz ou menos e 15 kHz ou mais.

Estimação de parâmetro diferente de equalizador

Em seguida, corrija as características de freqüência do equalizador e estime parâmetros diferentes do equalizador.

Calcule o volume de vários vídeos com vários parâmetros. Compare com o volume (Content Loudess) calculado pelo YouTube e procure o parâmetro com o menor erro. A lista de vídeos de teste é descrita no Apêndice.

Lista de parâmetros

ParâmetrosValor
Comprimento da janela400 ms, 3 seg
Relação de sobreposição75%, 96.7%
Limiar absolutoNenhuma, -70 LKFS
Limiar RelativoNenhum, -10 dB, -20 dB
Agregaçãosignifica, max

Lista de resultados

ParâmetrosDestino estimado (LUFS)Erro Stddev (dB)Erro Max (dB)
limiar de abs nenhum, limiar de rel. nenhum, janela 0,4 seg., sobreposição 75%, média-16.154494085.5125536210.73290254
limiar de abs nenhum, limiar de rel. nenhum, janela de 3 seg., sobreposição de 96,7%, média-14.976814844.90827864611.91484089
limiar de abs nenhum, limiar de rel - 10 dB, janela de 0,4 seg, sobreposição de 75%, média-13.949879233.9543709897.389401665
limiar de abs nenhum, limiar de rel - 10 dB, janela 3 seg, sobreposição de 96,7%, média-13.686847213.6840072747.647167492
limiar de abs nenhum, limiar de rel - 20 dB, janela de 0,4 seg, sobreposição de 75%, média-14.498314374.5312554069.145055115
limiar de abs nenhum, limiar de rel - 20 dB, janela 3 seg, sobreposição de 96,7%, média-14.016606914.0487230579.667181199
limiar abs - 70 LUFS, limiar nenhum, janela 0,4 seg., sobreposição 75%, média-16.154494085.5125536210.73290254
limiar de abs - 70 LUFS, limiar nenhum, janela 3 seg, sobreposição 96,7%, média-14.976814844.90827864611.91484089
limiar de abs - 70 LUFS, limiar relativo - 10 dB, janela 0,4 seg., sobreposição 75%, média-13.892175143.9115433187.447105751
limiar de abs - 70 LUFS, limiar relativo - 10 dB, janela 3 seg, sobreposição 96,7%, média-13.665658633.6660259727.668356069
limiar de abs - 70 LUFS, lim de rel - 20 dB, janela 0,4 seg, sobreposio de 75%, mia-14.471706544.523919589.171662946
limiar abs - 70 LUFS, limiar relativo - 20 dB, janela 3 seg, sobreposição 96,7%, média-14.005124264.0383895339.678663846
limiar abs nenhum, limiar nenhum, janela 0,4 seg., sobreposição 75%, máx.-8.9937215021.1069610212.968119771
limiar abs nenhum, limiar nenhum, janela 3 seg, sobreposição 96,7%, max-10.312464140.901435591.746039964
ITU-R BS.1770-3-10.3931764511.0314121233.14216451
RMS-13.0300789610.175618429.41685531

A combinação de parâmetros com o menor erro foi o tamanho da janela 3 segundos, a taxa de sobreposição de 96,7%, a agregação máxima, o erro padrão de erro foi de 0,9 dB, o erro máximo foi de 1,7 dB. É o valor máximo do volume de curto prazo da EBU TECH 3341. O valor alvo de intensidade é -10,3 LUFS.

Com isso, você pode estimar o método de cálculo de intensidade do YouTube.

Apêndice

Resultado da medição do parâmetro do equalizador (tsv)

Dados de estimação de parâmetros (tsv) diferentes do equalizador

Referências

ITU-R BS.1770-3

EBU TECH 3341

EBU TECH 3342

Tentei verificar a normalização do volume do Youtube.

Histórico de mudanças

2018/12/09 Corrigido um erro de cálculo (versão mais recente)

2018/12/7 primeira edição

Resumo

Pesquisei a fórmula de normalização de volume no YouTube. Eu encontrei uma expressão que pode ser aproximada com uma precisão de cerca de 1 dB.