LANDR vs 音圧爆上げくん (音質編)

LANDRと音圧爆上げくんを音質面で比較しました。

概要

MEI20190207というミックスを客観的に評価できる指標を提案しました。

音圧爆上げくんとLANDRでマスタリングした音をMEI20190207で比較しました。

音圧爆上げくんはLANDRよりもMEI20190207が高いことがわかりました。

音圧爆上げくんはLANDRよりラウドネスレンジが大きく、Boominessが小さく、Depthが小さく、Warmthが小さい傾向があることがわかりました。

※ あとの方に比較音があるので聴いてみてください

比較方法

様々な音をLANDRと音圧爆上げくんでマスタリングし、結果を様々な指標で比較しました。

比較対象音

比較対象音は以下のミックス評価データセットから選びました。このミックス評価データセットには、様々な曲に対する複数のミックスオーディオと 、それぞれのミックスオーディオに対する複数人による主観評価結果が含まれます。

ミックスオーディオのライセンスがCC BYのものの中で、各曲に対して、ラウドネスレンジが最も大きいものと、主観評価の平均が最も低いものを比較対象音として選びました。

ラウドネスレンジが大きいとアーティファクトなしでマスタリングしやすいことと、主観評価が低いものは自動マスタリングのしがいがあることが理由です。

具体的なミックス一覧は後述のGitHubリポジトリをご覧ください。

MixBrowser

THE MIX EVALUATION DATASET

指標

MixEvaluationIndex20190207 (MEI20190207)

MixEvaluationIndex20190207(MEI20190207)は、The Mix Evaluation Datasetの主観評価データを使って構築したミックスオーディオの客観評価指標です。ミックスオーディオの評価指標ですが、マスタリングオーディオの評価にも使えると思います。総合的な評価を意図しています。今回の比較でメインとなる指標です。

MEI20190207は、様々な指標の重み付け和で計算されます。元となる指標は、スペクトラムの分散共分散行列、スペクトラムの平均、Hardness、Dissonanceです。かんたんに言うと、スペクトラムの形、ダイナミックレンジ、空間の広がり、アタックの帯域幅、歪みの多さを参考に計算しています。

重みの学習に使ったミックスオーディオは、MixBrowserで公開されているミックスオーディオのうちプレビューオーディオがあるもの全てです。一部のプレビューオーディオは404 Not Foundでした。

MixBrowser

ラウドネス

ITU-R BS.1770で定義されたラウドネスです。配信するプラットフォームやユーザーの聴き方にもよりますが、ラウドネスが大きい曲ほど他の曲と比較して大きい音で再生される可能性が高いです。大きい音で再生するほど良い音に聴こえます。

音質が同じであればラウドネスが大きいほうが良いはずです。

その他の指標

ラウドネスレンジ、True Peak

マスタリング設定

後述のGitHubをご覧ください。

比較結果

MEI20190207の変化量

MEI20190207のオリジナルに対する変化量をすべての曲で平均したものです。音圧爆上げくんのほうがLANDRよりもMEI20190207が高い傾向にあります。

ラウドネスvsラウドネスレンジ

ラウドネスのすべての曲の平均と、ラウドネスのすべての曲の平均を散布図でプロットしました。一般的に、ラウドネスとラウドネスレンジはトレードオフの関係にありますが、音圧爆上げくんのほうがLANDRよりもラウドネスを高くしたときのラウドネスレンジの減少が少ないです。

True Peak

True Peak(インターサンプルピーク)をすべての曲で平均したものです。True Peakが0dBより大きいと再エンコードなどで歪む場合がありますが、音圧爆上げくん、LANDRともに0dBを超えるケースがあるようです。音圧爆上げくんではCeilingをTrue Peakにすると、True Peakが0dBを超えないようにできるので、音質劣化を回避可能です。LANDRはそれらしい設定がないのでおそらく回避不可能です。

Dissonanceの変化量

Dissonanceは不協和度合いを 測る指標です。MEI20190207を計算するために使われており、Dissonanceが低いほどMEI20190207が高くなります。

音圧爆上げくんでマスタリングレベルを1に設定すると、Dissonanceが増えるみたいです。マスタリングレベルを0.5に設定するとLANDRと同等の増加で済みます。

Hardnessの変化量

Hardnessは音の硬さを測る指標です。MEI20190207を計算するために使われており、Hardnessが高いほどMEI20190207が高くなります。音圧爆上げくん、LANDRともに、Hardnessを増やすみたいです。

Boominessの変化量

BoominessはBoomy度合いを表す指標です。中身は以下で提案されたBooming Indexです。MEI20190207の計算には使われていません。

Booming index as a measurement for evaluation booming sensation

音圧爆上げくんはBoominessを下げる傾向があります。

Brightnessの変化量

Brightnessは明るさを表す指標です。全体のエネルギーに対する高周波成分のエネルギー比率の対数と、Spectral Centroidの対数の線形結合で計算されます。MEI20190207の計算には使われていません。

D5.2: First prototype of timbral characterisation tool for semantically annotating non-musical content

音圧爆上げくんとLANDRはBrightnessを上げる傾向があります。

Depthの変化量

Depthは深みを表す指標です。以下のD5.2で定義されています。D5.2によると、深みには空間的な意味と周波数特性的な意味がありますが、このDepth指標は周波数特性的な意味だけをあらわします。MEI20190207の計算には使われていません。

D5.2: First prototype of timbral characterisation tool for semantically annotating non-musical content

定義によると、低周波成分が多いとDepthが増えるみたいです。音圧爆上げくんはDepthを下げる傾向があります。

Warmthの変化量

Warmthは温かみを表す指標です。以下が実装です。MEI20190207の計算には使われていません。

Timbral_Warmth.py (Github)

音圧爆上げくんはWarmthを下げる傾向があります。

マスタリング後の音の比較

各曲についてオリジナル、LANDRでMEI20190207が最大のもの、音圧爆上げくんでMEI20190207が最大のものの3つをピックアップしました。ラウドネスは揃えていないので、音量の違いによるバイアスに注意してください。

すべての音リストは以下にあります。MEI20190207が高い音が実際に良い音かどうかを確かめてみてください。各曲のライセンス表記はGithubのaudioディレクトリ配下に記載しました。

ai-mastering/mastering_comparison (Github)

In The Meantime

Original

音圧爆上げくん Best MEI20190207

LANDR Best MEI20190207

Lead Me

Original

音圧爆上げくん Best MEI20190207

LANDR Best MEI20190207

Not Alone

Original

音圧爆上げくん Best MEI20190207

LANDR Best MEI20190207

Pouring Room

Original

音圧爆上げくん Best MEI20190207

LANDR Best MEI20190207

Red To Blue

Original

音圧爆上げくん Best MEI20190207

LANDR Best MEI20190207

Github

詳細情報が以下に記載されています。

ai-mastering/mastering_comparison (Github)

注意

グラフやGithub上で「AI Mastering」と表記されているものは音圧爆上げくんのことをあらわします。

まとめ

LANDRと音圧爆上げくんを比較しました。