यूट्यूब की जोर सामान्यीकरण एल्गोरिदम

YouTube पर उच्चतम ध्वनि गुणवत्ता वाले वीडियो को बढ़ाने के लिए, आपको YouTube जोर सामान्यीकरण विनिर्देश को जानने की आवश्यकता है।

हालांकि, यूट्यूब की जोर सामान्यीकरण विनिर्देश प्रकाशित नहीं किया गया है। कुछ लोगों की पहले से ही जांच की जा चुकी है, लेकिन विशिष्ट गणना सूत्र ज्ञात नहीं हैं।

मैंने YouTube पर जोर सामान्यीकरण के लिए सूत्र का अनुमान लगाने का प्रयास किया।

यूट्यूब जोर सामान्यीकरण विनिर्देश

निम्नलिखित सर्वेक्षण परिणामों का सारांश है।

जोर से सामान्यीकरण इस तरीके से किया जाता है कि ध्वनि स्रोत की जोर से जोर से लक्ष्य मूल्य में समायोजित किया जाता है जितना संभव हो उतना सीमा में जहां चोटी क्लिप नहीं होती है।

ध्वनि स्रोत की जोर से इसकी विशिष्टताओं के साथ गणना की जाती है, लेकिन निम्नलिखित के साथ ईबीयू टेक 3341 की शॉर्ट-टर्म जोर की वेटिंग वक्र को प्रतिस्थापित करके और शॉर्ट-टर्म जोर से अधिकतम मूल्य ले कर, 1 डीबी की सटीकता प्राप्त करना संभव है अनुमानित किया जा सकता है।

यूट्यूब लाउडनेस सामान्यीकरण के लिए प्रयुक्त अनुमानित भारोत्तोलन वक्र

अनुसंधान नीति

हम विस्तार से YouTube की जोरदार सामान्यीकरण के ढांचे और जोर से गणना के विवरण की जांच करेंगे।

यूट्यूब की जोर सामान्यीकरण का एक बड़ा फ्रेम

मुझे लगता है कि शायद यह यहाँ की चर्चा करते समय निम्नलिखित की तरह दिखता है

यूट्यूब पर जोरदार सामान्यीकरण इस तरह से किया जाता है कि ध्वनि स्रोत की जोर से जोर से लक्ष्य मूल्य में समायोजित किया जाता है जहां तक ​​चोटी क्लिप नहीं होती है। जब अभिव्यक्ति के साथ लिखा जाता है, तो यह निम्न हो जाता है।

मुआवजा (डीबी) = न्यूनतम (- पीक, लक्ष्य - लाउडनेस)

चोटी ध्वनि स्रोत की चोटी है, लाउडनेस ध्वनि स्रोत की जोर है, लक्ष्य स्थिर है, जोर लक्ष्य लक्ष्य है, और मुआवजा सुधार लाभ है। कुल मात्रा मुआवजे की मात्रा से समान रूप से बदलती है।

YouTube वीडियो पर राइट क्लिक करें और विस्तृत सांख्यिकीय जानकारी से देखी गई सामग्री जोर से लाउडनेस - लक्ष्य के बराबर है।

यूट्यूब पर लाउडनेस गणना फॉर्मूला

यूट्यूब की जोरदार गणना फॉर्मूला अपने आप का उपयोग कर रहा है। तो, मुझे अनुमान लगाने की ज़रूरत है।

आईटीयू-आर बीएस.1770-3 के संदर्भ में निम्नलिखित मॉडल पर विचार करें।

तुल्यकारक -> खिड़की से कटौती -> LUFS में कनवर्ट करें -> गेटिंग -> एकत्रीकरण

तुल्यकारक

एक तुल्यकारक द्वारा प्रत्येक आवृत्ति वजन।

पिछले प्रयोगों में, आईटीयू-आर बीएस.1770-3 में अपनाए गए के-वेटिंग और अन्य लोकप्रिय भारोत्तोलन लागू नहीं हुए थे, इसलिए प्रत्यक्ष आवृत्ति विशेषताओं का अनुमान लगाएं।

खिड़की से कटौती

रेक्ट विंडो के साथ तरंगों को काट लें।

खिड़की की लंबाई और ओवरलैप अनुपात पैरामीटर हैं।

संदर्भ के लिए, आईटीयू-आर बीएस.1770-3 और ईबीयू टेक 3341 के क्षणिक और एकीकृत मानकों में 400 मीटर की खिड़की की लंबाई और 100 एमएस की ओवरलैप लंबाई (ओवरलैप अनुपात 75% है)। ईबीयू टेक 3341 के अल्पावधि जोर से पैरामीटर में 3 सेकंड की खिड़की की लंबाई होती है और 2.9 सेकेंड या उससे अधिक की ओवरलैप लंबाई होती है (ओवरलैप अनुपात 96.7% या उससे अधिक है)।

LUFS में कनवर्ट करें

निकाले गए तरंगों के आरएमएस की गणना करें और इसे लॉग 10 (आरएमएस) के साथ LUFS में परिवर्तित करें।

यह स्टीरियो 1000 हर्ट्ज साइन लहर के साथ 0 होने के लिए भी सुधार करता है। आईटीयू-आर बीएस.1770-3 के लिए सुधार राशि -0.6 9 1 डीबी है।

गेटिंग

जोर से चुप्पी के समय को खत्म करने के लिए, हम कटौती करके प्राप्त कई आरएमएस मूल्यों के बीच छोटी आवाज़ें छोड़ देते हैं।

आईटीयू-आर बीएस.1770-3 और ईबीयू टेक 3342 का संदर्भ लें और पूर्ण थ्रेसहोल्ड गेटिंग और रिलेटिव थ्रेसहोल्ड गेटिंग करें।

पैरामीटर संबंधित थ्रेसहोल्ड मान हैं। मैं उन पैटर्नों का भी प्रयास करता हूं जो गेटिंग नहीं करते हैं।

संदर्भ के लिए, आईटीयू-आर बीएस.1770-3 और ईबीयू टेक 3341 के पैरामीटर पूर्ण थ्रेसहोल्ड -70 एलकेएफएस और रिलेटिव थ्रेसहोल्ड -10 डीबी हैं। ईबीयू टेक 3342 की लाउडनेस रेंज की गणना के लिए पैरामीटर्स पूर्ण थ्रेसहोल्ड -70 एलकेएफएस और रिलेटिव थ्रेसहोल्ड -20 डीबी हैं।

एकत्रीकरण

गेटिंग में शेष आरएमएस मूल्यों का औसत या अधिकतम लें।

ITU-R BS.1770-3 एक औसत लेता है, लेकिन ऐसा लगता है कि इस हिसाब से शॉर्ट-टर्म के अधिकतम मूल्य का उपयोग करने की संभावना है।

पैरामीटर अनुमान के लिए इस्तेमाल किया गया परीक्षण वीडियो

जोर से गणना मॉडल के पैरामीटर का अनुमान लगाने के लिए एक परीक्षण फिल्म तैयार करें।

यहाँ के अनुसार, ऐसा लगता है कि इस बात की संभावना है कि यदि कुछ निश्चित संख्या में प्लेबैक संख्याएँ नहीं हैं, तो लाउड नॉर्मलाइज़ेशन लागू नहीं होगा, या यह तब तक लागू नहीं होगा जब तक कि पोस्टिंग के बाद से कुछ समय बीत न जाए। अपने दम पर परीक्षण वीडियो तैयार किए बिना, पर्याप्त प्लेबैक संख्याएं हैं, कुछ मौजूदा वीडियो का चयन करें जिन्हें पर्याप्त बार पोस्ट किया गया है, और उन्हें परीक्षण वीडियो बनाते हैं।

परिशिष्ट में परीक्षण वीडियो की एक सूची वर्णित है।

तुल्यकारक पैरामीटर अनुमान

एक निरंतर मात्रा के साथ एक sinusoidal परीक्षण फिल्म का उपयोग करके, आप जोर से बराबर के अलावा प्रभाव को खत्म कर सकते हैं। इसका उपयोग हम पहले तुल्यकारक की आवृत्ति प्रतिक्रिया का अनुमान लगाते हैं।

विभिन्न आवृत्तियों के साइन लहर ध्वनि स्रोत के लिए, YouTube पर सामग्री जोर से मापें और ध्वनि स्रोत के आरएमएस से अंतर लेकर आवृत्ति विशेषताओं का अनुमान लगाएं। अनुमान परिणाम नीचे है। विस्तृत डेटा के लिए कृपया परिशिष्ट देखें।

यूट्यूब लाउडनेस सामान्यीकरण के लिए प्रयुक्त अनुमानित भारोत्तोलन वक्र

नतीजा अस्थिर था, उदाहरण के लिए, परिणाम 16 केएचजेज़ से ऊपर की समान आवृत्ति पर भी एनीमेशन के आधार पर अलग थे, इसलिए निम्नलिखित चर्चा में, हम केवल 15 केएचजेड से नीचे डेटा का उपयोग करेंगे। 44 हर्ट्ज या उससे कम और 15 केएचजेड या उससे अधिक के लिए रैखिक इंटरपोलेशन के साथ निकालें।

तुल्यकारक के अलावा पैरामीटर अनुमान

इसके बाद, तुल्यकारक की आवृत्ति विशेषताओं को ठीक करें और तुल्यकारक के अलावा पैरामीटर अनुमानित करें।

विभिन्न मानकों के साथ विभिन्न वीडियो की जोर से गणना करें। यूट्यूब द्वारा गणना की गई जोर से (सामग्री लाउडस) की तुलना करें और कम से कम त्रुटि वाले पैरामीटर को देखें। परीक्षण वीडियो सूची परिशिष्ट में वर्णित है।

पैरामीटर सूची

पैरामीटरमूल्य
खिड़की की लंबाई400 एमएस, 3 सेकंड
ओवरलैप अनुपात75%, 96.7%
पूर्ण दहलीजकोई नहीं, -70 एलकेएफएस
सापेक्ष दहलीजकोई नहीं, -10 डीबी, -20 डीबी
एकत्रीकरणमतलब, अधिकतम

परिणाम सूची

पैरामीटरअनुमानित लक्ष्य (LUFS)त्रुटि Stddev (डीबी)त्रुटि मैक्स (डीबी)
पेट थ्रेसहोल्ड कोई नहीं, रिला थ्रेसहोल्ड कोई नहीं, विंडो 0.4 सेकंड, 75% ओवरलैप, मतलब-16.154494085.5125536210.73290254
पेट थ्रेसहोल्ड कोई नहीं, रिला थ्रेसहोल्ड कोई नहीं, विंडो 3 सेकंड, 96.7% ओवरलैप, मतलब-14.976814844.90827864611.91484089
पेट थ्रेसहोल्ड कोई नहीं, रिले थ्रेसहोल्ड - 10 डीबी, विंडो 0.4 सेकंड, 75% ओवरलैप, मतलब-13.949879233.9543709897.389401665
पेट थ्रेसहोल्ड कोई नहीं, रिले थ्रेसहोल्ड - 10 डीबी, विंडो 3 सेकंड, 96.7% ओवरलैप, मतलब-13.686847213.6840072747.647167492
पेट थ्रेसहोल्ड कोई नहीं, रिले थ्रेसहोल्ड - 20 डीबी, विंडो 0.4 सेकंड, 75% ओवरलैप, मतलब-14.498314374.5312554069.145055115
पेट थ्रेसहोल्ड कोई नहीं, रिले थ्रेसहोल्ड - 20 डीबी, विंडो 3 सेकंड, 96.7% ओवरलैप, मतलब-14.016606914.0487230579.667181199
पेट थ्रेसहोल्ड - 70 LUFS, रिला थ्रेसहोल्ड कोई नहीं, विंडो 0.4 सेकंड, 75% ओवरलैप, मतलब-16.154494085.5125536210.73290254
पेट थ्रेसहोल्ड - 70 LUFS, रिला थ्रेसहोल्ड कोई नहीं, विंडो 3 सेकंड, 96.7% ओवरलैप, मतलब-14.976814844.90827864611.91484089
पेट थ्रेसहोल्ड - 70 LUFS, रिले थ्रेसहोल्ड - 10 डीबी, विंडो 0.4 सेकंड, 75% ओवरलैप, मतलब-13.892175143.9115433187.447105751
abs threshold - 70 LUFS, rel दहलीज - 10 डीबी, विंडो 3 सेकंड, 96.7% ओवरलैप, मतलब-13.665658633.6660259727.668356069
पेट थ्रेसहोल्ड - 70 LUFS, रिले थ्रेसहोल्ड - 20 डीबी, विंडो 0.4 सेकंड, 75% ओवरलैप, मतलब-14.471706544.523919589.171662946
abs threshold - 70 LUFS, rel दहलीज - 20 डीबी, विंडो 3 सेकंड, 96.7% ओवरलैप, मतलब-14.005124264.0383895339.678663846
पेट थ्रेसहोल्ड कोई नहीं, रिला थ्रेसहोल्ड कोई नहीं, विंडो 0.4 सेकंड, ओवरलैप 75%, अधिकतम-8.9937215021.1069610212.968119771
पेट थ्रेसहोल्ड कोई नहीं, रिला थ्रेसहोल्ड कोई नहीं, विंडो 3 सेकंड, 96.7% ओवरलैप, अधिकतम-10.312464140.901435591.746039964
आईटीयू-आर बीएस.1770-3-10.3931764511.0314121233.14216451
आरएमएस-13.0300789610.175618429.41685531

कम से कम त्रुटि के साथ पैरामीटर संयोजन विंडो आकार 3 सेकंड था, ओवरलैप दर 96.7%, अधिकतम एकत्रीकरण, त्रुटि की मानक त्रुटि 0.9 डीबी थी, अधिकतम त्रुटि 1.7 डीबी थी। यह ईबीयू तकनीक 3341 की अल्पकालिक जोर से अधिकतम मूल्य है। जोर से लक्ष्य मूल्य -10.3 LUFS है।

इसके साथ, आप YouTube की जोरदार गणना विधि का अनुमान लगा सकते हैं।

परिशिष्ट

तुल्यकारक पैरामीटर माप परिणाम (tsv)

तुल्यकारक के अलावा पैरामीटर अनुमान डेटा (tsv)

ग्रन्थसूची

आईटीयू-आर बीएस.1770-3

ईबीयू तकनीक 3341

ईबीयू तकनीक 3342

मैंने यूट्यूब की जोर सामान्यीकरण को सत्यापित करने की कोशिश की।

इतिहास बदलें

2018/12/09 एक गणना त्रुटि फिक्स्ड (नवीनतम संस्करण)

2018/12/7 पहला संस्करण

सारांश

मैंने YouTube पर जोर सामान्यीकरण के लिए सूत्र देखा। मुझे एक अभिव्यक्ति मिली जो लगभग 1 डीबी की सटीकता के साथ अनुमानित किया जा सकता है।