क्या रेगुलराइजेशन मानी जाने वाली लेयर्ड लेयर्स में रैंडम नॉइज़ जोड़ना रेगुलराइजेशन माना जाता है? ऐसा करने और ड्रॉपआउट और बैच के सामान्यीकरण के बीच क्या अंतर है?


जवाब 1:

हां, छिपी हुई परतों में यादृच्छिक शोर जोड़ना उसी तरह से एक नियमितीकरण है जैसे ड्रॉपआउट है। यहाँ मुख्य अंतर्ज्ञान यह है कि यदि प्रत्येक परत पर तंत्रिका प्रतिक्रिया शोर है, तो प्रशिक्षण को श्रेणियों को अलग करने के लिए वज़न को समायोजित करना होगा, जो कि शोर से बड़ा है। इस प्रकार परीक्षण के समय, जब शोर अनुपस्थित होता है, तो वर्गीकरण अधिक स्थिर होना चाहिए। यह बहुत ही समान है कि अधिकतम-मार्जिन वर्गीकरण कैसे काम करता है, और हम सभी जानते हैं कि अधिकतम-मार्जिन तकनीक कितनी सफल रही है (उदाहरण, सपोर्ट वेक्टर मशीनें)। आपको यह सुनिश्चित करने के लिए सावधान रहना होगा कि शोर संकेत को अभिभूत नहीं करता है, हालांकि।

ड्रॉपआउट को एक नियमितीकरण विधि माना जाता है क्योंकि यह मॉडल औसत प्रदर्शन करता है। यही है, प्रशिक्षण के दौरान, एक विशेष बिंदु पर समय में मॉडल वास्तव में तंत्रिका नेटवर्क मॉडल के एक वर्ग पर एक प्रायिकता वितरण है जिसमें भार तय किए जाते हैं लेकिन मॉडल में कोई भी न्यूरॉन गायब हो सकता है। प्रत्येक न्यूरल नेटवर्क की समग्र संभावना किसी विशेष न्यूरॉन के मौजूद होने या अनुपस्थित होने की व्यक्तिगत संभावना से निर्धारित होती है। यह नियमितीकरण है क्योंकि यह प्रत्येक उदाहरण के पूर्वाग्रह पर औसत है, लागत फ़ंक्शन को चौरसाई करता है।

छिपी हुई परत में यादृच्छिक शोर जोड़ना उसी तरह से संचालित होता है, लेकिन एक अलग संभावना वितरण के साथ। निश्चित वजन होने के बजाय, आपके पास एक निश्चित टोपोलॉजी है, और संभाव्यता वितरण "सच" वजन पर केंद्रित गौसियन वितरण के अनुसार यादृच्छिक पर वजन चुनता है, अर्थात, आप अपनी हार्ड ड्राइव पर जो भार उठा रहे हैं। फिर, यह मॉडल औसत है, और इसका एक नियमित प्रभाव होना चाहिए, कैविट के साथ कि शोर (विचरण) को संकेत को अभिभूत नहीं करना चाहिए। उदाहरण के लिए, यदि आप पहली बार बैचनुमा लागू करते हैं, तो आपके पास लगभग एक मानक सामान्य आउटपुट प्रोफ़ाइल होगी (शून्य पर केंद्रित इकाइयों के साथ विचरण एक), और फिर आप विचरण के साथ शोर को लागू कर सकते हैं, कहते हैं, 0.1। आप क्या काम करता है यह देखने के लिए विचरण के साथ खेल सकते हैं।

संपादित करें: चूंकि प्रश्न ने बैचनॉर्म का उल्लेख किया है, इसलिए मैं यह बताना चाहता था कि बैचमैनों का उपयोग वास्तव में नियमितीकरण के लिए नहीं किया जाता है। यही है, बैचमार्ट लागत को सुचारू नहीं करता है। इसके बजाय, बैकप्रॉपैग्मेंटेशन के प्रदर्शन को बेहतर बनाने के लिए बैचमोन को जोड़ा जाता है। संक्षेप में, यह पीछे फैलने वाली प्रवणता को बहुत बड़ा या छोटा होने से बचाता है, जिसमें पुनरावर्तन और पुनरावृत्ति होती है; एक तकनीक के रूप में, इसमें दूसरे क्रम के अनुकूलन के तरीकों के गहरे संबंध हैं जो लागत सतह की वक्रता को मॉडल करने का प्रयास करते हैं। जैसा कि मैंने ऊपर उल्लेख किया है, बैचनॉर्म का उपयोग यह गारंटी देने के लिए भी किया जा सकता है कि यदि आप तंत्रिका गतिविधियों में यादृच्छिक शोर जोड़ने जा रहे हैं तो सापेक्ष स्केलिंग सही है।


जवाब 2:

मैं इसे नियमितीकरण से अधिक एक अनुकूलन चाल मानूंगा।

प्रभाव SGD में स्टोचैस्टिसिटी के प्रभाव के बराबर होना चाहिए।

स्वेत और इसकी प्रेरणा मोंटे कार्लो विधियाँ सख्त स्थानीय वंशावली की दिशा में सख्ती से पालन करने के बजाय हर बार एक यादृच्छिक कदम उठाते हुए खराब स्थानीय मिनीमा में फंसने से बचती हैं; या उनके विभिन्न अवतारों में समतुल्य कुछ करना जैसे कि समय-समय पर यादृच्छिक कदम उठाने के बजाय हर चरण में एक यादृच्छिक घटक जोड़ना।

वजन के लिए कमजोर यादृच्छिक शोर जोड़ना ठीक उसी को प्राप्त होगा। [संकेत: धीरे-धीरे वंश भी हर पुनरावृत्ति में वजन के लिए कुछ जोड़ता है!]


जवाब 3:

संपादित करें:

गाऊसी-वितरित, प्रत्येक परत के इनपुट डेटा में यादृच्छिक शोर को जोड़ने से आपके मॉडल को डेटा में छोटे बदलावों के लिए और अधिक मजबूत बनाया जा सकता है जो आपके नेटवर्क को सिग्नल से बेहतर शोर को अलग करने में सक्षम बनाता है। जैसा कि ज़ीशान ज़िया ने कहा, यह अनिवार्य रूप से स्टोकेस्टिक क्रमिक सभ्य होगा। मैं अभी भी इस नियमितीकरण पर विचार नहीं करेगा। सिग्नल से शोर को अलग करने के लिए अपने मॉडल को सीखने में मदद करने के लिए यह एक तकनीक से अधिक है।

ड्रॉपआउट यादृच्छिक रूप से प्रत्येक पास पर एक छिपी परत में नोड्स के एक निश्चित अनुपात को निष्क्रिय करता है। यह नेटवर्क को बेहतर बनाता है क्योंकि यह इसे सीखने के लिए मजबूर करता है कि एक ही पैटर्न को कई तरीकों से कैसे पहचाना जाए, जो बेहतर मॉडल की ओर ले जाता है।

बैच सामान्यीकरण वह जगह है जहां आप इनपुट को एक लेयर में ले जाते हैं और सुनिश्चित करते हैं कि वे सभी 0 और 1 के बीच सामान्यीकृत हैं। यह नेटवर्क को बेहतर ढंग से सीखने में मदद करता है क्योंकि यह ढाल को अधिक सुसंगत और सुचारू रखता है। इस तरह, आप मिनीमा के चारों ओर कूदने से बचते हैं क्योंकि आपकी ढाल बहुत बड़ी है।