Tuesday 9 January 2018

चलती - औसत - लापता मानों


लापता डेटा को भरने के लिए एक सरल और सामान्य विधि, यदि आपके पास पूर्ण डेटा रन है, तो रैखिक प्रतिगमन का उपयोग करना है कहो कि आपके पास एक पंक्ति में 5 में से 1000 रन हैं, जिसमें कोई भी गायब नहीं है। 1000 x 1 वेक्टर y और 1000 x 4 मैट्रिक्स एक्स सेट करें: प्रतिगमन आपको 4 अंक एक बीसीडी देगा जो आपके डेटा की 1000 पंक्तियों के लिए सबसे अच्छा मैच देता है, अलग-अलग डेटा, अलग बी सी डी। फिर आप अनुमान लगाते हैं कि ये बी सी डी का इस्तेमाल होता है (भविष्यवाणी करता है, इंटरपाल्ट) wt0 ​​लापता है। (मानव वजन के लिए, आईडी एबीसी चारों ओर चारों ओर होने की उम्मीद है।) (सभी स्तरों पर प्रतिगमन के पुस्तकों और पत्रों के ज़िलियंस हैं। प्रक्षेपण के साथ संबंध के लिए, हालांकि, मैं किसी भी अच्छी परिचय के बारे में नहीं जानता हूं) आंकड़े विश्लेषण और सांख्यिकी सॉफ्टवेयर निकोलस जे। कॉक्स, डरहम यूनिवर्सिटी, ब्रिटेन क्रिस्टोफर बॉम, बोस्टन कॉलेज ईजन, मा () और इसकी सीमाएं स्टैटार्स्क्वोस चलती औसत की गणना करने के लिए सबसे स्पष्ट आदेश है e एक अभिव्यक्ति को देखते हुए, यह उस अभिव्यक्ति के एक औसत चलती औसत बनाता है। डिफ़ॉल्ट रूप से, 3 के रूप में लिया जाता है। अजीब होना चाहिए। हालांकि, मैन्युअल प्रविष्टि के रूप में इंगित करता है, ईजन, मा () को varlist द्वारा जोड़ा नहीं जा सकता है:। और, अकेले उस कारण के लिए, यह पैनल डेटा पर लागू नहीं होता है। किसी भी स्थिति में, यह विशेष रूप से समय श्रृंखला के लिए लिखा गया आदेशों के सेट के बाहर होता है, विवरण के लिए समय श्रृंखला देखें। वैकल्पिक दृष्टिकोण पैनल डेटा के लिए चलती औसत की गणना करने के लिए, कम से कम दो विकल्प हैं दोनों डेटासेट पर पहले से ही tsset होने पर निर्भर करते हैं। यह बहुत अच्छा कर रहा है: न केवल आप अपने आप को बार-बार पैनल वैरिएबल और टाइम वेरिएबल निर्दिष्ट करते हुए बचा सकते हैं, लेकिन डेटा में डेटा के किसी भी अंतराल पर चालाकी से व्यवहार करते हैं। 1. उत्पन्न करने के लिए समय-श्रृंखला ऑपरेटरों जैसे एल। और एफ जैसे उत्पन्न अपनी परिभाषा लिखें। चल रहे औसत की परिभाषा को जनरेट करने के लिए तर्क के रूप में दें यदि आप ऐसा करते हैं, तो आप स्वाभाविक रूप से ईजन, मा () द्वारा की गई समान औसत भारित (अवास्तविक) केंद्रित चलती औसत तक सीमित नहीं हैं। उदाहरण के लिए, समान रूप से भारित तीन-अवधि वाली मूविंग एवरेज दिए जाएंगे और कुछ भार को आसानी से निर्दिष्ट किया जा सकता है: निश्चित रूप से आप एक वैरिएबल नाम के बजाय लॉव (माइवर) जैसे अभिव्यक्ति निर्दिष्ट कर सकते हैं जैसे कि माइवर। इस दृष्टिकोण का एक बड़ा फायदा यह है कि स्टेता पैनल के डेटा के लिए स्वचालित रूप से सही काम करता है: अग्रणी और पीछे की दरें पैनलों के भीतर काम करती हैं, बस तर्क के अनुसार वे होना चाहिए। सबसे उल्लेखनीय नुकसान यह है कि कमांड लाइन को अधिक समय तक मिल सकता है यदि चलती औसत में कई पद शामिल हैं एक और उदाहरण एक एकमात्र चलती औसत है जो केवल पिछले मानों पर आधारित है। ये एक परिवर्तनीय उम्मीद की पैदा करने के लिए उपयोगी हो सकता है कि एक तारीख को सूचना के आधार पर केवल एक चर पर आधारित होगा: किसी निश्चित वेटिंग स्कीम का उपयोग करते हुए, पिछले चार मूल्यों के आधार पर वर्तमान अवधि के लिए कोई भविष्यवाणी कर सकता है (ए 4-अवधि का अंतराल खासकर सामान्यतः त्रैमासिक बार श्रृंखलाओं के साथ प्रयोग किया जाता है।) 2. एसएससी से egen, filter () का उपयोग करें एसएससी पर egenmore पैकेज से यूज़र-लिखित ईजन फ़ंक्शन फ़िल्टर () का उपयोग करें स्टाटा 7 (14 नवंबर 2001 के बाद अपडेट) में, आप इस पैकेज को तब स्थापित कर सकते हैं, जिसके बाद फिल्टर पर विवरण के लिए ईन्जमोर अंक की मदद की जा सकती है ()। उपर्युक्त दो उदाहरण प्रदान किए जाएंगे (इस तुलना में उत्पन्न दृष्टिकोण शायद अधिक पारदर्शी होता है, लेकिन हम एक पल में विपरीत का एक उदाहरण देखेंगे।) लेट्स एक संख्या सूची हैं। नकारात्मक हादसों की ओर बढ़ता है: इस मामले में -11 में -1 से बढ़ता है -1 या सीसा 1, अंतराल 0, अंतराल 1. कॉफ़ फिक्स्केटर्स, दूसरे नंबर, इसी प्रकार की पिछड़ या अग्रणी वस्तुओं को गुणा करें: इस मामले में उन मदों में एफ 1। मैवर । माइवर और एल 1। मैवर ऑर्केनाइजेशन ऑप्शन के प्रभाव को गुणांक के योग से प्रत्येक गुणांक को स्केल करना है ताकि सीओफ़ (1 1 1) सामान्यीकृत 13 13 13 और कोइफ़ (1 2 1) के सामान्य गुण के बराबर सामान्यीकृत 14 12 14 के गुणांक के बराबर है । आपको न केवल लापता बल्कि गुणांक भी निर्दिष्ट करना चाहिए। क्योंकि ईजन, मा () समान रूप से भारित मामले प्रदान करता है, ईजन के मुख्य तर्क, फिल्टर () असमान भारित मामले का समर्थन करना है, जिसके लिए आपको गुणांक निर्दिष्ट करना चाहिए। यह भी कहा जा सकता है कि उपयोगकर्ताओं को सहगुणकों को निर्दिष्ट करने के लिए बाध्य होना उन पर निर्भर करता है कि वे क्या गुणांक चाहते हैं। समान वज़न के लिए मुख्य औचित्य है, हम अनुमान लगाते हैं, सादगी, लेकिन बराबर वज़न में घटिया आवृत्ति डोमेन गुण हैं, केवल एक विचार का उल्लेख करने के लिए। उपर्युक्त तीसरा उदाहरण या तो इनमें से हो सकता है जो उत्पन्न दृष्टिकोण के रूप में जटिल है। ऐसे मामले हैं जिनमें egen, फिल्टर () जनरेट करने की तुलना में एक सरल सूत्रीकरण प्रदान करता है। यदि आप नौ-टर्म द्विपद फिल्टर चाहते हैं, जो क्लाइमैटोलॉजिस्ट्स को उपयोगी लगते हैं, तो ठीक से कम से ज्यादा भयानक लग रहा है, और ठीक से प्राप्त करना आसान है, जैसा कि जेनरेट करने के दृष्टिकोण के साथ, ईजन, फिल्टर () पैनल डेटा के साथ ठीक से काम करता है वास्तव में, जैसा कि ऊपर बताया गया है, यह डेटासेट पर पहले से ही tsset होने पर निर्भर करता है। एक ग्राफिकल टिप आपकी चलती औसत की गणना के बाद, आप शायद एक ग्राफ को देखना चाहेंगे। उपयोगकर्ता द्वारा लिखित आदेश tsgraph tsset डेटासेट के बारे में स्मार्ट है। एसएससी इन्स्ट टीएसजीआर द्वारा एक अप-टू-डेट स्टेटा 7 में इसे स्थापित करें क्या उपरोक्त उदाहरणों में से कोई भी अगर प्रतिबंधों का उपयोग करने के साथ सबसेटिंग के बारे में वास्तव में, मा () निर्दिष्ट नहीं होने की अनुमति नहीं देगा कभी-कभी लोग यदि चलने की औसत गणना करते हैं तो इसका उपयोग करना चाहते हैं, लेकिन आमतौर पर इसका उपयोग थोड़ा अधिक जटिल होता है। यदि आप के साथ गणना की गई चलती औसत से आप क्या अपेक्षा करेंगे आइए हम दो संभावनाओं की पहचान करें: कमजोर व्याख्या: मुझे बहिष्कृत टिप्पणियों के लिए कोई परिणाम नहीं देखना है। सशक्त व्याख्या: मैं यह भी नहीं चाहता कि आप बाहर की गई टिप्पणियों के लिए मूल्यों का उपयोग करें। यहाँ एक ठोस उदाहरण है। मान लीजिए कि कुछ यदि कंडीशन के परिणाम के रूप में, 1-42 टिप्पणियों को शामिल किया गया है, लेकिन 43 पर टिप्पणियां नहीं हैं। लेकिन 42 के लिए चलती औसत अन्य बातों के अलावा, अवलोकन के मूल्य पर 43 यदि औसत पीछे और आगे बढ़ाता है और कम से कम 3 की लंबाई पर निर्भर करता है, और यह इसी तरह कुछ परिस्थितियों में कुछ टिप्पणियों पर 44 पर निर्भर करेगा। हमारा अनुमान है कि अधिकांश लोग कमजोर व्याख्या के लिए जाते हैं, लेकिन यह सही है कि क्या, ईजन, फिल्टर () या तो कोई भी समर्थन नहीं करता है आप हमेशा जो भी चाहते हैं उसे अनदेखा कर सकते हैं या फिर अवांछित मूल्यों को प्रतिस्थापित करने का उपयोग करके बाद में गायब करने के लिए सेट कर सकते हैं। श्रृंखला के छोर पर लापता परिणाम पर एक नोट क्योंकि चलती औसत कार्यप्रणाली और लीड्स के कार्य हैं, ईजन, मा () इस श्रृंखला की शुरुआत और समाप्ति पर, जहां लापता और सुराग मौजूद नहीं हैं, उत्पादन करता है। एक विकल्प नामांकन पूंछ के लिए कम, बिना सेंसर की चलती औसत की गणना करने के लिए मजबूर करता है। इसके विपरीत, न तो उत्पन्न होते हैं और न ही ईजिन, फिल्टर () करता है, या अनुमति देता है, लापता परिणाम से बचने के लिए कुछ विशेष। यदि गणना के लिए आवश्यक मूल्यों में से कोई भी गायब नहीं है, तो उस परिणाम गायब है। यह उपयोगकर्ताओं के लिए तय है कि इस तरह के टिप्पणियों के लिए और क्या सुधारात्मक सर्जरी की आवश्यकता है, संभवतः डाटासेट को देखकर और किसी अंतर्निहित विज्ञान पर विचार करने के बाद जो इसे लाया जा सकता है। कैलकुलेटिंग मूविंग एवरेज विथ मिसिंग वैल्यूस सेट ऑब्ज़ 10 ओबी 0, अब 10 tsset t समय चर: टी, 1 से 10 डेल्टा: 1 इकाई tssmooth मा y3 y, w (1 1 1) चिकनी लागू (13) एक्स (टी -1) 1x (टी) एक्स (टी 1) एक्स (टी ) वाई टीएसटीएमयूथ एमए 5 वाई, डब्ल्यू (2 1 2) चिकनी लागू किया गया था (15) एक्स (टी -2) x (टी -1) 1x (टी) एक्स (टी 1) एक्स (टी 2) एक्स (टी) वाई - टीएसएसएमथ मा- श्रृंखला के छोर पर सबसे अच्छे रूप में भरता है (जो कि 0 एस के रूप में मिसालों के इलाज के समान नहीं है, अन्यथा परिणाम ऊपर नहीं प्राप्त होंगे)। जेफ - ssmooth के परिणामों को ओवरराइड कर सकता है- अगर वह ऐसा नहीं चाहते हैं y3 की जगह अगर लापता (L1.y, F1.y) y5 को बदलते हैं यदि लापता (L1.y, L2.y, F1.y, F2.y) उदाहरण के लिए, L1.y अंत में एक श्रृंखला y और F1.y की शुरुआत में गायब है यह पैनल डेटा के साथ भी काम करता है - ssmooth - के लिए एक उपयोगकर्ता-लिखित विकल्प है - ईजेन-फ़ंक्शन - फ़िल्टर () - से- egenmore-। वैकल्पिक रूप से, कृपया जो आप पसंद करते हैं, उसके साथ निपटने का कोई भी तरीका बताएं। जब मैं 2 या 5 साल की चलती औसत बनाने के लिए TSSMooth फ़ंक्शन का उपयोग करता हूं, तो स्ताटा इन चलती औसत की गणना एक वर्ष (2 साल की औसत चलती औसत के मामले में) या 4 साल (में 5 साल की औसत चलती है) समय-श्रृंखला के अंत से पहले यह शून्य के रूप में लापता मूल्यों की गणना करता है। क्या आप इस समस्या को ठीक करने के लिए एक संभव रणनीति जान पाएंगेमैं अंतराल -1 और पुरस्कार मोचन के लैग 2 मूल्यों को देखते हुए मूविंग एवरेज बनाने की कोशिश कर रहा हूं। ये सूत्र वर्तमान (अंतराल - लैग 2) (लैग 2 - लैग 3) है। हालांकि, अपडेट पर पंक्तियों में मौजूदा मान अनुक्रमित रूप से संग्रहीत नहीं किया जाता है। मतलब, जब मुझे पंक्ति 4 चालू मान मिल रहा है, तो मैं इस फार्मूला का उपयोग कर रहा हूँ, जिससे कि पंक्ति 4 पुरस्कार मिलें। अब, पंक्ति 4 - gt वर्तमान 100 row5 पर जा रहे हैं - पंक्ति 4 में गणना की गई नए पुरस्कार उपलब्ध नहीं हैं। lag1 - gt row4gt current 0 (मुझे लगता है कि अंतराल मूल्य गतिशील नहीं हैं) डेटा समूह vtest SET v10 vid समूह id lagred1 lag (newredemption1) lag2red1 lag2 (नयाप्राप्ति) lag3red1 lag3 (newredemption) अपेक्षित अनुमान (lagred1 (lagred1 lag2red1)) - lag2red1 previosredeemgrowth lagred1 - lag2red1) वर्तमान (चालू उम्मीदवारों का अनुमानित वृद्धि) यह वास्तव में समझने में मदद करेगा कि आप क्या प्रयास कर रहे हैं यदि आप इनपुट के लिए एक डेटास्टॉप के रूप में कुछ डेटा प्रदान करते हैं और आप उस उदाहरण डेटा के लिए आउटपुट की अपेक्षा करते हैं। मुझे आश्चर्य है, क्योंकि आप कहते हैं कि वर्तमान में कभी-कभी याद आ रही है कि आप वर्तमान राशि चाहते हैं (वर्तमान। (अपेक्षित अनुमान)। कुछ विचार करने के लिए: आपको अनुमानित मूल्यों के साथ विभाजन करने से पहले सभी संभावित लापता मूल्यों को संबोधित करना होगा। जब तक आप चौथे अवलोकन के लिए नहीं मिलते, तब तक Lag3 अस्तित्व में नहीं होगा तो आप गायब होकर विभाजन कर सकते हैं, जिसे आप पर विचार करना चाह सकते हैं। और यदि आपका नया प्राप्ति चर अनियमित है तो आप लापता मूल्यों के साथ आंतरायिक अन्य गणनाओं को प्राप्त करने जा रहे हैं। अंतराल मूल्य केवल एसईटी या एमर्जेज स्टेटमेंट के माध्यम से पढ़े गए चर के लिए हैं। यदि आप एक गणना चर रखना चाहते हैं तो आप पुनः उपयोग करते हैं प्रारंभिक मानों पर रीसेट करने के लिए या बनाए रखा चर के लिए अनुपलब्ध कब कभी-कभी दिलचस्प होते हैं आप ऐसा कुछ चाहते हैं: अस्थायी रूप से बनाए रखने 0 यह 0 का एक अन्त्य मूल्य निर्धारित करता है, यदि लापता (वर्तमान) तो धाराएंटम (TempCurrent, (अपेक्षित अनुमानों से पहले) और वर्तमान योग (मौजूदा। (अपेक्षित अनुमानों से पहले), और फिर बनाए रखा मान रीसेट करें

No comments:

Post a Comment