सांख्यिकीय डेटा विश्लेषण के तरीकों की समीक्षा। सांख्यिकीय पद्धतियां

कई मामलों में लोगों की गतिविधि में डेटा के साथ काम करना शामिल होता है, और बदले में इसका मतलब न केवल उनके साथ काम करना हो सकता है, बल्कि उनका अध्ययन, प्रसंस्करण और विश्लेषण भी हो सकता है। उदाहरण के लिए, जब आपको जानकारी को संघनित करने की आवश्यकता होती है, तो किसी प्रकार का संबंध खोजें या संरचनाओं को परिभाषित करें। और इस मामले में सिर्फ एनालिटिक्स के लिए यह न केवल उपयोग करने के लिए बहुत सुविधाजनक है, बल्कि सांख्यिकीय तरीकों को लागू करने के लिए भी है।

सांख्यिकीय पैटर्न के रूपों की विविधता के साथ-साथ सांख्यिकीय अनुसंधान की प्रक्रिया की जटिलता के कारण सांख्यिकीय विश्लेषण के तरीकों की एक विशेषता उनकी जटिलता है। हालाँकि, हम ठीक ऐसे तरीकों के बारे में बात करना चाहते हैं जिनका उपयोग हर कोई कर सकता है, और इसे प्रभावी ढंग से और आनंद के साथ कर सकता है।

निम्नलिखित विधियों का उपयोग करके सांख्यिकीय अनुसंधान किया जा सकता है:

सांख्यिकीय अवलोकन;
सांख्यिकीय अवलोकन सामग्री का सारांश और समूहीकरण;
निरपेक्ष और सापेक्ष सांख्यिकीय मूल्य;
विविधता श्रृंखला;
नमूना;
सहसंबंध और प्रतिगमन विश्लेषण;
गतिकी की पंक्तियाँ।

सांख्यिकीय अवलोकन

सांख्यिकीय अवलोकन एक नियोजित, संगठित और ज्यादातर मामलों में सूचनाओं का व्यवस्थित संग्रह है, जिसका उद्देश्य मुख्य रूप से घटना है सामाजिक जीवन. यह विधि पूर्वनिर्धारित सबसे हड़ताली विशेषताओं के पंजीकरण के माध्यम से कार्यान्वित की जाती है, जिसका उद्देश्य बाद में अध्ययन की गई घटनाओं की विशेषताओं को प्राप्त करना है।

कुछ महत्वपूर्ण आवश्यकताओं को ध्यान में रखते हुए सांख्यिकीय अवलोकन किया जाना चाहिए:

इसे पूरी तरह से अध्ययन की गई घटनाओं को कवर करना चाहिए;
प्राप्त डेटा सटीक और विश्वसनीय होना चाहिए;
परिणामी डेटा एक समान और आसानी से तुलनीय होना चाहिए।

साथ ही, सांख्यिकीय अवलोकन दो रूप ले सकता है:

रिपोर्टिंग सांख्यिकीय अवलोकन का एक रूप है जहां संगठनों, संस्थानों या उद्यमों की विशिष्ट सांख्यिकीय इकाइयों द्वारा जानकारी प्राप्त की जाती है। इस मामले में, डेटा को विशेष रिपोर्ट में दर्ज किया जाता है।
विशेष रूप से संगठित अवलोकन - अवलोकन, जो एक विशिष्ट उद्देश्य के लिए आयोजित किया जाता है, ताकि रिपोर्ट में उपलब्ध जानकारी प्राप्त न हो, या रिपोर्ट में जानकारी की विश्वसनीयता को स्पष्ट और स्थापित किया जा सके। इस प्रपत्र में सर्वेक्षण (उदाहरण के लिए, लोगों की राय का सर्वेक्षण), जनसंख्या गणना आदि शामिल हैं।

इसके अलावा, एक सांख्यिकीय अवलोकन को दो विशेषताओं के आधार पर वर्गीकृत किया जा सकता है: या तो डेटा रिकॉर्डिंग की प्रकृति के आधार पर या अवलोकन की इकाइयों के कवरेज के आधार पर। पहली श्रेणी में साक्षात्कार, दस्तावेज़ीकरण और प्रत्यक्ष अवलोकन शामिल हैं, और दूसरी श्रेणी में निरंतर और गैर-निरंतर अवलोकन शामिल हैं, अर्थात। चयनात्मक।

सांख्यिकीय अवलोकन का उपयोग करके डेटा प्राप्त करने के लिए, प्रश्नावली, संवाददाता गतिविधियों, स्व-गणना (जब मनाया जाता है, उदाहरण के लिए, संबंधित दस्तावेजों को स्वयं भरें), अभियान और रिपोर्टिंग जैसे तरीकों का उपयोग किया जा सकता है।

सांख्यिकीय अवलोकन सामग्री का सारांश और समूहीकरण

दूसरी विधि के बारे में बोलते हुए, सबसे पहले इसे सारांश के बारे में कहा जाना चाहिए। एक सारांश कुछ एकल तथ्यों को संसाधित करने की प्रक्रिया है जो अवलोकन के दौरान एकत्र किए गए डेटा के कुल सेट का निर्माण करते हैं। यदि सारांश सही ढंग से किया जाता है, तो अवलोकन की व्यक्तिगत वस्तुओं पर एकल डेटा की एक बड़ी मात्रा सांख्यिकीय तालिकाओं और परिणामों के पूरे परिसर में बदल सकती है। यह अध्ययन भी दृढ़ संकल्प में योगदान देता है सामान्य सुविधाएंऔर अध्ययन की गई घटनाओं की नियमितता।

अध्ययन की सटीकता और गहराई को देखते हुए, एक सरल और जटिल सारांश को अलग किया जा सकता है, लेकिन उनमें से कोई भी विशिष्ट चरणों पर आधारित होना चाहिए:

एक समूहीकरण विशेषता का चयन किया गया है;
समूहों के गठन का क्रम निर्धारित होता है;
समूह और वस्तु या घटना को समग्र रूप से चिह्नित करने के लिए संकेतकों की एक प्रणाली विकसित की जा रही है;
टेबल लेआउट विकसित किए जा रहे हैं जहां सारांश परिणाम प्रस्तुत किए जाएंगे।

यह ध्यान रखना महत्वपूर्ण है कि सारांश के विभिन्न रूप हैं:

केंद्रीकृत सारांश, आगे की प्रक्रिया के लिए प्राप्त प्राथमिक सामग्री को उच्च केंद्र में स्थानांतरित करने की आवश्यकता है;
विकेंद्रीकृत सारांश, जहां आरोही क्रम में कई चरणों में डेटा का अध्ययन होता है।

सारांश विशेष उपकरण का उपयोग करके किया जा सकता है, उदाहरण के लिए, कंप्यूटर सॉफ़्टवेयर या मैन्युअल रूप से।

समूहीकरण के लिए, यह प्रक्रिया अध्ययन किए गए डेटा को सुविधाओं के अनुसार समूहों में विभाजित करके अलग की जाती है। सांख्यिकीय विश्लेषण द्वारा निर्धारित कार्यों की विशेषताएं इस बात को प्रभावित करती हैं कि किस प्रकार का समूहीकरण होगा: प्रतीकात्मक, संरचनात्मक या विश्लेषणात्मक। इसीलिए, सारांश और समूहों के लिए, वे या तो अत्यधिक विशिष्ट विशेषज्ञों की सेवाओं का सहारा लेते हैं, या उनका उपयोग करते हैं।

निरपेक्ष और सापेक्ष आँकड़े

निरपेक्ष मूल्यों को सांख्यिकीय आंकड़ों की प्रस्तुति का पहला रूप माना जाता है। इसकी मदद से, घटनाओं को आयामी विशेषताएँ देना संभव है, उदाहरण के लिए, समय में, लंबाई में, आयतन में, क्षेत्रफल में, द्रव्यमान में, आदि।

यदि आप व्यक्तिगत पूर्ण सांख्यिकीय मूल्यों के बारे में जानना चाहते हैं, तो आप मापन, मूल्यांकन, गिनती या भार का सहारा ले सकते हैं। और अगर आपको कुल वॉल्यूम संकेतक प्राप्त करने की आवश्यकता है, तो आपको सारांश और समूहीकरण का उपयोग करना चाहिए। यह ध्यान में रखा जाना चाहिए कि माप की इकाइयों की उपस्थिति में पूर्ण सांख्यिकीय मूल्य भिन्न होते हैं। ऐसी इकाइयों में लागत, श्रम और प्राकृतिक शामिल हैं।

और सापेक्ष मूल्य सामाजिक जीवन की घटनाओं से संबंधित मात्रात्मक अनुपातों को व्यक्त करते हैं। उन्हें प्राप्त करने के लिए, कुछ राशियों को हमेशा दूसरों से विभाजित किया जाता है। जिस संकेतक की तुलना की जाती है (यह भाजक है) को तुलना का आधार कहा जाता है, और जिस संकेतक की तुलना की जाती है (यह अंश है) को रिपोर्टिंग मूल्य कहा जाता है।

उनकी सामग्री के आधार पर सापेक्ष मूल्य भिन्न हो सकते हैं। उदाहरण के लिए, तुलना के परिमाण, विकास के स्तर के परिमाण, किसी विशेष प्रक्रिया की तीव्रता के परिमाण, समन्वय के परिमाण, संरचना, गतिशीलता आदि हैं। और इसी तरह।

विभेदक विशेषताओं के कुछ सेट का अध्ययन करने के लिए, सांख्यिकीय विश्लेषण औसत मूल्यों का उपयोग करता है - सामान्यीकरण गुणवत्ता विशेषताओंकुछ विभेदक विशेषता के अनुसार सजातीय घटना का एक सेट।

औसत की एक अत्यंत महत्वपूर्ण संपत्ति यह है कि वे अपने पूरे परिसर में विशिष्ट सुविधाओं के मूल्यों के बारे में एक ही संख्या के रूप में बोलते हैं। इस तथ्य के बावजूद कि व्यक्तिगत इकाइयों में मात्रात्मक अंतर हो सकता है, औसत मान अध्ययन के तहत परिसर की सभी इकाइयों में निहित सामान्य मूल्यों को व्यक्त करते हैं। यह पता चला है कि एक चीज की विशेषताओं की मदद से आप पूरे की विशेषताओं को प्राप्त कर सकते हैं।

यह ध्यान में रखा जाना चाहिए कि सबसे अधिक में से एक महत्वपूर्ण शर्तेंयदि सांख्यिकीय विश्लेषण किया जाता है तो औसत का उपयोग सामाजिक घटनाएं, उनके परिसर की एकरूपता पर विचार किया जाता है, जिसके लिए औसत मूल्य का पता लगाना आवश्यक है। और यह निर्धारित करने का सूत्र इस बात पर निर्भर करेगा कि औसत मूल्य की गणना के लिए प्रारंभिक डेटा कैसे प्रस्तुत किया जाएगा।

रूपांतर श्रृंखला

कुछ मामलों में, कुछ अध्ययन की गई मात्राओं के औसत पर डेटा किसी घटना या प्रक्रिया की प्रक्रिया, मूल्यांकन और गहन विश्लेषण के लिए पर्याप्त नहीं हो सकता है। फिर किसी को अलग-अलग इकाइयों के संकेतकों की भिन्नता या प्रसार को ध्यान में रखना चाहिए, जो कि अध्ययन के तहत जनसंख्या की एक महत्वपूर्ण विशेषता भी है।

कई कारक मात्रा के व्यक्तिगत मूल्यों को प्रभावित कर सकते हैं, और अध्ययन के तहत घटनाएं या प्रक्रियाएं बहुत विविध हो सकती हैं, अर्थात। भिन्नता होना (यह विविधता विविधताओं की श्रृंखला है), जिसके कारणों का अध्ययन किए जा रहे सार में खोजा जाना चाहिए।

उपरोक्त निरपेक्ष मान सीधे माप की इकाइयों पर निर्भर हैं, जिसका अर्थ है कि वे दो या दो से अधिक परिवर्तनशील श्रृंखलाओं के अध्ययन, मूल्यांकन और तुलना की प्रक्रिया को और अधिक कठिन बनाते हैं। और सापेक्ष संकेतकों की गणना पूर्ण और औसत संकेतकों के अनुपात के रूप में की जानी चाहिए।

नमूना

नमूनाकरण विधि (या, अधिक सरलता से, नमूनाकरण) का अर्थ यह है कि एक भाग के गुण पूरे की संख्यात्मक विशेषताओं को निर्धारित करते हैं (इसे सामान्य जनसंख्या कहा जाता है)। मुख्य चयनात्मक विधि एक आंतरिक संबंध है जो भागों और संपूर्ण, एकवचन और सामान्य को जोड़ती है।

प्रतिचयन विधि के दूसरों की तुलना में कई महत्वपूर्ण लाभ हैं, क्योंकि टिप्पणियों की संख्या में कमी के कारण, यह काम की मात्रा, खर्च किए गए धन और प्रयासों को कम करने की अनुमति देता है, साथ ही ऐसी प्रक्रियाओं और घटनाओं पर सफलतापूर्वक डेटा प्राप्त करता है जहां उनका पूरी तरह से अध्ययन करना अव्यावहारिक या असंभव है।

नमूने की विशेषताओं और अध्ययन के तहत घटना या प्रक्रिया की विशेषताओं के बीच पत्राचार शर्तों के एक सेट पर निर्भर करेगा, और सबसे पहले, नमूना पद्धति को व्यवहार में कैसे लागू किया जाएगा। यह या तो व्यवस्थित चयन हो सकता है, एक तैयार योजना के बाद, या अनियोजित, जब नमूना सामान्य आबादी से बनाया जाता है।

लेकिन सभी मामलों में, नमूना लेने का तरीका विशिष्ट होना चाहिए और निष्पक्षता के मानदंडों को पूरा करना चाहिए। इन आवश्यकताओं को हमेशा पूरा किया जाना चाहिए, क्योंकि। यह उन पर है कि विधि की विशेषताओं और सांख्यिकीय विश्लेषण के अधीन होने वाली विशेषताओं के बीच पत्राचार निर्भर करेगा।

इस प्रकार, नमूना सामग्री को संसाधित करने से पहले, इसे सावधानीपूर्वक जांचना आवश्यक है, जिससे अनावश्यक और गौण सब कुछ से छुटकारा मिल सके। साथ ही, नमूना संकलित करते समय, किसी शौकिया प्रदर्शन को बाईपास करना अनिवार्य है। इसका मतलब यह है कि किसी भी स्थिति में आपको केवल उन विकल्पों का चयन नहीं करना चाहिए जो विशिष्ट प्रतीत होते हैं, और अन्य सभी को त्याग दें।

एक प्रभावी और उच्च गुणवत्ता वाला नमूना निष्पक्ष रूप से तैयार किया जाना चाहिए, अर्थात इसे इस तरह से निर्मित किया जाना चाहिए कि किसी भी व्यक्तिपरक प्रभाव और पूर्वकल्पित उद्देश्यों को बाहर रखा गया हो। और इस स्थिति को ठीक से देखने के लिए, यादृच्छिककरण के सिद्धांत का सहारा लेना आवश्यक है, या अधिक सरलता से, उनकी पूरी आबादी से विकल्पों के यादृच्छिक चयन के सिद्धांत के लिए।

प्रस्तुत सिद्धांत नमूनाकरण पद्धति के सिद्धांत के आधार के रूप में कार्य करता है, और जब भी एक प्रभावी नमूना आबादी बनाने की आवश्यकता होती है, इसका पालन किया जाना चाहिए, और नियोजित चयन के मामले यहां कोई अपवाद नहीं हैं।

सहसंबंध और प्रतिगमन विश्लेषण

दो या दो से अधिक संकेतकों के बीच संभावित संबंध का पता लगाने के लिए बड़ी मात्रा में डेटा का विश्लेषण करने के लिए सहसंबंध विश्लेषण और प्रतिगमन विश्लेषण दो अत्यधिक प्रभावी तरीके हैं।

सहसंबंध विश्लेषण के मामले में, कार्य हैं:

विभेदक सुविधाओं के मौजूदा कनेक्शन की जकड़न को मापें;
अज्ञात कारण संबंध निर्धारित करें;
अंतिम विशेषता पर सबसे अधिक प्रभाव डालने वाले कारकों का आकलन करें।

और प्रतिगमन विश्लेषण के मामले में, कार्य इस प्रकार हैं:

संचार का रूप निर्धारित करें;
आश्रित पर स्वतंत्र संकेतकों के प्रभाव की डिग्री स्थापित करें;
आश्रित संकेतक के परिकलित मान निर्धारित करें।

उपरोक्त सभी समस्याओं को हल करने के लिए, संयोजन में सहसंबंध और प्रतिगमन विश्लेषण दोनों को लागू करना लगभग हमेशा आवश्यक होता है।

गतिकी की श्रृंखला

सांख्यिकीय विश्लेषण की इस पद्धति का उपयोग करते हुए, घटनाओं के विकास की तीव्रता या गति को निर्धारित करना, उनके विकास की प्रवृत्ति का पता लगाना, उतार-चढ़ाव को अलग करना, विकास की गतिशीलता की तुलना करना, विकास की घटनाओं के बीच संबंध का पता लगाना बहुत सुविधाजनक है। समय।

डायनामिक्स की एक श्रृंखला एक श्रृंखला है जिसमें सांख्यिकीय संकेतक समय में क्रमिक रूप से स्थित होते हैं, परिवर्तन जिसमें अध्ययन के तहत वस्तु या घटना के विकास की प्रक्रिया की विशेषता होती है।

गतिकी की श्रृंखला में दो घटक शामिल हैं:

उपलब्ध डेटा के साथ संबद्ध समय अवधि या बिंदु;
स्तर या आँकड़ा।

साथ में, ये घटक गतिकी की एक श्रृंखला के दो शब्दों का प्रतिनिधित्व करते हैं, जहाँ पहला शब्द (समय अवधि) अक्षर "t" और दूसरा (स्तर) - अक्षर "y" द्वारा निरूपित किया जाता है।

समय अंतराल की अवधि के आधार पर जिसके साथ स्तर परस्पर जुड़े हुए हैं, गतिकी की श्रृंखला क्षणिक और अंतराल हो सकती है। अंतराल श्रृंखला आपको एक के बाद एक के बाद की अवधि के कुल मूल्य प्राप्त करने के लिए स्तरों को जोड़ने की अनुमति देती है, लेकिन क्षण श्रृंखला में ऐसी कोई संभावना नहीं है, लेकिन इसकी आवश्यकता नहीं है।

समान और अलग-अलग अंतरालों के साथ समय श्रृंखला भी मौजूद है। पल और अंतराल श्रृंखला में अंतराल का सार हमेशा अलग होता है। पहले मामले में, अंतराल उन तिथियों के बीच का समय अंतराल है, जिनसे विश्लेषण के लिए डेटा जुड़ा हुआ है (इस तरह की श्रृंखला का उपयोग करना सुविधाजनक है, उदाहरण के लिए, प्रति माह, वर्ष, आदि की संख्या निर्धारित करने के लिए)। और दूसरे मामले में - वह समय अवधि जिसके लिए कुल डेटा जुड़ा हुआ है (इस तरह की श्रृंखला का उपयोग एक महीने, वर्ष, आदि के लिए समान कार्यों की गुणवत्ता निर्धारित करने के लिए किया जा सकता है)। श्रृंखला प्रकार की परवाह किए बिना, अंतराल समान या भिन्न हो सकते हैं।

स्वाभाविक रूप से, यह जानने के लिए कि सांख्यिकीय विश्लेषण के प्रत्येक तरीके को सही तरीके से कैसे लागू किया जाए, केवल उनके बारे में जानना ही पर्याप्त नहीं है, क्योंकि, वास्तव में, सांख्यिकी एक संपूर्ण विज्ञान है जिसमें कुछ कौशल और क्षमताओं की भी आवश्यकता होती है। लेकिन इसे आसान बनाने के लिए, आप अपनी सोच को प्रशिक्षित कर सकते हैं और करना चाहिए।

अन्यथा, सूचना का अनुसंधान, मूल्यांकन, प्रसंस्करण और विश्लेषण बहुत ही रोचक प्रक्रियाएँ हैं। और ऐसे मामलों में भी जहां इससे कोई विशेष परिणाम नहीं निकलता है, अध्ययन के दौरान आप बहुत सी रोचक बातें सीख सकते हैं। सांख्यिकीय विश्लेषण ने मानव गतिविधि के क्षेत्रों की एक बड़ी संख्या में अपना रास्ता खोज लिया है, और आप इसे बाल विकास और स्व-शिक्षा सहित अध्ययन, कार्य, व्यवसाय और अन्य क्षेत्रों में उपयोग कर सकते हैं।

सांख्यिकी"जैव सांख्यिकी".

1. नाममात्र;
2. क्रमसूचक;
3. अंतराल;

नमूने

प्रतिनिधि

नमूना फ्रेम सरल यादृच्छिक नमूना अंतराल नमूनाकरण

स्तरीकृत प्रतिचयन

झुंडऔर नमूनाकरण कोटा

शून्य परिकल्पना

वैकल्पिक परिकल्पना शक्ति

आत्मविश्वास स्तर।"

शीर्षक: सांख्यिकीय डेटा विश्लेषण के मूल सिद्धांत
विस्तृत विवरण:

मौलिक या प्रयोगात्मक किसी भी वैज्ञानिक अनुसंधान के पूरा होने के बाद, प्राप्त आंकड़ों का एक सांख्यिकीय विश्लेषण किया जाता है। सांख्यिकीय विश्लेषण को सफलतापूर्वक करने और कार्यों को हल करने के लिए, अध्ययन को ठीक से नियोजित किया जाना चाहिए। इसलिए, आँकड़ों की मूल बातों को समझे बिना, परिणामों की योजना बनाना और उन्हें संसाधित करना असंभव है। वैज्ञानिक प्रयोग. हालाँकि, चिकित्सा शिक्षा न केवल सांख्यिकी का ज्ञान प्रदान करती है, बल्कि उच्च गणित की मूल बातें भी प्रदान करती है। इसलिए, बहुत बार कोई यह राय पा सकता है कि केवल एक सांख्यिकीविद् को जैव चिकित्सा अनुसंधान में सांख्यिकीय प्रसंस्करण से निपटना चाहिए, और एक चिकित्सा शोधकर्ता को अपने वैज्ञानिक कार्य के चिकित्सा मुद्दों पर ध्यान देना चाहिए। डेटा विश्लेषण में सहायता प्रदान करने वाले श्रम का ऐसा विभाजन पूरी तरह से उचित है। हालांकि, आंकड़ों के सिद्धांतों की समझ कम से कम किसी विशेषज्ञ के लिए कार्य को गलत तरीके से निर्धारित करने से बचने के लिए आवश्यक है, जिसके साथ अध्ययन शुरू होने से पहले संचार उतना ही महत्वपूर्ण है जितना कि डेटा प्रोसेसिंग के स्तर पर।

सांख्यिकीय विश्लेषण की मूल बातों के बारे में बात करने से पहले, "शब्द का अर्थ स्पष्ट करना आवश्यक है" सांख्यिकी". कई परिभाषाएँ हैं, लेकिन सबसे पूर्ण और संक्षिप्त, हमारी राय में, "डेटा एकत्र करने, प्रस्तुत करने और विश्लेषण करने का विज्ञान" के रूप में सांख्यिकी की परिभाषा है। बदले में, जीवित दुनिया के अनुप्रयोगों में सांख्यिकी के उपयोग को "बायोमेट्रिक्स" या "कहा जाता है" जैव सांख्यिकी".

यह ध्यान दिया जाना चाहिए कि बहुत बार आँकड़े केवल प्रायोगिक डेटा के प्रसंस्करण तक कम हो जाते हैं, उन्हें प्राप्त करने के चरण पर ध्यान दिए बिना। हालांकि, प्रयोग की योजना बनाते समय पहले से ही सांख्यिकीय ज्ञान आवश्यक है, ताकि इसके दौरान प्राप्त संकेतक शोधकर्ता को विश्वसनीय जानकारी प्रदान कर सकें। इसलिए, हम कह सकते हैं कि प्रयोग के परिणामों का सांख्यिकीय विश्लेषण अध्ययन शुरू होने से पहले ही शुरू हो जाता है।

पहले से ही एक योजना के विकास के स्तर पर, शोधकर्ता को स्पष्ट रूप से समझना चाहिए कि उसके काम में किस प्रकार के चर होंगे। सभी चरों को दो वर्गों में विभाजित किया जा सकता है: गुणात्मक और मात्रात्मक। एक चर कितनी सीमा तक ले सकता है यह माप के पैमाने पर निर्भर करता है। चार मुख्य पैमाने हैं:

1. नाममात्र;
2. क्रमसूचक;
3. अंतराल;
4. तर्कसंगत (संबंधों का पैमाना)।

नाममात्र पैमाने ("नाम" के पैमाने) में ही हैं कन्वेंशनोंवस्तुओं के कुछ वर्गों का वर्णन करने के लिए, जैसे "लिंग" या "रोगी का पेशा"। नाममात्र पैमाने का अर्थ है कि चर मान लेगा, मात्रात्मक संबंध जिसके बीच निर्धारित नहीं किया जा सकता है। इस प्रकार, पुरुष और महिला लिंगों के बीच गणितीय संबंध स्थापित करना असंभव है। पारंपरिक संख्यात्मक पदनाम (महिला - 0, पुरुष - 1, या इसके विपरीत) बिल्कुल मनमाने ढंग से दिए गए हैं और केवल कंप्यूटर प्रोसेसिंग के लिए अभिप्रेत हैं। नाममात्र का पैमाना अपने शुद्धतम रूप में गुणात्मक है, अलग श्रेणियांयह पैमाना आवृत्तियों (संख्या या टिप्पणियों का अनुपात, प्रतिशत) द्वारा व्यक्त किया जाता है।

क्रमिक (क्रमिक) पैमाना प्रदान करता है कि इसमें व्यक्तिगत श्रेणियों को आरोही या अवरोही क्रम में व्यवस्थित किया जा सकता है। चिकित्सा आँकड़ों में, एक क्रमसूचक पैमाने का एक उत्कृष्ट उदाहरण एक बीमारी की गंभीरता का क्रम है। इस मामले में, हम आरोही क्रम में गंभीरता का निर्माण कर सकते हैं, लेकिन अभी भी मात्रात्मक संबंधों को निर्दिष्ट करने की क्षमता नहीं है, अर्थात क्रमसूचक पैमाने में मापे गए मानों के बीच की दूरी अज्ञात है या कोई फर्क नहीं पड़ता। "गंभीरता" चर के मूल्यों के क्रम को स्थापित करना आसान है, लेकिन यह निर्धारित करना असंभव है कि एक गंभीर स्थिति कितनी बार मध्यम स्थिति से भिन्न होती है।

क्रमिक पैमाना अर्ध-मात्रात्मक डेटा प्रकारों को संदर्भित करता है, और इसके उन्नयन को आवृत्तियों (गुणात्मक पैमाने के रूप में) और उपायों द्वारा वर्णित किया जा सकता है। केंद्रीय मूल्यजिन पर हम नीचे ध्यान देंगे।

अंतराल और तर्कसंगत पैमाने विशुद्ध रूप से मात्रात्मक डेटा प्रकार हैं। अंतराल पैमाने में, हम पहले से ही यह निर्धारित कर सकते हैं कि एक चर का एक मान दूसरे से कितना भिन्न है। इस प्रकार, शरीर के तापमान में 1 डिग्री सेल्सियस की वृद्धि का मतलब हमेशा निश्चित संख्या में इकाइयों द्वारा जारी गर्मी में वृद्धि होती है। हालाँकि, अंतराल पैमाने में सकारात्मक और नकारात्मक दोनों मान होते हैं (कोई पूर्ण शून्य नहीं है)। इस संबंध में, यह कहना असंभव है कि 20 डिग्री सेल्सियस 10 से दोगुना गर्म है। हम केवल यह कह सकते हैं कि 20 डिग्री 10 से उतना ही गर्म है जितना कि 30 डिग्री 20 से अधिक गर्म है।

तर्कसंगत पैमाने (अनुपात पैमाने) में एक संदर्भ बिंदु और केवल सकारात्मक मान होते हैं। चिकित्सा में, अधिकांश तर्कसंगत पैमाने सांद्रता हैं। उदाहरण के लिए, 10 mmol/L का ग्लूकोज स्तर 5 mmol/L की तुलना में दोगुना है। तापमान के लिए, परिमेय पैमाना केल्विन पैमाना है, जहाँ पूर्ण शून्य (गर्मी की अनुपस्थिति) है।

यह जोड़ा जाना चाहिए कि कोई भी मात्रात्मक चर निरंतर हो सकता है, जैसा कि शरीर के तापमान को मापने के मामले में (यह एक निरंतर अंतराल पैमाना है), या असतत, यदि हम रक्त कोशिकाओं की संख्या या प्रयोगशाला जानवरों की संतानों की गणना करते हैं (यह एक है) असतत तर्कसंगत पैमाने)।

प्रायोगिक परिणामों के सांख्यिकीय विश्लेषण के तरीकों के चुनाव के लिए ये अंतर निर्णायक महत्व के हैं। तो, नाममात्र डेटा के लिए, ची-स्क्वायर परीक्षण लागू होता है, और प्रसिद्ध छात्र के परीक्षण के लिए आवश्यक है कि चर (अंतराल या तर्कसंगत) निरंतर हो।

चर के प्रकार का प्रश्न हल हो जाने के बाद, गठन शुरू करना आवश्यक है नमूने. एक नमूना एक निश्चित वर्ग (चिकित्सा में, जनसंख्या) की वस्तुओं का एक छोटा समूह है। बिल्कुल सटीक डेटा प्राप्त करने के लिए, किसी दिए गए वर्ग की सभी वस्तुओं का अध्ययन करना आवश्यक है, हालांकि, व्यावहारिक (अक्सर वित्तीय) कारणों से, जनसंख्या का केवल एक हिस्सा, जिसे नमूना कहा जाता है, का अध्ययन किया जाता है। भविष्य में, सांख्यिकीय विश्लेषण शोधकर्ता को एक निश्चित डिग्री सटीकता के साथ पूरी आबादी के लिए प्राप्त पैटर्न का विस्तार करने की अनुमति देता है। वास्तव में, सभी बायोमेडिकल सांख्यिकी का उद्देश्य कम से कम संभव संख्या में टिप्पणियों से सबसे सटीक परिणाम प्राप्त करना है, क्योंकि मनुष्यों पर शोध करते समय एक नैतिक मुद्दा भी महत्वपूर्ण होता है। हम जरूरत से ज्यादा मरीजों को जोखिम में नहीं डाल सकते।

एक नमूने के निर्माण को अगले विनियमित किया जाता है अनिवार्य जरूरतें, जिसका उल्लंघन अध्ययन के परिणामों से गलत निष्कर्ष निकाल सकता है। सबसे पहले, नमूना आकार महत्वपूर्ण है। अध्ययन किए गए मापदंडों का आकलन करने की सटीकता नमूना आकार पर निर्भर करती है। यहाँ "सटीकता" शब्द को ध्यान में रखा जाना चाहिए। कैसे अधिक आकारअध्ययन किए गए समूहों में, अधिक सटीक (लेकिन जरूरी नहीं कि सही) परिणाम वैज्ञानिक प्राप्त करते हैं। नमूने के अध्ययन के परिणामों को पूरी आबादी के लिए हस्तांतरणीय होने के लिए, नमूना होना चाहिए प्रतिनिधि. नमूने की प्रतिनिधित्व क्षमता का तात्पर्य है कि यह जनसंख्या के सभी आवश्यक गुणों को दर्शाता है। दूसरे शब्दों में, अध्ययन किए गए समूहों में, विभिन्न लिंग, आयु, व्यवसाय, सामाजिक स्थिति आदि के व्यक्ति समान आवृत्ति के साथ पाए जाते हैं जैसे कि पूरी आबादी में।

हालांकि, अध्ययन समूह का चयन शुरू करने से पहले, किसी विशेष जनसंख्या का अध्ययन करने की आवश्यकता पर निर्णय लेना चाहिए। आबादी का एक उदाहरण एक निश्चित नोसोलॉजी या कामकाजी उम्र के लोगों आदि के सभी रोगी हो सकते हैं। इस प्रकार, सैन्य उम्र के युवा लोगों की आबादी के लिए प्राप्त परिणाम शायद ही पोस्टमेनोपॉज़ल महिलाओं के लिए एक्सट्रपलेशन किए जा सकते हैं। अध्ययन समूह की विशेषताओं का सेट अध्ययन डेटा की "सामान्यता" निर्धारित करेगा।

नमूने विभिन्न तरीकों से उत्पन्न किए जा सकते हैं। सबसे आसान एक यादृच्छिक संख्या जनरेटर के साथ चुनना है। आवश्यक राशिजनसंख्या से वस्तुएं या नमूना फ्रेम(नमूना चयन ढांचा)। यह विधि कहलाती है सरल यादृच्छिक नमूना"। यदि हम नमूने के फ्रेम में बेतरतीब ढंग से एक प्रारंभिक बिंदु चुनते हैं, और फिर हर दूसरी, पाँचवीं या दसवीं वस्तु लेते हैं (अध्ययन में किस समूह के आकार की आवश्यकता होती है) के आधार पर, हम प्राप्त करते हैं अंतराल नमूनाकरण. अंतराल नमूनाकरण यादृच्छिक नहीं है, क्योंकि नमूनाकरण फ्रेम के भीतर डेटा की आवधिक पुनरावृत्ति की संभावना को कभी भी बाहर नहीं किया जाता है।

तथाकथित बनाना संभव है " स्तरीकृत प्रतिचयन”, जो मानता है कि जनसंख्या में कई अलग-अलग समूह होते हैं और इस संरचना को प्रायोगिक समूह में पुन: पेश किया जाना चाहिए। उदाहरण के लिए, यदि जनसंख्या में पुरुषों का महिलाओं से अनुपात 30:70 है, तो एक स्तरीकृत नमूने में, उनका अनुपात समान होना चाहिए। इस दृष्टिकोण के साथ, यह महत्वपूर्ण है कि नमूने को अत्यधिक संतुलित न किया जाए, अर्थात इसकी विशेषताओं की एकरूपता से बचा जाए, अन्यथा शोधकर्ता डेटा में अंतर या संबंध खोजने का मौका चूक सकता है।

समूह बनाने के वर्णित तरीकों के अलावा भी हैं झुंडऔर नमूनाकरण कोटा. पहले का उपयोग तब किया जाता है जब नमूना फ्रेम के बारे में पूरी जानकारी प्राप्त करना उसके आकार के कारण कठिन होता है। फिर नमूना जनसंख्या में शामिल कई समूहों से बनता है। दूसरा - कोटा - एक स्तरीकृत नमूने के समान है, लेकिन यहाँ वस्तुओं का वितरण जनसंख्या में उसके अनुरूप नहीं है।

नमूना आकार पर लौटते हुए, यह कहा जाना चाहिए कि यह पहली और दूसरी तरह की सांख्यिकीय त्रुटियों की संभावना से निकटता से संबंधित है। सांख्यिकीय त्रुटियां इस तथ्य के कारण हो सकती हैं कि अध्ययन पूरी आबादी का अध्ययन नहीं करता है, लेकिन इसका हिस्सा है। टाइप I त्रुटि त्रुटिपूर्ण विचलन है शून्य परिकल्पना. बदले में, अशक्त परिकल्पना यह धारणा है कि अध्ययन किए गए सभी समूह एक ही सामान्य आबादी से लिए गए हैं, जिसका अर्थ है कि उनके बीच अंतर या संबंध यादृच्छिक हैं। यदि हम नैदानिक परीक्षणों के साथ सादृश्य बनाते हैं, तो टाइप I त्रुटि एक गलत सकारात्मक परिणाम है।

टाइप II त्रुटि एक गलत विचलन है वैकल्पिक परिकल्पना, जिसका अर्थ इस तथ्य में निहित है कि समूहों के बीच अंतर या संबंध एक यादृच्छिक संयोग के कारण नहीं, बल्कि अध्ययन किए गए कारकों के प्रभाव के कारण होते हैं। और फिर से डायग्नोस्टिक्स के साथ सादृश्य: दूसरी तरह की त्रुटि एक गलत नकारात्मक परिणाम है। इस त्रुटि से संबंधित धारणा है शक्ति, जो बताता है कि दी गई परिस्थितियों में एक निश्चित सांख्यिकीय पद्धति कितनी प्रभावी है, इसकी संवेदनशीलता के बारे में। शक्ति की गणना सूत्र द्वारा की जाती है: 1-β, जहां β टाइप II त्रुटि की संभावना है। यह सूचकमुख्य रूप से नमूना आकार पर निर्भर करता है। समूह का आकार जितना बड़ा होगा, टाइप II त्रुटि की संभावना उतनी ही कम होगी और सांख्यिकीय परीक्षणों की शक्ति उतनी ही अधिक होगी। यह निर्भरता कम से कम द्विघात है, यानी नमूने के आकार को आधे से कम करने से कम से कम चार बार शक्ति में गिरावट आएगी। न्यूनतम स्वीकार्य शक्ति 80% मानी जाती है, और पहली तरह की त्रुटि का अधिकतम स्वीकार्य स्तर 5% है। हालांकि, यह हमेशा याद रखना चाहिए कि ये सीमाएं मनमानी हैं और अध्ययन की प्रकृति और उद्देश्यों के आधार पर बदल सकती हैं। एक नियम के रूप में, सत्ता में एक मनमाना परिवर्तन वैज्ञानिक समुदाय द्वारा मान्यता प्राप्त है, लेकिन अधिकांश मामलों में पहली तरह की त्रुटि का स्तर 5% से अधिक नहीं हो सकता है।

उपरोक्त सभी सीधे अनुसंधान योजना चरण से संबंधित हैं। हालांकि, कई शोधकर्ता गलती से सांख्यिकीय डेटा प्रोसेसिंग को केवल कार्य के मुख्य भाग के पूरा होने के बाद किए गए किसी प्रकार के हेरफेर के रूप में संदर्भित करते हैं। अक्सर, एक अनियोजित प्रयोग के अंत के बाद, पक्ष में सांख्यिकीय डेटा के विश्लेषण का आदेश देने की एक अनूठा इच्छा होती है। लेकिन एक सांख्यिकीविद् के लिए "कचरे के ढेर" से शोधकर्ता द्वारा अपेक्षित परिणाम निकालना भी बहुत मुश्किल होगा। इसलिए, बायोस्टैटिस्टिक्स के अपर्याप्त ज्ञान के साथ, प्रयोग शुरू होने से पहले ही सांख्यिकीय विश्लेषण में मदद लेना आवश्यक है।

विश्लेषण प्रक्रिया की ओर मुड़ते हुए, दो मुख्य प्रकार की सांख्यिकीय तकनीकों को इंगित किया जाना चाहिए: वर्णनात्मक और साक्ष्य-आधारित (विश्लेषणात्मक)। वर्णनात्मक तकनीकों में डेटा को कॉम्पैक्ट और आसानी से समझने वाले तरीके से प्रस्तुत करने की तकनीकें शामिल हैं। इनमें टेबल, ग्राफ़, फ़्रीक्वेंसी (निरपेक्ष और सापेक्ष), केंद्रीय प्रवृत्ति के उपाय (माध्य, माध्यिका, मोड) और डेटा प्रसार के उपाय (भिन्नता, मानक विचलन, इंटरक्वेर्टाइल अंतराल, आदि) शामिल हैं। दूसरे शब्दों में, वर्णनात्मक तरीके अध्ययन किए गए नमूनों की विशेषता बताते हैं।

उपलब्ध मात्रात्मक डेटा का वर्णन करने का सबसे लोकप्रिय (हालांकि अक्सर भ्रामक) तरीका निम्नलिखित संकेतकों को परिभाषित करना है:

नमूने या उसके आकार में टिप्पणियों की संख्या;
औसत मूल्य (अंकगणितीय माध्य);
मानक विचलन इस बात का माप है कि चर के मान कितने व्यापक रूप से बदलते हैं।

यह याद रखना महत्वपूर्ण है कि अंकगणितीय माध्य और मानक विचलन केंद्रीय प्रवृत्ति के उपाय हैं और काफी कम संख्या में नमूनों में बिखरे हुए हैं। ऐसे नमूनों में, अधिकांश वस्तुओं के मूल्य समान संभावना के साथ माध्य से विचलित होते हैं, और उनका वितरण एक सममित "घंटी" (गॉसियन या गॉस-लाप्लास वक्र) बनाता है। इस तरह के वितरण को "सामान्य" भी कहा जाता है, लेकिन चिकित्सा प्रयोग के अभ्यास में यह केवल 30% मामलों में होता है। यदि चर के मूल्यों को केंद्र के बारे में विषम रूप से वितरित किया जाता है, तो समूहों को माध्यिका और क्वांटाइल्स (प्रतिशत, चतुर्थक, डेसील) का उपयोग करके सबसे अच्छा वर्णित किया जाता है।

समूहों के विवरण को पूरा करने के बाद, उनके संबंधों के बारे में प्रश्न का उत्तर देना आवश्यक है और पूरी आबादी के अध्ययन के परिणामों को सामान्य बनाने की संभावना है। इसके लिए बायोस्टैटिस्टिक्स के साक्ष्य-आधारित तरीकों का इस्तेमाल किया जाता है। यह उनके बारे में है कि शोधकर्ताओं को सबसे पहले याद आता है जब सांख्यिकीय डेटा प्रसंस्करण की बात आती है। आमतौर पर काम के इस चरण को "सांख्यिकीय परिकल्पनाओं का परीक्षण" कहा जाता है।

परिकल्पना परीक्षण कार्यों को दो बड़े समूहों में विभाजित किया जा सकता है। पहला समूह इस सवाल का जवाब देता है कि क्या कुछ संकेतक के स्तर में समूहों के बीच मतभेद हैं, उदाहरण के लिए, हेपेटाइटिस और स्वस्थ लोगों के रोगियों में हेपेटिक ट्रांसएमिनेस के स्तर में अंतर। दूसरा समूह आपको दो या दो से अधिक संकेतकों के बीच संबंध के अस्तित्व को साबित करने की अनुमति देता है, उदाहरण के लिए, यकृत का कार्य और प्रतिरक्षा प्रणाली।

व्यावहारिक रूप से, पहले समूह के कार्यों को दो उपप्रकारों में विभाजित किया जा सकता है:

केवल दो समूहों (स्वस्थ और बीमार, पुरुष और महिला) में सूचक की तुलना;
तीन या अधिक समूहों की तुलना (दवा की विभिन्न खुराक का अध्ययन)।

यह ध्यान में रखा जाना चाहिए कि गुणात्मक और मात्रात्मक डेटा के लिए सांख्यिकीय तरीके महत्वपूर्ण रूप से भिन्न होते हैं।

ऐसी स्थिति में जहां अध्ययन किया जा रहा चर गुणात्मक है और केवल दो समूहों की तुलना की जा रही है, ची-स्क्वायर परीक्षण का उपयोग किया जा सकता है। यह एक काफी शक्तिशाली और व्यापक रूप से ज्ञात मानदंड है, हालांकि, यह पर्याप्त प्रभावी नहीं है यदि अवलोकनों की संख्या कम है। इस समस्या को हल करने के लिए कई तरीके हैं, जैसे निरंतरता के लिए येट्स सुधार और फिशर की सटीक विधि।

यदि अध्ययन के अंतर्गत चर मात्रात्मक है, तो दो प्रकार के सांख्यिकीय परीक्षणों में से एक का उपयोग किया जा सकता है। पहली तरह के मानदंड पर आधारित हैं विशिष्ट प्रकारसामान्य जनसंख्या का वितरण और इस जनसंख्या के मापदंडों के साथ काम करते हैं। ऐसे मानदंडों को "पैरामीट्रिक" कहा जाता है, और वे आम तौर पर मूल्यों के सामान्य वितरण की धारणा पर आधारित होते हैं। गैर-पैरामीट्रिक परीक्षण सामान्य आबादी के वितरण के प्रकार के बारे में धारणा पर आधारित नहीं होते हैं और इसके मापदंडों का उपयोग नहीं करते हैं। कभी-कभी ऐसे मानदंड को "वितरण-मुक्त परीक्षण" कहा जाता है। कुछ हद तक, यह गलत है, क्योंकि कोई भी गैर-पैरामीट्रिक परीक्षण मानता है कि सभी तुलना किए गए समूहों में वितरण समान होंगे, अन्यथा गलत सकारात्मक परिणाम प्राप्त हो सकते हैं।

सामान्य रूप से वितरित आबादी से प्राप्त डेटा पर दो पैरामीट्रिक परीक्षण लागू होते हैं: दो समूहों की तुलना करने के लिए छात्र का टी-परीक्षण और प्रसरण की समानता के परीक्षण के लिए फिशर का एफ-परीक्षण (उर्फ एनोवा)। बहुत अधिक गैरपारंपरिक मानदंड हैं। अलग-अलग परीक्षण एक दूसरे से उन मान्यताओं में भिन्न होते हैं जिन पर वे आधारित होते हैं, गणना की जटिलता में, सांख्यिकीय शक्ति आदि में। हालांकि, विलकॉक्सन परीक्षण (संबंधित समूहों के लिए) और मान-व्हिटनी परीक्षण, जिसे परीक्षण के रूप में भी जाना जाता है स्वतंत्र नमूनों के लिए विलकॉक्सन। ये परीक्षण इस मायने में सुविधाजनक हैं कि उन्हें डेटा वितरण की प्रकृति के बारे में मान्यताओं की आवश्यकता नहीं है। लेकिन अगर यह पता चलता है कि नमूने सामान्य रूप से वितरित सामान्य आबादी से लिए गए हैं, तो उनकी सांख्यिकीय शक्ति छात्र के परीक्षण के लिए महत्वपूर्ण रूप से भिन्न नहीं होगी।

विशिष्ट साहित्य में सांख्यिकीय विधियों का पूरा विवरण पाया जा सकता है, हालांकि, मुख्य बिंदु यह है कि प्रत्येक सांख्यिकीय परीक्षण के लिए "वांछित" खोजने के लिए नियमों (मान्यताओं) और इसके उपयोग के लिए शर्तों और कई तरीकों की यांत्रिक गणना की आवश्यकता होती है। परिणाम वैज्ञानिक दृष्टिकोण से बिल्कुल अस्वीकार्य है। इस अर्थ में, सांख्यिकीय परीक्षण दवाओं के समान हैं - प्रत्येक में संकेत और मतभेद, दुष्प्रभाव और अप्रभावीता की संभावना है। और उतना ही खतरनाक सांख्यिकीय परीक्षणों का अनियंत्रित उपयोग है, क्योंकि परिकल्पना और निष्कर्ष उन पर आधारित होते हैं।

सांख्यिकीय विश्लेषण की सटीकता के मुद्दे की अधिक संपूर्ण समझ के लिए, "की अवधारणा को परिभाषित और विश्लेषण करना आवश्यक है" आत्मविश्वास स्तर।"कॉन्फिडेंस प्रायिकता संभावित और असंभव घटनाओं के बीच सीमा के रूप में लिया गया मान है। परंपरागत रूप से, इसे "p" अक्षर से दर्शाया जाता है। कई शोधकर्ताओं के लिए, सांख्यिकीय विश्लेषण करने का एकमात्र उद्देश्य प्रतिष्ठित पी मान की गणना करना है, जो प्रसिद्ध वाक्यांश "निष्पादन क्षमा नहीं किया जा सकता" में अल्पविराम लगाता है। अधिकतम स्वीकार्य आत्मविश्वास स्तर 0.05 है। यह याद रखना चाहिए कि आत्मविश्वास का स्तर किसी घटना की संभावना नहीं है, बल्कि आत्मविश्वास का विषय है। विश्लेषण शुरू करने से पहले आत्मविश्वास की संभावना को उजागर करके, हम अपने शोध के परिणामों में विश्वास की डिग्री निर्धारित करते हैं। और, जैसा कि आप जानते हैं, अत्यधिक भोलापन और अत्यधिक संदेह समान रूप से किसी भी कार्य के परिणामों को नकारात्मक रूप से प्रभावित करते हैं।

आत्मविश्वास का स्तर टाइप I त्रुटि की अधिकतम संभावना को इंगित करता है जिसे शोधकर्ता स्वीकार्य मानता है। आत्मविश्वास के स्तर में कमी, दूसरे शब्दों में, परिकल्पनाओं के परीक्षण के लिए शर्तों को कड़ा करने से टाइप II त्रुटियों की संभावना बढ़ जाती है। इसलिए, पहली और दूसरी तरह की त्रुटियों की घटना से संभावित नुकसान को ध्यान में रखते हुए आत्मविश्वास के स्तर का चुनाव किया जाना चाहिए। उदाहरण के लिए, बायोमेडिकल आंकड़ों में अपनाई गई सख्त सीमाएं, जो 5% से अधिक के झूठे सकारात्मक परिणामों के अनुपात को निर्धारित करती हैं, एक गंभीर आवश्यकता है, क्योंकि चिकित्सा अनुसंधान के परिणामों के आधार पर नए उपचार पेश किए जाते हैं या अस्वीकार किए जाते हैं, और यह एक कई हजारों लोगों के लिए जीवन का विषय।

यह ध्यान में रखा जाना चाहिए कि पी मान स्वयं एक डॉक्टर के लिए बहुत जानकारीपूर्ण नहीं है, क्योंकि यह केवल शून्य परिकल्पना की गलत अस्वीकृति की संभावना के बारे में बताता है। यह संकेतक कुछ भी नहीं कहता है, उदाहरण के लिए, सामान्य आबादी में अध्ययन दवा का उपयोग करते समय उपचारात्मक प्रभाव के आकार के बारे में। इसलिए, एक राय है कि आत्मविश्वास के स्तर के बजाय, विश्वास अंतराल के आकार के अध्ययन के परिणामों का मूल्यांकन करना बेहतर होगा। एक विश्वास अंतराल मूल्यों की एक श्रेणी है जिसके भीतर वास्तविक जनसंख्या मूल्य (माध्य, मध्य या आवृत्ति के लिए) एक निश्चित संभावना के साथ समाहित है। व्यवहार में, इन दोनों मूल्यों का होना अधिक सुविधाजनक है, जो समग्र रूप से जनसंख्या के लिए प्राप्त परिणामों की प्रयोज्यता का अधिक आत्मविश्वास से न्याय करना संभव बनाता है।

अंत में, एक सांख्यिकीविद् या एक शोधकर्ता द्वारा उपयोग किए जाने वाले उपकरणों के बारे में कुछ शब्द कहे जाने चाहिए जो स्वतंत्र रूप से डेटा का विश्लेषण करते हैं। मैनुअल गणना लंबे चले गए हैं। आज मौजूद सांख्यिकीय कंप्यूटर प्रोग्राम गंभीर गणितीय पृष्ठभूमि के बिना सांख्यिकीय विश्लेषण करना संभव बनाते हैं। SPSS, SAS, R, आदि जैसी शक्तिशाली प्रणालियाँ शोधकर्ता को जटिल और शक्तिशाली सांख्यिकीय विधियों का उपयोग करने में सक्षम बनाती हैं। हालाँकि, यह हमेशा अच्छी बात नहीं होती है। विशिष्ट प्रायोगिक डेटा के लिए उपयोग किए जाने वाले सांख्यिकीय परीक्षणों की प्रयोज्यता की डिग्री को जाने बिना, शोधकर्ता गणना कर सकता है और आउटपुट पर कुछ संख्याएँ भी प्राप्त कर सकता है, लेकिन परिणाम बहुत ही संदिग्ध होगा। इसलिए, प्रयोग के परिणामों के सांख्यिकीय प्रसंस्करण के लिए एक शर्त आंकड़ों की गणितीय नींव का अच्छा ज्ञान होना चाहिए।

अनुप्रयुक्त आँकड़ों में अध्ययन का उद्देश्य सांख्यिकीय डेटा है जो टिप्पणियों या प्रयोगों के परिणामस्वरूप प्राप्त होता है। सांख्यिकीय डेटा वस्तुओं (अवलोकन, मामले) और सुविधाओं (चर) का एक संग्रह है जो उन्हें चिह्नित करता है। मानव गतिविधि के लगभग सभी क्षेत्रों में डेटा विश्लेषण के सांख्यिकीय तरीकों का उपयोग किया जाता है। उनका उपयोग तब किया जाता है जब किसी समूह (वस्तुओं या विषयों) के बारे में कुछ आंतरिक विषमता के साथ किसी भी निर्णय को प्राप्त करने और प्रमाणित करने के लिए आवश्यक होता है।

समूह ए से संबंधित सांख्यिकीय डेटा विश्लेषण विधियों को आमतौर पर लागू आंकड़ों के तरीके कहा जाता है।

संख्यात्मक आँकड़े संख्याएँ, वैक्टर, कार्य हैं। उन्हें जोड़ा जा सकता है, गुणांक से गुणा किया जा सकता है। इसलिए, संख्यात्मक आँकड़ों में, विभिन्न योगों का बहुत महत्व है। यादृच्छिक नमूना तत्वों के योग का विश्लेषण करने के लिए गणितीय उपकरण बड़ी संख्या और केंद्रीय सीमा प्रमेय के (शास्त्रीय) नियम हैं।

गैर-संख्यात्मक सांख्यिकीय डेटा वर्गीकृत डेटा, विषम विशेषताओं के वैक्टर, द्विआधारी संबंध, सेट, फ़ज़ी सेट आदि हैं। उन्हें गुणांक द्वारा जोड़ा और गुणा नहीं किया जा सकता है।

सांख्यिकीय डेटा विश्लेषण, एक नियम के रूप में, कई प्रक्रियाओं और एल्गोरिदम को क्रमिक रूप से, समानांतर में, या अधिक जटिल योजना में शामिल करता है। विशेष रूप से, निम्नलिखित चरणों को प्रतिष्ठित किया जा सकता है:

एक सांख्यिकीय अध्ययन की योजना बनाना;

एक इष्टतम या तर्कसंगत कार्यक्रम (नमूनाकरण योजना, एक संगठनात्मक संरचना बनाने और सांख्यिकीविदों की एक टीम का चयन करने के लिए, डेटा एकत्र करने वाले प्रशिक्षण कर्मियों, साथ ही डेटा नियंत्रकों, आदि) के अनुसार आवश्यक सांख्यिकीय डेटा के संग्रह का आयोजन;

डेटा का प्रत्यक्ष संग्रह और विभिन्न मीडिया पर उनका निर्धारण (संग्रह के गुणवत्ता नियंत्रण और विषय क्षेत्र के कारणों के लिए गलत डेटा की अस्वीकृति के साथ);

डेटा का प्राथमिक विवरण (विभिन्न नमूना विशेषताओं की गणना, वितरण कार्य, गैर पैरामीट्रिक घनत्व अनुमान, हिस्टोग्राम का निर्माण, सहसंबंध क्षेत्र, विभिन्न टेबल और चार्ट, आदि),

कुछ संख्यात्मक या गैर-संख्यात्मक विशेषताओं और वितरण के मापदंडों का अनुमान (उदाहरण के लिए, भिन्नता के गुणांक का गैर-पैरामीट्रिक अंतराल अनुमान या प्रतिक्रिया और कारकों के बीच संबंध की बहाली, यानी फ़ंक्शन अनुमान),

सांख्यिकीय परिकल्पनाओं का परीक्षण (कभी-कभी उनकी जंजीरें - पिछली परिकल्पना का परीक्षण करने के बाद, एक या दूसरी बाद की परिकल्पना का परीक्षण करने का निर्णय लिया जाता है),

अधिक गहन अध्ययन, अर्थात्। बहुभिन्नरूपी सांख्यिकीय विश्लेषण, नैदानिक और वर्गीकरण एल्गोरिदम, गैर-संख्यात्मक और अंतराल डेटा के आंकड़े, समय श्रृंखला विश्लेषण, आदि के लिए विभिन्न एल्गोरिदम का उपयोग;

के संबंध में प्राप्त अनुमानों और निष्कर्षों की स्थिरता का सत्यापन सहिष्णुताप्रयुक्त संभाव्य-सांख्यिकीय मॉडल के प्रारंभिक डेटा और पूर्वापेक्षाएँ, विशेष रूप से, नमूना गुणन की विधि द्वारा अनुमानों के गुणों का अध्ययन;

लागू उद्देश्यों के लिए प्राप्त सांख्यिकीय परिणामों का अनुप्रयोग (उदाहरण के लिए, विशिष्ट सामग्रियों के निदान के लिए, पूर्वानुमान लगाना, प्रस्तावित विकल्पों में से एक निवेश परियोजना का चयन करना, कार्यान्वयन का इष्टतम तरीका खोजना तकनीकी प्रक्रिया, तकनीकी उपकरणों, आदि के नमूनों के परीक्षण के परिणामों को सारांशित करना),

अंतिम रिपोर्ट तैयार करना, विशेष रूप से उन लोगों के लिए जो डेटा विश्लेषण के सांख्यिकीय तरीकों के विशेषज्ञ नहीं हैं, जिसमें प्रबंधन - "निर्णय निर्माता" शामिल हैं।

विधियों में शामिल हैं:

सहसंबंध विश्लेषण। चर (यादृच्छिक चर) के बीच एक कार्यात्मक संबंध हो सकता है, इस तथ्य में प्रकट होता है कि उनमें से एक को दूसरे के कार्य के रूप में परिभाषित किया गया है। लेकिन चर के बीच एक अन्य प्रकार का संबंध भी हो सकता है, जो इस तथ्य में प्रकट होता है कि उनमें से एक अपने वितरण कानून को बदलकर दूसरे में परिवर्तन पर प्रतिक्रिया करता है। ऐसे रिश्ते को स्टोचैस्टिक कहा जाता है। चरों के बीच निर्भरता के माप के रूप में, सहसंबंध गुणांक (r) का उपयोग किया जाता है, जो -1 से +1 तक भिन्न होता है। यदि सहसंबंध गुणांक ऋणात्मक है, तो इसका अर्थ है कि जैसे-जैसे एक चर के मान बढ़ते हैं, दूसरे के मान घटते जाते हैं। यदि चर स्वतंत्र हैं, तो सहसंबंध गुणांक 0 है (विपरीत केवल सामान्य वितरण वाले चर के लिए सत्य है)। लेकिन अगर सहसंबंध गुणांक 0 के बराबर नहीं है (चर को असंबद्ध कहा जाता है), तो इसका मतलब है कि चर के बीच एक संबंध है। r से 1 का मान जितना करीब होगा, निर्भरता उतनी ही मजबूत होगी। सहसंबंध गुणांक +1 या -1 के अपने चरम मूल्यों तक पहुँचता है यदि और केवल यदि चर के बीच संबंध रैखिक है। सहसंबंध विश्लेषण आपको चर (यादृच्छिक चर) के बीच स्टोकेस्टिक संबंध की ताकत और दिशा स्थापित करने की अनुमति देता है।

प्रतिगमन विश्लेषण। प्रतिगमन विश्लेषण एक या अधिक अन्य यादृच्छिक चर के साथ एक यादृच्छिक चर के संबंध को मॉडल करता है। इस मामले में, पहले चर को आश्रित कहा जाता है, और बाकी को स्वतंत्र कहा जाता है। निर्भर और स्वतंत्र चर का चुनाव या असाइनमेंट मनमाना (सशर्त) है और शोधकर्ता द्वारा हल की जा रही समस्या के आधार पर किया जाता है। स्वतंत्र चर को कारक, प्रतिगामी या भविष्यवक्ता कहा जाता है, और आश्रित चर को परिणाम विशेषता या प्रतिक्रिया कहा जाता है।

यदि भविष्यवक्ताओं की संख्या 1 के बराबर है, तो प्रतिगमन को सरल या अविभाज्य कहा जाता है, यदि भविष्यवक्ताओं की संख्या 1 से अधिक, एकाधिक या बहुघटकीय है। सामान्य तौर पर, प्रतिगमन मॉडल को निम्नानुसार लिखा जा सकता है:

वाई \u003d एफ (एक्स 1, एक्स 2, ..., एक्स एन),

जहाँ y - आश्रित चर (प्रतिक्रिया), x i (i = 1,…, n) - भविष्यवक्ता (कारक), n - भविष्यवक्ताओं की संख्या।

कैननिकल विश्लेषण। कैनोनिकल विश्लेषण को वस्तुओं की विशेषता वाली सुविधाओं (स्वतंत्र चर) की दो सूचियों के बीच निर्भरता का विश्लेषण करने के लिए डिज़ाइन किया गया है। उदाहरण के लिए, आप विभिन्न प्रतिकूल कारकों और किसी बीमारी के लक्षणों के एक निश्चित समूह की उपस्थिति, या किसी रोगी के नैदानिक और प्रयोगशाला मापदंडों (सिंड्रोम) के दो समूहों के बीच संबंध का अध्ययन कर सकते हैं। कैननिकल विश्लेषण एक चर और कई अन्य चर के बीच संबंध के माप के रूप में बहु सहसंबंध का सामान्यीकरण है।

औसत की तुलना करने के तरीके। अनुप्रयुक्त अनुसंधान में, अक्सर ऐसे मामले होते हैं जब प्रयोगों की एक श्रृंखला की कुछ विशेषता का औसत परिणाम दूसरी श्रृंखला के औसत परिणाम से भिन्न होता है। चूंकि औसत माप के परिणाम हैं, इसलिए, एक नियम के रूप में, वे हमेशा भिन्न होते हैं, सवाल यह है कि क्या औसत के बीच देखी गई विसंगति को प्रयोग की अपरिहार्य यादृच्छिक त्रुटियों द्वारा समझाया जा सकता है, या यह कुछ कारणों से है। औसत परिणामों की तुलना उन चर विशेषताओं के बीच निर्भरता की पहचान करने के तरीकों में से एक है जो वस्तुओं के अध्ययन किए गए सेट (टिप्पणियों) की विशेषता है। यदि, एक स्वतंत्र स्वतंत्र चर (भविष्यवक्ता) का उपयोग करके अध्ययन की वस्तुओं को उपसमूहों में विभाजित करते समय, उपसमूहों में कुछ आश्रित चर के साधनों की असमानता के बारे में परिकल्पना सत्य है, तो इसका मतलब है कि इस आश्रित चर के बीच एक स्टोकेस्टिक संबंध है और श्रेणीबद्ध भविष्यवक्ता।

आवृत्ति विश्लेषण। फ़्रीक्वेंसी टेबल, या जैसा कि उन्हें सिंगल-इनपुट टेबल भी कहा जाता है, हैं सबसे सरल तरीकाश्रेणीबद्ध चर का विश्लेषण। इस प्रकार के सांख्यिकीय अध्ययन का उपयोग अक्सर खोजपूर्ण विश्लेषण प्रक्रियाओं में से एक के रूप में किया जाता है, यह देखने के लिए कि नमूने में टिप्पणियों के विभिन्न समूहों को कैसे वितरित किया जाता है, या किसी विशेषता का मान अंतराल पर न्यूनतम से अधिकतम मूल्य तक कैसे वितरित किया जाता है। क्रॉसस्टैब्यूलेशन (संयुग्मन) दो (या अधिक) आवृत्ति तालिकाओं के संयोजन की प्रक्रिया है ताकि निर्मित तालिका में प्रत्येक सेल को मानों के एकल संयोजन या सारणीबद्ध चर के स्तरों द्वारा दर्शाया जाए। क्रॉसस्टैब्यूलेशन विचार किए गए कारकों के विभिन्न स्तरों पर अवलोकनों की घटना की आवृत्तियों को जोड़ना संभव बनाता है।

पत्राचार विश्लेषण। पत्राचार विश्लेषण, आवृत्ति विश्लेषण की तुलना में, दो-तरफ़ा और बहु-तरफ़ा तालिकाओं के विश्लेषण के लिए अधिक शक्तिशाली वर्णनात्मक और खोजपूर्ण तरीके शामिल हैं। विधि, आकस्मिक तालिकाओं की तरह, आपको तालिका में शामिल समूहीकरण चर की संरचना और संबंध का पता लगाने की अनुमति देती है।

क्लस्टर विश्लेषण। क्लस्टर विश्लेषण एक वर्गीकरण विश्लेषण पद्धति है; इसका मुख्य उद्देश्य अध्ययन के तहत वस्तुओं और सुविधाओं के समूह को समूहों या समूहों में विभाजित करना है जो एक निश्चित अर्थ में सजातीय हैं। यह एक बहुभिन्नरूपी सांख्यिकीय पद्धति है, इसलिए यह माना जाता है कि प्रारंभिक डेटा एक महत्वपूर्ण मात्रा का हो सकता है, अर्थात अध्ययन की वस्तुओं की संख्या (अवलोकन) और इन वस्तुओं की विशेषता दोनों ही काफी बड़ी हो सकती हैं। क्लस्टर विश्लेषण का महान लाभ यह है कि यह वस्तुओं को एक विशेषता से नहीं, बल्कि कई विशेषताओं द्वारा विभाजित करना संभव बनाता है। इसके अलावा, अधिकांश गणितीय और सांख्यिकीय तरीकों के विपरीत, क्लस्टर विश्लेषण, विचाराधीन वस्तुओं के प्रकार पर कोई प्रतिबंध नहीं लगाता है और आपको लगभग मनमाना प्रकृति के बहुत से प्रारंभिक डेटा का पता लगाने की अनुमति देता है।

विभेदक विश्लेषण। भेदभावपूर्ण विश्लेषण में ऐसी स्थिति में बहुभिन्नरूपी टिप्पणियों को वर्गीकृत करने के लिए सांख्यिकीय तरीके शामिल हैं जहां शोधकर्ता के पास तथाकथित प्रशिक्षण नमूने हैं। इस प्रकार का विश्लेषण बहुआयामी है, क्योंकि यह वस्तु की कई विशेषताओं का उपयोग करता है, जिनकी संख्या मनमाने ढंग से बड़ी हो सकती है। विभेदक विश्लेषण का उद्देश्य किसी वस्तु की विभिन्न विशेषताओं (विशेषताओं) की माप के आधार पर इसे वर्गीकृत करना है, अर्थात। किसी इष्टतम तरीके से दिए गए कई समूहों (वर्गों) में से एक को सौंपा जाए। यह माना जाता है कि प्रारंभिक डेटा, वस्तुओं की विशेषताओं के साथ, एक श्रेणीबद्ध (समूहीकरण) चर होता है जो यह निर्धारित करता है कि वस्तु किसी विशेष समूह से संबंधित है या नहीं। कारक विश्लेषण। कारक विश्लेषण सबसे लोकप्रिय बहुभिन्नरूपी सांख्यिकीय विधियों में से एक है। यदि क्लस्टर और भेदभावपूर्ण तरीके टिप्पणियों को वर्गीकृत करते हैं, उन्हें समरूपता समूहों में विभाजित करते हैं, तो कारक विश्लेषण उन विशेषताओं (चर) को वर्गीकृत करता है जो टिप्पणियों का वर्णन करते हैं। इसलिए, कारक विश्लेषण का मुख्य लक्ष्य चर के वर्गीकरण के आधार पर चर की संख्या को कम करना और उनके बीच संबंधों की संरचना का निर्धारण करना है।

वर्गीकरण के पेड़। वर्गीकरण पेड़ वर्गीकरण विश्लेषण का एक तरीका है जो आपको वस्तुओं की विशेषताओं के अनुरूप मूल्यों के आधार पर किसी विशेष वर्ग से संबंधित वस्तुओं की भविष्यवाणी करने की अनुमति देता है। विशेषताओं को स्वतंत्र चर कहा जाता है, और एक चर यह दर्शाता है कि क्या वस्तुएं कक्षाओं से संबंधित हैं, आश्रित कहलाती हैं। क्लासिकल डिस्क्रिमिनेंट एनालिसिस के विपरीत, वर्गीकरण ट्री वेरिएबल्स में एक-आयामी ब्रांचिंग करने में सक्षम हैं विभिन्न प्रकार केश्रेणीबद्ध, क्रमिक, अंतराल। मात्रात्मक चर के वितरण के कानून पर कोई प्रतिबंध नहीं लगाया गया है। विभेदक विश्लेषण के अनुरूप, विधि वर्गीकरण प्रक्रिया में व्यक्तिगत चर के योगदान का विश्लेषण करना संभव बनाती है।

प्रधान घटक विश्लेषण और वर्गीकरण। प्रमुख घटक विश्लेषण और वर्गीकरण की विधि इस समस्या को हल करने की अनुमति देती है और दो लक्ष्यों को प्राप्त करने में मदद करती है:

"मुख्य" और "गैर-सहसंबंधित" चर प्राप्त करने के लिए चर (डेटा में कमी) की कुल संख्या को कम करना;

निर्मित कारक स्थान का उपयोग करते हुए चर और टिप्पणियों का वर्गीकरण।

विधि की मुख्य समस्या का समाधान मूल से कम आयाम वाले अव्यक्त (छिपे हुए) चर (कारकों) का एक सदिश स्थान बनाकर प्राप्त किया जाता है। प्रारंभिक आयाम स्रोत डेटा में विश्लेषण के लिए चरों की संख्या द्वारा निर्धारित किया जाता है।

बहुआयामी स्केलिंग। विधि को कारक विश्लेषण के विकल्प के रूप में देखा जा सकता है, जो अव्यक्त (प्रत्यक्ष रूप से नहीं देखे गए) कारकों को उजागर करके चर की संख्या में कमी को प्राप्त करता है जो देखे गए चर के बीच संबंधों की व्याख्या करता है। बहुआयामी स्केलिंग का उद्देश्य अव्यक्त चरों को खोजना और उनकी व्याख्या करना है जो उपयोगकर्ता को मूल सुविधा स्थान में दिए गए बिंदुओं के बीच समानता की व्याख्या करने में सक्षम बनाता है। व्यवहार में, वस्तुओं की समानता के संकेतक उनके बीच की दूरी या संबंध की डिग्री हो सकते हैं। कारक विश्लेषण में, चर के बीच समानता को सहसंबंध गुणांक के मैट्रिक्स का उपयोग करके व्यक्त किया जाता है। बहुआयामी स्केलिंग में, एक मनमाने प्रकार की वस्तु समानता मैट्रिक्स का उपयोग इनपुट डेटा के रूप में किया जा सकता है: दूरी, सहसंबंध, आदि।

संरचनात्मक समीकरणों द्वारा मॉडलिंग (कारण मॉडलिंग)। मॉडलिंग संरचनात्मक समीकरणों का उद्देश्य जटिल प्रणालियां हैं, जिनमें से आंतरिक संरचना ज्ञात नहीं है ("ब्लैक बॉक्स")। संरचनात्मक समीकरण मॉडलिंग का मुख्य विचार यह है कि आप जांच कर सकते हैं कि चर Y और X एक रैखिक संबंध Y = aX से संबंधित हैं या नहीं, उनके प्रसरण और सहप्रसरण का विश्लेषण करके। यह विचार माध्य और विचरण की एक साधारण संपत्ति पर आधारित है: यदि आप प्रत्येक संख्या को कुछ स्थिर k से गुणा करते हैं, तो माध्य को भी k से गुणा किया जाता है, मानक विचलन को k के मापांक से गुणा किया जाता है।

समय श्रृंखला। समय श्रृंखला गणितीय आँकड़ों का सबसे गहन विकासशील, आशाजनक क्षेत्र है। एक समय (गतिशील) श्रृंखला एक निश्चित विशेषता X (यादृच्छिक चर) की टिप्पणियों का एक अनुक्रम है जो क्रमिक समतुल्य क्षणों t पर है। व्यक्तिगत अवलोकनों को श्रृंखला के स्तर कहा जाता है और xt, t = 1, ..., n द्वारा निरूपित किया जाता है। समय श्रृंखला का अध्ययन करते समय, कई घटक प्रतिष्ठित होते हैं:

एक्स टी \u003d यू टी + वाई टी + सी टी + ई टी, टी \u003d 1, ..., एन,

जहां यू टी एक प्रवृत्ति है, एक सुचारू रूप से बदलते घटक जो दीर्घकालिक कारकों (जनसंख्या में गिरावट, आय में गिरावट, आदि) के शुद्ध प्रभाव का वर्णन करता है; - मौसमी घटक, बहुत लंबी अवधि (दिन, सप्ताह, महीना, आदि) में प्रक्रियाओं की आवृत्ति को दर्शाता है; сt - चक्रीय घटक, एक वर्ष से अधिक समय की लंबी अवधि में प्रक्रियाओं की आवृत्ति को दर्शाता है; टी एक यादृच्छिक घटक है जो यादृच्छिक कारकों के प्रभाव को दर्शाता है जिसका हिसाब और पंजीकरण नहीं किया जा सकता है। पहले तीन घटक नियतात्मक घटक हैं।

तंत्रिका - तंत्र। तंत्रिका नेटवर्क एक कंप्यूटिंग प्रणाली है, जिसकी वास्तुकला न्यूरॉन्स से तंत्रिका ऊतक के निर्माण के अनुरूप है। सबसे निचली परत के न्यूरॉन्स को इनपुट मापदंडों के मूल्यों के साथ आपूर्ति की जाती है, जिसके आधार पर कुछ निर्णय किए जाने चाहिए।

प्रयोग योजना। इन विधियों की संभावनाओं का पूरी तरह से दोहन करने के लिए एक निश्चित क्रम में टिप्पणियों को व्यवस्थित करने या विशेष रूप से नियोजित जांच करने की कला "प्रायोगिक डिजाइन" विषय की सामग्री है।

गुणवत्ता नियंत्रण कार्ड। उत्पादों और सेवाओं की गुणवत्ता वैज्ञानिक अनुसंधान, डिजाइन और तकनीकी विकास की प्रक्रिया में बनती है और उत्पादन और सेवाओं के एक अच्छे संगठन द्वारा सुनिश्चित की जाती है। लेकिन उत्पादों का निर्माण और सेवाओं का प्रावधान, उनके प्रकार की परवाह किए बिना, हमेशा उत्पादन और प्रावधान की स्थितियों में एक निश्चित परिवर्तनशीलता से जुड़ा होता है। इससे उनकी गुणवत्ता की विशेषताओं में कुछ परिवर्तनशीलता होती है। इसलिए, गुणवत्ता नियंत्रण के तरीकों को विकसित करने के मुद्दे प्रासंगिक हैं जो तकनीकी प्रक्रिया के उल्लंघन या सेवाओं के प्रावधान के संकेतों का समय पर पता लगाने की अनुमति देंगे।

सांख्यिकीय जनसंख्या की विभिन्न इकाइयाँ, जिनमें पर्याप्त रूप से महत्वपूर्ण विशेषताओं के संदर्भ में आपस में एक निश्चित समानता है, को समूहीकरण पद्धति का उपयोग करके समूहों में जोड़ा जाता है। यह तकनीक आपको अवलोकन के दौरान प्राप्त जानकारी को "संकुचित" करने की अनुमति देती है, और इस आधार पर अध्ययन की जा रही घटना में निहित पैटर्न स्थापित करती है।

समूहीकरण विधि का उपयोग विभिन्न समस्याओं को हल करने के लिए किया जाता है, जिनमें से सबसे महत्वपूर्ण हैं:

1. सामाजिक-आर्थिक प्रकारों का आवंटन

2. समान संग्रहों की संरचना का निर्धारण करना

3. सामाजिक परिघटनाओं की व्यक्तिगत विशेषताओं के बीच संबंधों और प्रतिमानों को प्रकट करना

इस संबंध में, 3 प्रकार के समूह हैं: टाइपोलॉजिकल, स्ट्रक्चरल और एनालिटिकल। समूहों को आचरण के रूप से अलग किया जाता है।

टाइपोलॉजिकल ग्रुपिंग वर्गों, सामाजिक-आर्थिक प्रकारों, इकाइयों के सजातीय समूहों में जांच की गई गुणात्मक रूप से विषम सांख्यिकीय आबादी का विभाजन है।

संरचनात्मक समूह इकाइयों के गुणात्मक रूप से सजातीय सेट को कुछ, आवश्यक विशेषताओं के अनुसार समूहों में विभाजित करते हैं जो इसकी संरचना और आंतरिक संरचना की विशेषता रखते हैं।

विश्लेषणात्मक समूह अध्ययन की गई सामाजिक-आर्थिक घटनाओं और उनकी विशेषता वाली विशेषताओं के बीच संबंध और अन्योन्याश्रितता की स्थापना सुनिश्चित करते हैं। इस प्रकार के समूहीकरण के माध्यम से, सजातीय घटनाओं के संकेतों के बीच कारण संबंध स्थापित और अध्ययन किए जाते हैं, और एक सांख्यिकीय जनसंख्या के विकास के कारकों का निर्धारण किया जाता है।

अनुप्रयुक्त आँकड़ों में अध्ययन का उद्देश्य सांख्यिकीय डेटा है जो टिप्पणियों या प्रयोगों के परिणामस्वरूप प्राप्त होता है। सांख्यिकीय डेटा वस्तुओं (अवलोकन, मामले) और सुविधाओं (चर) का एक सेट है जो उन्हें चिह्नित करता है। उदाहरण के लिए, अध्ययन की वस्तुएं दुनिया के देश और संकेत हैं, - भौगोलिक और आर्थिक संकेतक उनकी विशेषता: महाद्वीप; समुद्र तल से ऊपर क्षेत्र की ऊंचाई; औसत वार्षिक तापमान; जीवन की गुणवत्ता, प्रति व्यक्ति सकल घरेलू उत्पाद की हिस्सेदारी के मामले में सूची में देश का स्थान; स्वास्थ्य देखभाल, शिक्षा, सेना पर सार्वजनिक व्यय; औसत जीवन प्रत्याशा; बेरोजगारी का हिस्सा, निरक्षर; जीवन सूचकांक की गुणवत्ता, आदि।
चर वे मात्राएँ हैं जो माप के परिणामस्वरूप विभिन्न मान ले सकती हैं।
स्वतंत्र चर वे चर होते हैं जिनके मूल्यों को प्रयोग के दौरान बदला जा सकता है, और आश्रित चर वे चर होते हैं जिनके मूल्यों को केवल मापा जा सकता है।
चर को विभिन्न पैमानों पर मापा जा सकता है। पैमानों के बीच का अंतर उनकी सूचना सामग्री द्वारा निर्धारित किया जाता है। निम्नलिखित प्रकार के पैमानों पर विचार किया जाता है, उनकी सूचना सामग्री के आरोही क्रम में प्रस्तुत किया जाता है: नाममात्र, क्रमसूचक, अंतराल, अनुपात पैमाने, निरपेक्ष। ये पैमाने मान्य गणितीय संक्रियाओं की संख्या में भी एक दूसरे से भिन्न होते हैं। "सबसे गरीब" पैमाना नाममात्र का है, क्योंकि एक भी अंकगणितीय ऑपरेशन परिभाषित नहीं किया गया है, "सबसे अमीर" स्वयं निरपेक्ष है।
नाममात्र (वर्गीकरण) पैमाने में मापन का अर्थ यह निर्धारित करना है कि कोई वस्तु (अवलोकन) किसी विशेष वर्ग से संबंधित है या नहीं। उदाहरण के लिए: लिंग, सेवा की शाखा, पेशा, महाद्वीप, आदि। इस पैमाने में, कोई केवल कक्षाओं में वस्तुओं की संख्या - आवृत्ति और सापेक्ष आवृत्ति की गणना कर सकता है।
क्रमिक (रैंक) पैमाने में मापन, संबंधित वर्ग का निर्धारण करने के अलावा, आपको कुछ मामलों में एक दूसरे के साथ तुलना करके टिप्पणियों को सुव्यवस्थित करने की अनुमति देता है। हालाँकि, यह पैमाना कक्षाओं के बीच की दूरी को निर्धारित नहीं करता है, लेकिन केवल दो में से कौन सा अवलोकन बेहतर है। इसलिए, क्रमिक प्रायोगिक डेटा, भले ही वे संख्याओं द्वारा दर्शाए गए हों, उन्हें संख्याएँ नहीं माना जा सकता है और उन पर अंकगणितीय संक्रियाएँ की जा सकती हैं। इस पैमाने में, किसी वस्तु की आवृत्ति की गणना करने के अलावा, आप वस्तु की श्रेणी की गणना कर सकते हैं। क्रमिक पैमाने पर मापे गए चर के उदाहरण: छात्र स्कोर, प्रतियोगिताओं में पुरस्कार, सैन्य रैंक, जीवन की गुणवत्ता की सूची में देश का स्थान आदि। कभी-कभी नाममात्र और क्रमिक चर को श्रेणीबद्ध या समूह कहा जाता है, क्योंकि वे अनुसंधान वस्तुओं को उपसमूहों में विभाजित करने की अनुमति देते हैं।
एक अंतराल पैमाने पर मापते समय, अवलोकनों का क्रम इतनी सटीकता से किया जा सकता है कि उनमें से किन्हीं दो के बीच की दूरी ज्ञात हो। अंतराल पैमाना रैखिक परिवर्तनों (y = ax + b) तक अद्वितीय है। इसका मतलब है कि पैमाने का एक मनमाना संदर्भ बिंदु है - सशर्त शून्य। अंतराल पैमाने पर मापे गए चर के उदाहरण: तापमान, समय, समुद्र तल से ऊँचाई। टिप्पणियों के बीच की दूरी निर्धारित करने के लिए दिए गए पैमाने में चर को संचालित किया जा सकता है। दूरियाँ पूर्ण संख्याएँ होती हैं और उन पर कोई भी अंकगणितीय संक्रियाएँ की जा सकती हैं।
अनुपात पैमाना अंतराल पैमाने के समान है, लेकिन यह y = ax के रूपांतरण तक अद्वितीय है। इसका मतलब है कि पैमाने का एक निश्चित संदर्भ बिंदु है - पूर्ण शून्य, लेकिन एक मनमाना माप पैमाना। अनुपात पैमाने पर मापे गए चर के उदाहरण: लंबाई, वजन, वर्तमान, धन की राशि, स्वास्थ्य देखभाल, शिक्षा, सेना, जीवन प्रत्याशा आदि पर समाज का खर्च। इस पैमाने में माप पूर्ण संख्याएँ हैं और उन पर कोई भी अंकगणितीय संक्रियाएँ की जा सकती हैं।
एक निरपेक्ष पैमाने में पूर्ण शून्य और माप की एक पूर्ण इकाई (स्केल) दोनों होते हैं। निरपेक्ष पैमाने का एक उदाहरण संख्या रेखा है। यह पैमाना आयाम रहित है, इसलिए इसमें मापन को एक लघुगणक के घातांक या आधार के रूप में उपयोग किया जा सकता है। निरपेक्ष पैमाने में मापन के उदाहरण: बेरोजगारी दर; निरक्षरों का अनुपात, जीवन की गुणवत्ता सूचकांक, आदि।
अधिकांश सांख्यिकीय विधियाँ पैरामीट्रिक सांख्यिकी विधियाँ हैं जो इस धारणा पर आधारित हैं कि चरों का एक यादृच्छिक वेक्टर कुछ बहुभिन्नरूपी वितरण बनाता है, आमतौर पर सामान्य या एक सामान्य वितरण में बदल जाता है। यदि इस धारणा की पुष्टि नहीं होती है, तो गणितीय आँकड़ों के गैर-पैरामीट्रिक तरीकों का उपयोग किया जाना चाहिए।

सहसंबंध विश्लेषण।चर (यादृच्छिक चर) के बीच एक कार्यात्मक संबंध हो सकता है, इस तथ्य में प्रकट होता है कि उनमें से एक को दूसरे के कार्य के रूप में परिभाषित किया गया है। लेकिन चर के बीच एक अन्य प्रकार का संबंध भी हो सकता है, जो इस तथ्य में प्रकट होता है कि उनमें से एक अपने वितरण कानून को बदलकर दूसरे में परिवर्तन पर प्रतिक्रिया करता है। ऐसे रिश्ते को स्टोचैस्टिक कहा जाता है। ऐसा प्रतीत होता है जब सामान्य यादृच्छिक कारक होते हैं जो दोनों चर को प्रभावित करते हैं। चरों के बीच निर्भरता के माप के रूप में, सहसंबंध गुणांक (r) का उपयोग किया जाता है, जो -1 से +1 तक भिन्न होता है। यदि सहसंबंध गुणांक ऋणात्मक है, तो इसका अर्थ है कि जैसे-जैसे एक चर के मान बढ़ते हैं, दूसरे के मान घटते जाते हैं। यदि चर स्वतंत्र हैं, तो सहसंबंध गुणांक 0 है (विपरीत केवल सामान्य वितरण वाले चर के लिए सत्य है)। लेकिन अगर सहसंबंध गुणांक 0 के बराबर नहीं है (चर को असंबद्ध कहा जाता है), तो इसका मतलब है कि चर के बीच एक संबंध है। r से 1 का मान जितना करीब होगा, निर्भरता उतनी ही मजबूत होगी। सहसंबंध गुणांक +1 या -1 के अपने चरम मूल्यों तक पहुँचता है यदि और केवल यदि चर के बीच संबंध रैखिक है। सहसंबंध विश्लेषण आपको चर (यादृच्छिक चर) के बीच स्टोकेस्टिक संबंध की ताकत और दिशा स्थापित करने की अनुमति देता है। यदि चर कम से कम एक अंतराल पैमाने पर मापा जाता है और एक सामान्य वितरण होता है, तो पियर्सन सहसंबंध गुणांक की गणना करके सहसंबंध विश्लेषण किया जाता है, अन्यथा स्पीयरमैन, केंडल के ताऊ या गामा सहसंबंधों का उपयोग किया जाता है।

प्रतिगमन विश्लेषण।प्रतिगमन विश्लेषण एक या अधिक अन्य यादृच्छिक चर के साथ एक यादृच्छिक चर के संबंध को मॉडल करता है। इस मामले में, पहले चर को आश्रित कहा जाता है, और बाकी को स्वतंत्र कहा जाता है। निर्भर और स्वतंत्र चर का चुनाव या असाइनमेंट मनमाना (सशर्त) है और शोधकर्ता द्वारा हल की जा रही समस्या के आधार पर किया जाता है। स्वतंत्र चर को कारक, प्रतिगामी या भविष्यवक्ता कहा जाता है, और आश्रित चर को परिणाम विशेषता या प्रतिक्रिया कहा जाता है।
यदि भविष्यवक्ताओं की संख्या 1 के बराबर है, तो प्रतिगमन को सरल या अविभाज्य कहा जाता है, यदि भविष्यवक्ताओं की संख्या 1 से अधिक, एकाधिक या बहुघटकीय है। सामान्य तौर पर, प्रतिगमन मॉडल को निम्नानुसार लिखा जा सकता है:

वाई \u003d एफ (एक्स 1, एक्स 2, ..., एक्स एन),

जहाँ y आश्रित चर (प्रतिक्रिया) है, x i (i = 1,…, n) भविष्यवक्ता (कारक) हैं, n भविष्यवक्ताओं की संख्या है।
प्रतिगमन विश्लेषण के माध्यम से अध्ययन के तहत समस्या के लिए कई महत्वपूर्ण कार्यों को हल करना संभव है:
1). कारकों के एक हिस्से को एक चर - प्रतिक्रिया के साथ बदलकर विश्लेषण किए गए चर (कारक स्थान) के स्थान के आयाम को कम करना। कारक विश्लेषण द्वारा यह समस्या अधिक पूरी तरह से हल हो गई है।
2). प्रत्येक कारक के प्रभाव की मात्रा निर्धारित करना, अर्थात एकाधिक प्रतिगमन, शोधकर्ता को "सबसे अच्छा भविष्यवक्ता क्या है ..." के बारे में पूछने की अनुमति देता है (और संभवतः एक उत्तर मिलता है)। साथ ही, प्रतिक्रिया पर व्यक्तिगत कारकों का प्रभाव स्पष्ट हो जाता है, और शोधकर्ता अध्ययन के तहत घटना की प्रकृति को बेहतर ढंग से समझता है।
3). कुछ कारक मूल्यों के लिए भविष्य कहनेवाला प्रतिक्रिया मूल्यों की गणना, अर्थात प्रतिगमन विश्लेषण, "क्या होगा अगर ..." जैसे प्रश्नों के उत्तर प्राप्त करने के लिए एक कम्प्यूटेशनल प्रयोग के लिए आधार बनाता है।
4). प्रतिगमन विश्लेषण में, कारण तंत्र अधिक स्पष्ट रूप में प्रकट होता है। इस मामले में, पूर्वानुमान स्वयं को सार्थक व्याख्या के लिए बेहतर बनाता है।

कैननिकल विश्लेषण।कैनोनिकल विश्लेषण को वस्तुओं की विशेषता वाली सुविधाओं (स्वतंत्र चर) की दो सूचियों के बीच निर्भरता का विश्लेषण करने के लिए डिज़ाइन किया गया है। उदाहरण के लिए, आप विभिन्न प्रतिकूल कारकों और किसी बीमारी के लक्षणों के एक निश्चित समूह की उपस्थिति, या किसी रोगी के नैदानिक और प्रयोगशाला मापदंडों (सिंड्रोम) के दो समूहों के बीच संबंध का अध्ययन कर सकते हैं। कैननिकल विश्लेषण एक चर और कई अन्य चर के बीच संबंध के माप के रूप में बहु सहसंबंध का सामान्यीकरण है। जैसा कि आप जानते हैं, बहु सहसंबंध एक चर और के बीच अधिकतम सहसंबंध है रैखिक प्रकार्यअन्य चर। इस अवधारणा को चर के सेट के बीच संबंध के मामले में सामान्यीकृत किया गया है - ऐसी विशेषताएं जो वस्तुओं को चिह्नित करती हैं। हालांकि, यह विचार करने के लिए पर्याप्त नहीं है एक लंबी संख्याप्रत्येक सेट से सबसे सहसंबद्ध रैखिक संयोजन। मान लीजिए, उदाहरण के लिए, चर के पहले सेट में संकेत y1, ..., ur हैं, दूसरे सेट में - x1, ..., xq शामिल हैं, तो इन सेटों के बीच संबंध को रैखिक संयोजनों के बीच संबंध के रूप में अनुमानित किया जा सकता है a1y1 + a2y2 + ... + apyp, b1x1 + b2x2 + ... + bqxq, जिसे विहित सहसंबंध कहा जाता है। विहित विश्लेषण का कार्य भार गुणांकों को इस प्रकार ज्ञात करना है कि विहित सहसंबंध अधिकतम हो।

औसत की तुलना करने के तरीके।अनुप्रयुक्त अनुसंधान में, अक्सर ऐसे मामले होते हैं जब प्रयोगों की एक श्रृंखला की कुछ विशेषता का औसत परिणाम दूसरी श्रृंखला के औसत परिणाम से भिन्न होता है। चूंकि औसत माप के परिणाम हैं, इसलिए, एक नियम के रूप में, वे हमेशा भिन्न होते हैं, सवाल यह है कि क्या औसत के बीच देखी गई विसंगति को प्रयोग की अपरिहार्य यादृच्छिक त्रुटियों द्वारा समझाया जा सकता है, या यह कुछ कारणों से है। यदि हम दो साधनों की तुलना करने की बात कर रहे हैं, तो आप छात्र का परीक्षण (टी-टेस्ट) लागू कर सकते हैं। यह एक पैरामीट्रिक परीक्षण है, क्योंकि यह माना जाता है कि प्रयोगों की प्रत्येक श्रृंखला में विशेषता का सामान्य वितरण होता है। वर्तमान में, औसत की तुलना करने के लिए गैर-पैरामीट्रिक मानदंड का उपयोग करना फैशन बन गया है
औसत परिणामों की तुलना उन चर विशेषताओं के बीच निर्भरता की पहचान करने के तरीकों में से एक है जो वस्तुओं के अध्ययन किए गए सेट (टिप्पणियों) की विशेषता है। यदि, एक स्वतंत्र स्वतंत्र चर (भविष्यवक्ता) का उपयोग करके अध्ययन की वस्तुओं को उपसमूहों में विभाजित करते समय, उपसमूहों में कुछ आश्रित चर के साधनों की असमानता के बारे में परिकल्पना सत्य है, तो इसका मतलब है कि इस आश्रित चर के बीच एक स्टोकेस्टिक संबंध है और श्रेणीबद्ध भविष्यवक्ता। इसलिए, उदाहरण के लिए, यदि यह स्थापित किया जाता है कि गर्भावस्था के दौरान धूम्रपान करने वाली और धूम्रपान न करने वाली माताओं के समूहों में बच्चों के शारीरिक और बौद्धिक विकास के औसत संकेतकों की समानता के बारे में परिकल्पना गलत है, तो इसका मतलब है कि एक है गर्भावस्था के दौरान बच्चे की मां के धूम्रपान और उसके बौद्धिक और शारीरिक विकास के बीच संबंध।
साधनों की तुलना करने की सबसे सामान्य विधि प्रसरण का विश्लेषण है। एनोवा शब्दावली में, एक श्रेणीबद्ध भविष्यवक्ता को एक कारक कहा जाता है।
प्रसरण के विश्लेषण को एक पैरामीट्रिक, सांख्यिकीय पद्धति के रूप में परिभाषित किया जा सकता है जिसे एक प्रयोग के परिणाम पर विभिन्न कारकों के प्रभाव का आकलन करने के साथ-साथ प्रयोगों की बाद की योजना के लिए डिज़ाइन किया गया है। इसलिए, विचरण के विश्लेषण में, कारकों की एक या अधिक गुणात्मक विशेषताओं पर मात्रात्मक विशेषता की निर्भरता की जांच करना संभव है। यदि एक कारक पर विचार किया जाता है, तो प्रसरण के एक-तरफ़ा विश्लेषण का उपयोग किया जाता है, अन्यथा, प्रसरण के बहुभिन्नरूपी विश्लेषण का उपयोग किया जाता है।

आवृत्ति विश्लेषण।फ़्रीक्वेंसी टेबल, या जैसा कि उन्हें सिंगल-एंट्री टेबल भी कहा जाता है, श्रेणीबद्ध चर के विश्लेषण के लिए सबसे सरल तरीका है। मात्रात्मक चर का अध्ययन करने के लिए आवृत्ति तालिकाओं का भी सफलतापूर्वक उपयोग किया जा सकता है, हालांकि इससे परिणामों की व्याख्या करने में कठिनाई हो सकती है। इस प्रकार के सांख्यिकीय अध्ययन का उपयोग अक्सर खोजपूर्ण विश्लेषण प्रक्रियाओं में से एक के रूप में किया जाता है, यह देखने के लिए कि नमूने में टिप्पणियों के विभिन्न समूहों को कैसे वितरित किया जाता है, या किसी विशेषता का मान अंतराल पर न्यूनतम से अधिकतम मूल्य तक कैसे वितरित किया जाता है। एक नियम के रूप में, फ़्रीक्वेंसी टेबल को हिस्टोग्राम का उपयोग करके ग्राफ़िक रूप से चित्रित किया जाता है।

क्रॉसस्टैब्यूलेशन (युग्मन)- दो (या अधिक) आवृत्ति तालिकाओं के संयोजन की प्रक्रिया ताकि निर्मित तालिका में प्रत्येक सेल को मूल्यों के एकल संयोजन या सारणीबद्ध चर के स्तरों द्वारा दर्शाया जाए। क्रॉसस्टैब्यूलेशन विचार किए गए कारकों के विभिन्न स्तरों पर अवलोकनों की घटना की आवृत्तियों को जोड़ना संभव बनाता है। इन बारंबारताओं की जांच करके, सारणीबद्ध चरों के बीच संबंधों की पहचान करना और इस संबंध की संरचना का पता लगाना संभव है। विशिष्ट रूप से सारणीबद्ध अपेक्षाकृत कुछ मूल्यों के साथ श्रेणीबद्ध या स्केल चर होते हैं। यदि एक निरंतर चर को सारणीबद्ध किया जाना है (जैसे, रक्त शर्करा स्तर), तो इसे पहले परिवर्तन की सीमा को अंतरालों की एक छोटी संख्या (जैसे, स्तर: निम्न, मध्यम, उच्च) में विभाजित करके पुनः कोडित किया जाना चाहिए।

पत्राचार विश्लेषण।पत्राचार विश्लेषण, आवृत्ति विश्लेषण की तुलना में, दो-तरफ़ा और बहु-तरफ़ा तालिकाओं के विश्लेषण के लिए अधिक शक्तिशाली वर्णनात्मक और खोजपूर्ण तरीके शामिल हैं। विधि, आकस्मिक तालिकाओं की तरह, आपको तालिका में शामिल समूहीकरण चर की संरचना और संबंध का पता लगाने की अनुमति देती है। शास्त्रीय पत्राचार विश्लेषण में, आकस्मिक तालिका में आवृत्तियों को इस तरह से मानकीकृत (सामान्यीकृत) किया जाता है कि सभी कोशिकाओं में तत्वों का योग 1 के बराबर होता है।
पत्राचार विश्लेषण के लक्ष्यों में से एक निम्न आयामी स्थान में व्यक्तिगत पंक्तियों और/या तालिका के स्तंभों के बीच की दूरी के रूप में सापेक्ष आवृत्तियों की तालिका की सामग्री का प्रतिनिधित्व करना है।

क्लस्टर विश्लेषण।क्लस्टर विश्लेषण एक वर्गीकरण विश्लेषण पद्धति है; इसका मुख्य उद्देश्य अध्ययन के तहत वस्तुओं और सुविधाओं के समूह को समूहों या समूहों में विभाजित करना है जो एक निश्चित अर्थ में सजातीय हैं। यह एक बहुभिन्नरूपी सांख्यिकीय पद्धति है, इसलिए यह माना जाता है कि प्रारंभिक डेटा एक महत्वपूर्ण मात्रा का हो सकता है, अर्थात अध्ययन की वस्तुओं की संख्या (अवलोकन) और इन वस्तुओं की विशेषता दोनों ही काफी बड़ी हो सकती हैं। क्लस्टर विश्लेषण का महान लाभ यह है कि यह वस्तुओं को एक विशेषता से नहीं, बल्कि कई विशेषताओं द्वारा विभाजित करना संभव बनाता है। इसके अलावा, अधिकांश गणितीय और सांख्यिकीय तरीकों के विपरीत, क्लस्टर विश्लेषण, विचाराधीन वस्तुओं के प्रकार पर कोई प्रतिबंध नहीं लगाता है और आपको लगभग मनमाना प्रकृति के बहुत से प्रारंभिक डेटा का पता लगाने की अनुमति देता है। चूँकि क्लस्टर एकरूपता के समूह हैं, क्लस्टर विश्लेषण का कार्य उनके सेट को m (m - पूर्णांक) समूहों में वस्तुओं की विशेषताओं के आधार पर विभाजित करना है ताकि प्रत्येक वस्तु केवल एक विभाजन समूह से संबंधित हो। इसी समय, एक ही क्लस्टर से संबंधित वस्तुएं सजातीय (समान) होनी चाहिए, और विभिन्न समूहों से संबंधित वस्तुएं विषम होनी चाहिए। यदि क्लस्टरिंग ऑब्जेक्ट्स को एन-डायमेंशनल फ़ीचर स्पेस में पॉइंट्स के रूप में दर्शाया जाता है (एन ऑब्जेक्ट्स को चिह्नित करने वाली सुविधाओं की संख्या है), तो ऑब्जेक्ट्स के बीच समानता बिंदुओं के बीच की दूरी की अवधारणा के माध्यम से निर्धारित की जाती है, क्योंकि यह सहज रूप से स्पष्ट है कि छोटा वस्तुओं के बीच की दूरी जितनी अधिक समान होती है।

विभेदक विश्लेषण।भेदभावपूर्ण विश्लेषण में ऐसी स्थिति में बहुभिन्नरूपी टिप्पणियों को वर्गीकृत करने के लिए सांख्यिकीय तरीके शामिल हैं जहां शोधकर्ता के पास तथाकथित प्रशिक्षण नमूने हैं। इस प्रकार का विश्लेषण बहुआयामी है, क्योंकि यह वस्तु की कई विशेषताओं का उपयोग करता है, जिनकी संख्या मनमाने ढंग से बड़ी हो सकती है। विभेदक विश्लेषण का उद्देश्य विभिन्न विशेषताओं (विशेषताओं) के मापन के आधार पर किसी वस्तु को वर्गीकृत करना है, अर्थात, इसे कुछ इष्टतम तरीके से कई निर्दिष्ट समूहों (वर्गों) में से एक के लिए विशेषता देना है। यह माना जाता है कि प्रारंभिक डेटा, वस्तुओं की विशेषताओं के साथ, एक श्रेणीबद्ध (समूहीकरण) चर होता है जो यह निर्धारित करता है कि वस्तु किसी विशेष समूह से संबंधित है या नहीं। इसलिए, भेदभावपूर्ण विश्लेषण मूल अनुभवजन्य वर्गीकरण के साथ विधि द्वारा किए गए वर्गीकरण की स्थिरता की जांच करने के लिए प्रदान करता है। इष्टतम विधि को नुकसान की न्यूनतम गणितीय अपेक्षा या गलत वर्गीकरण की संभावना के न्यूनतम के रूप में समझा जाता है। सामान्य स्थिति में, भेदभाव (भेदभाव) की समस्या निम्नानुसार तैयार की जाती है। किसी वस्तु पर अवलोकन का परिणाम एक के-आयामी यादृच्छिक वेक्टर Х = (X1, X2, …, XК) का निर्माण हो, जहां X1, X2, …, XК वस्तु की विशेषताएं हैं। एक नियम स्थापित करना आवश्यक है जिसके अनुसार, वेक्टर एक्स के निर्देशांक के मूल्यों के अनुसार, वस्तु को संभावित सेटों में से एक i, i = 1, 2, ..., n को सौंपा गया है। भेदभाव के तरीकों को सशर्त रूप से पैरामीट्रिक और गैर पैरामीट्रिक में विभाजित किया जा सकता है। पैरामीट्रिक में यह ज्ञात है कि प्रत्येक जनसंख्या में फ़ीचर वैक्टर का वितरण सामान्य है, लेकिन इन वितरणों के मापदंडों के बारे में कोई जानकारी नहीं है। गैर पैरामीट्रिक भेदभाव विधियों को सटीक ज्ञान की आवश्यकता नहीं होती है कार्यात्मक रूपवितरण और आबादी के बारे में महत्वहीन प्राथमिक जानकारी के आधार पर भेदभाव की समस्याओं को हल करना संभव बनाता है, जो व्यावहारिक अनुप्रयोगों के लिए विशेष रूप से मूल्यवान है। यदि विभेदक विश्लेषण की प्रयोज्यता के लिए शर्तें पूरी होती हैं - स्वतंत्र चर-विशेषताएँ (उन्हें भविष्यवक्ता भी कहा जाता है) को कम से कम एक अंतराल पैमाने पर मापा जाना चाहिए, उनका वितरण सामान्य कानून के अनुरूप होना चाहिए, शास्त्रीय विभेदक विश्लेषण का उपयोग करना आवश्यक है , अन्यथा - विवेकशील विश्लेषण के सामान्य मॉडल की विधि।

कारक विश्लेषण।कारक विश्लेषण सबसे लोकप्रिय बहुभिन्नरूपी सांख्यिकीय विधियों में से एक है। यदि क्लस्टर और भेदभावपूर्ण तरीके टिप्पणियों को वर्गीकृत करते हैं, उन्हें समरूपता समूहों में विभाजित करते हैं, तो कारक विश्लेषण उन विशेषताओं (चर) को वर्गीकृत करता है जो टिप्पणियों का वर्णन करते हैं। इसलिए, कारक विश्लेषण का मुख्य लक्ष्य चर के वर्गीकरण के आधार पर चर की संख्या को कम करना और उनके बीच संबंधों की संरचना का निर्धारण करना है। कमी को छिपे हुए (अव्यक्त) सामान्य कारकों को उजागर करके प्राप्त किया जाता है जो वस्तु की देखी गई विशेषताओं के बीच संबंध की व्याख्या करता है, अर्थात। चरों के प्रारंभिक सेट के बजाय, चयनित कारकों पर डेटा का विश्लेषण करना संभव होगा, जिनमें से संख्या परस्पर संबंधित चरों की प्रारंभिक संख्या से बहुत कम है।

वर्गीकरण के पेड़।वर्गीकरण पेड़ एक वर्गीकरण विश्लेषण विधि है जो आपको वस्तुओं की विशेषताओं के अनुरूप मूल्यों के आधार पर किसी विशेष वर्ग से संबंधित वस्तुओं की भविष्यवाणी करने की अनुमति देता है। विशेषताओं को स्वतंत्र चर कहा जाता है, और एक चर यह दर्शाता है कि क्या वस्तुएं कक्षाओं से संबंधित हैं, आश्रित कहलाती हैं। शास्त्रीय विभेदक विश्लेषण के विपरीत, वर्गीकरण के पेड़ विभिन्न प्रकार के चरों पर एक आयामी शाखाओं में बँटने में सक्षम हैं - श्रेणीबद्ध, क्रमसूचक, अंतराल। मात्रात्मक चर के वितरण के कानून पर कोई प्रतिबंध नहीं लगाया गया है। विभेदक विश्लेषण के अनुरूप, विधि वर्गीकरण प्रक्रिया में व्यक्तिगत चर के योगदान का विश्लेषण करना संभव बनाती है। वर्गीकरण के पेड़ हो सकते हैं, और कभी-कभी बहुत जटिल होते हैं। हालांकि, विशेष चित्रमय प्रक्रियाओं का उपयोग बहुत जटिल पेड़ों के लिए भी परिणामों की व्याख्या को सरल बनाना संभव बनाता है। परिणामों की चित्रमय प्रस्तुति की संभावना और व्याख्या में आसानी मोटे तौर पर लागू क्षेत्रों में वर्गीकरण पेड़ों की महान लोकप्रियता की व्याख्या करती है, हालांकि, वर्गीकरण पेड़ों के सबसे महत्वपूर्ण विशिष्ट गुण उनकी पदानुक्रम और व्यापक प्रयोज्यता हैं। विधि की संरचना ऐसी है कि उपयोगकर्ता के पास न्यूनतम वर्गीकरण त्रुटियों को प्राप्त करने, नियंत्रित मापदंडों का उपयोग करके मनमाना जटिलता के पेड़ बनाने की क्षमता है। लेकिन एक जटिल पेड़ के अनुसार, बड़े निर्णय नियमों के कारण, नई वस्तुओं को वर्गीकृत करना मुश्किल है। इसलिए, एक वर्गीकरण वृक्ष का निर्माण करते समय, उपयोगकर्ता को वृक्ष की जटिलता और वर्गीकरण प्रक्रिया की जटिलता के बीच एक उचित समझौता करना चाहिए। वर्गीकरण पेड़ों की व्यापक प्रयोज्यता उन्हें डेटा विश्लेषण के लिए एक बहुत ही आकर्षक उपकरण बनाती है, लेकिन यह नहीं माना जाना चाहिए कि वर्गीकरण विश्लेषण के पारंपरिक तरीकों के बजाय इसका उपयोग करने की सिफारिश की जाती है। इसके विपरीत, यदि पारंपरिक तरीकों द्वारा लगाए गए अधिक कठोर सैद्धांतिक धारणाएं संतुष्ट हैं, और नमूनाकरण वितरण में कुछ है विशेष गुण(उदाहरण के लिए, सामान्य कानून के चर के वितरण का पत्राचार), तो पारंपरिक तरीकों का उपयोग अधिक प्रभावी होगा। हालाँकि, खोजपूर्ण विश्लेषण की एक विधि के रूप में या अंतिम उपाय के रूप में जब सभी पारंपरिक तरीके विफल हो जाते हैं, तो कई शोधकर्ताओं के अनुसार वर्गीकरण ट्री बेजोड़ हैं।

प्रधान घटक विश्लेषण और वर्गीकरण।व्यवहार में, उच्च-आयामी डेटा के विश्लेषण की समस्या अक्सर उत्पन्न होती है। प्रमुख घटक विश्लेषण और वर्गीकरण की विधि इस समस्या को हल करने की अनुमति देती है और दो लक्ष्यों को प्राप्त करने में मदद करती है:
- "मुख्य" और "गैर-सहसंबंधित" चर प्राप्त करने के लिए चर (डेटा में कमी) की कुल संख्या में कमी;
- निर्माण के तहत कारक स्थान की मदद से चर और टिप्पणियों का वर्गीकरण।
विधि हल किए जा रहे कार्यों के निर्माण में कारक विश्लेषण के समान है, लेकिन इसमें कई महत्वपूर्ण अंतर हैं:
- प्रमुख घटकों के विश्लेषण में, कारकों को निकालने के लिए पुनरावृत्ति विधियों का उपयोग नहीं किया जाता है;
- प्रमुख घटकों को निकालने के लिए उपयोग किए जाने वाले सक्रिय चर और टिप्पणियों के साथ, सहायक चर और/या अवलोकन निर्दिष्ट किए जा सकते हैं; तब सहायक चर और प्रेक्षणों को सक्रिय चरों और प्रेक्षणों से संगणित कारक स्थान पर प्रक्षेपित किया जाता है;
- सूचीबद्ध संभावनाएं विधि को चर और अवलोकन दोनों को वर्गीकृत करने के लिए एक शक्तिशाली उपकरण के रूप में उपयोग करने की अनुमति देती हैं।
विधि की मुख्य समस्या का समाधान मूल से कम आयाम वाले अव्यक्त (छिपे हुए) चर (कारकों) का एक सदिश स्थान बनाकर प्राप्त किया जाता है। प्रारंभिक आयाम स्रोत डेटा में विश्लेषण के लिए चरों की संख्या द्वारा निर्धारित किया जाता है।

बहुआयामी स्केलिंग। विधि को कारक विश्लेषण के विकल्प के रूप में देखा जा सकता है, जो अव्यक्त (प्रत्यक्ष रूप से नहीं देखे गए) कारकों को उजागर करके चर की संख्या में कमी को प्राप्त करता है जो देखे गए चर के बीच संबंधों की व्याख्या करता है। बहुआयामी स्केलिंग का उद्देश्य अव्यक्त चरों को खोजना और उनकी व्याख्या करना है जो उपयोगकर्ता को मूल सुविधा स्थान में दिए गए बिंदुओं के बीच समानता की व्याख्या करने में सक्षम बनाता है। व्यवहार में, वस्तुओं की समानता के संकेतक उनके बीच की दूरी या संबंध की डिग्री हो सकते हैं। कारक विश्लेषण में, चर के बीच समानता को सहसंबंध गुणांक के मैट्रिक्स का उपयोग करके व्यक्त किया जाता है। बहुआयामी स्केलिंग में, एक मनमाने प्रकार की वस्तु समानता मैट्रिक्स का उपयोग इनपुट डेटा के रूप में किया जा सकता है: दूरी, सहसंबंध, आदि। इस तथ्य के बावजूद कि अध्ययन के तहत मुद्दों की प्रकृति में कई समानताएं हैं, बहुभिन्नरूपी स्केलिंग और कारक विश्लेषण के तरीकों में कई महत्वपूर्ण अंतर हैं। इस प्रकार, कारक विश्लेषण के लिए आवश्यक है कि अध्ययन के तहत डेटा एक बहुभिन्नरूपी सामान्य वितरण का पालन करे, और निर्भरताएँ रैखिक हों। बहुआयामी स्केलिंग इस तरह के प्रतिबंध नहीं लगाती है, इसे लागू किया जा सकता है यदि वस्तुओं की जोड़ीदार समानता का मैट्रिक्स दिया जाता है। परिणामों में अंतर के संदर्भ में, कारक विश्लेषण बहुभिन्नरूपी स्केलिंग की तुलना में अधिक अव्यक्त चर निकालने का प्रयास करता है। इसलिए, बहुआयामी स्केलिंग अक्सर आसान-से-व्याख्या समाधान की ओर ले जाती है। अधिक महत्वपूर्ण बात यह है कि, हालांकि, बहुभिन्नरूपी स्केलिंग को किसी भी प्रकार की दूरी या समानता पर लागू किया जा सकता है, जबकि कारक विश्लेषण के लिए पहले इनपुट डेटा फ़ाइल से गणना करने के लिए इनपुट या सहसंबंध मैट्रिक्स के रूप में उपयोग किए जाने वाले चर के सहसंबंध मैट्रिक्स की आवश्यकता होती है। बहुआयामी स्केलिंग की मुख्य धारणा यह है कि आवश्यक बुनियादी विशेषताओं का कुछ मीट्रिक स्थान है, जो वस्तुओं के जोड़े के बीच निकटता पर प्राप्त अनुभवजन्य डेटा के आधार के रूप में निहित है। इसलिए, इस स्थान में वस्तुओं को बिंदुओं के रूप में दर्शाया जा सकता है। यह भी माना जाता है कि करीब (प्रारंभिक मैट्रिक्स के अनुसार) वस्तुएं बुनियादी विशेषताओं के स्थान में छोटी दूरी के अनुरूप होती हैं। इसलिए, बहुआयामी स्केलिंग वस्तुओं की निकटता पर अनुभवजन्य डेटा का विश्लेषण करने के तरीकों का एक सेट है, जिसकी मदद से मापी गई वस्तुओं की विशेषताओं के स्थान का आयाम निर्धारित किया जाता है जो किसी दिए गए सार्थक कार्य के लिए आवश्यक होता है और का विन्यास इस स्थान में बिंदुओं (वस्तुओं) का निर्माण होता है। यह स्थान ("बहुआयामी पैमाना") इस अर्थ में आमतौर पर उपयोग किए जाने वाले पैमानों के समान है कि मापी गई वस्तुओं की आवश्यक विशेषताओं के मान अंतरिक्ष के अक्षों पर कुछ पदों के अनुरूप होते हैं। बहुआयामी स्केलिंग के तर्क को निम्नलिखित सरल उदाहरण से स्पष्ट किया जा सकता है। मान लें कि कुछ शहरों के बीच जोड़ीवार दूरियों (अर्थात् कुछ विशेषताओं की समानता) का एक मैट्रिक्स है। मैट्रिक्स का विश्लेषण करते हुए, दो-आयामी अंतरिक्ष (एक विमान पर) में शहरों के निर्देशांक के साथ बिंदुओं को रखना आवश्यक है, जितना संभव हो उतना उनके बीच की वास्तविक दूरी को संरक्षित करना। समतल पर बिंदुओं के परिणामी प्लेसमेंट को बाद में अनुमानित रूप में उपयोग किया जा सकता है भौगोलिक नक्शा. सामान्य स्थिति में, बहुआयामी स्केलिंग वस्तुओं (हमारे उदाहरण में शहरों) को कुछ छोटे आयाम (इस मामले में यह दो के बराबर है) के स्थान पर स्थित होने की अनुमति देता है ताकि उनके बीच देखी गई दूरियों को पर्याप्त रूप से पुन: उत्पन्न किया जा सके। नतीजतन, इन दूरियों को पाए गए अव्यक्त चर के संदर्भ में मापा जा सकता है। इसलिए, हमारे उदाहरण में, हम भौगोलिक निर्देशांक उत्तर/दक्षिण और पूर्व/पश्चिम की एक जोड़ी के संदर्भ में दूरियों की व्याख्या कर सकते हैं।

संरचनात्मक समीकरणों द्वारा मॉडलिंग (कारण मॉडलिंग)।बहुभिन्नरूपी सांख्यिकीय विश्लेषण और सहसंबंध संरचनाओं के विश्लेषण के क्षेत्र में हालिया प्रगति, नवीनतम कम्प्यूटेशनल एल्गोरिदम के साथ मिलकर, एक नए, लेकिन संरचनात्मक समीकरण मॉडलिंग (SEPATH) की पहले से ही मान्यता प्राप्त तकनीक के निर्माण के लिए शुरुआती बिंदु के रूप में कार्य करती है। बहुभिन्नरूपी विश्लेषण की इस असाधारण शक्तिशाली तकनीक में आँकड़ों के विभिन्न क्षेत्रों से विधियाँ शामिल हैं, बहु प्रतिगमन और कारक विश्लेषण यहाँ स्वाभाविक रूप से विकसित और संयोजित किए गए हैं।
मॉडलिंग संरचनात्मक समीकरणों का उद्देश्य जटिल प्रणालियां हैं, जिनमें से आंतरिक संरचना ज्ञात नहीं है ("ब्लैक बॉक्स")। SEPATH का उपयोग करके सिस्टम पैरामीटर का अवलोकन करके, आप इसकी संरचना का पता लगा सकते हैं, सिस्टम तत्वों के बीच कारण और प्रभाव संबंध स्थापित कर सकते हैं।
संरचनात्मक मॉडलिंग की समस्या का विवरण इस प्रकार है। ऐसे चर होने दें जिनके लिए सांख्यिकीय क्षण ज्ञात हों, उदाहरण के लिए, नमूना सहसंबंध या सहप्रसरण गुणांक का एक मैट्रिक्स। ऐसे चरों को स्पष्ट कहा जाता है। वे एक जटिल प्रणाली के लक्षण हो सकते हैं। देखे गए स्पष्ट चर के बीच वास्तविक संबंध काफी जटिल हो सकते हैं, लेकिन हम मानते हैं कि कई छिपे हुए चर हैं जो इन संबंधों की संरचना को एक निश्चित डिग्री सटीकता के साथ समझाते हैं। इस प्रकार, अव्यक्त चरों की सहायता से, स्पष्ट और अंतर्निहित चरों के बीच संबंधों का एक मॉडल बनाया जाता है। कुछ कार्यों में, अव्यक्त चर को कारण माना जा सकता है, और स्पष्ट को परिणाम के रूप में माना जा सकता है, इसलिए ऐसे मॉडल को कारण कहा जाता है। यह माना जाता है कि छिपे हुए चर बदले में एक दूसरे से संबंधित हो सकते हैं। कनेक्शन की संरचना काफी जटिल मानी जाती है, लेकिन इसका प्रकार पोस्ट किया गया है - ये रैखिक समीकरणों द्वारा वर्णित कनेक्शन हैं। रैखिक मॉडल के कुछ पैरामीटर ज्ञात हैं, कुछ नहीं हैं, और मुक्त पैरामीटर हैं।
संरचनात्मक समीकरण मॉडलिंग का मुख्य विचार यह है कि आप जांच कर सकते हैं कि चर Y और X एक रैखिक संबंध Y = aX से संबंधित हैं या नहीं, उनके प्रसरण और सहप्रसरण का विश्लेषण करके। यह विचार माध्य और विचरण की एक साधारण संपत्ति पर आधारित है: यदि आप प्रत्येक संख्या को कुछ स्थिर k से गुणा करते हैं, तो माध्य को भी k से गुणा किया जाता है, मानक विचलन को k के मापांक से गुणा किया जाता है। उदाहरण के लिए, तीन संख्याओं 1, 2, 3 के एक सेट पर विचार करें। इन संख्याओं का माध्य 2 के बराबर है और मानक विचलन 1 के बराबर है। यदि आप तीनों संख्याओं को 4 से गुणा करते हैं, तो यह गणना करना आसान है कि माध्य होगा 8 के बराबर हो, मानक विचलन 4 है, और भिन्नता 16 है। इस प्रकार, यदि Y = 4X से संबंधित संख्या X और Y के सेट हैं, तो Y का भिन्नता X के भिन्नता से 16 गुना अधिक होना चाहिए। इसलिए, हम परिकल्पना का परीक्षण कर सकते हैं कि Y और X संबंधित समीकरण Y = 4X हैं, चर Y और X के प्रसरण की तुलना करते हुए। यह विचार हो सकता है विभिन्न तरीकेरैखिक समीकरणों की एक प्रणाली द्वारा जुड़े कई चरों के लिए सामान्यीकृत। इसी समय, परिवर्तन नियम अधिक बोझिल हो जाते हैं, गणना अधिक जटिल हो जाती है, लेकिन मुख्य विचार वही रहता है - आप जांच कर सकते हैं कि चर उनके भिन्नताओं और सहप्रसरणों का अध्ययन करके रैखिक रूप से संबंधित हैं या नहीं।

उत्तरजीविता विश्लेषण के तरीके।उत्तरजीविता विश्लेषण विधियों को मूल रूप से चिकित्सा, जैविक और बीमा अनुसंधान में विकसित किया गया था, लेकिन फिर सामाजिक और आर्थिक विज्ञानों के साथ-साथ उद्योग में व्यापक रूप से उपयोग किया जाने लगा। इंजीनियरिंग कार्य (विश्वसनीयता और विफलता के समय का विश्लेषण)। कल्पना कीजिए कि एक नए उपचार या दवा का अध्ययन किया जा रहा है। जाहिर है, सबसे महत्वपूर्ण और वस्तुनिष्ठ विशेषता क्लिनिक में प्रवेश के क्षण से रोगियों की औसत जीवन प्रत्याशा या रोग की छूट की औसत अवधि है। औसत उत्तरजीविता समय या छूट का वर्णन करने के लिए मानक पैरामीट्रिक और गैर-पैरामीट्रिक विधियों का उपयोग किया जा सकता है। हालांकि, विश्लेषण किए गए डेटा में एक महत्वपूर्ण विशेषता है - ऐसे रोगी हो सकते हैं जो संपूर्ण अवलोकन अवधि के दौरान जीवित रहे, और उनमें से कुछ में रोग अभी भी दूर है। ऐसे रोगियों का एक समूह भी हो सकता है जिनके साथ प्रयोग पूरा होने से पहले संपर्क टूट गया था (उदाहरण के लिए, उन्हें अन्य क्लीनिकों में स्थानांतरित कर दिया गया था)। माध्य का अनुमान लगाने के लिए मानक तरीकों का उपयोग करते हुए, रोगियों के इस समूह को बाहर करना होगा, जिससे महत्वपूर्ण जानकारी खो जाएगी जो कठिनाई से एकत्र की गई थी। इसके अलावा, इन रोगियों में से अधिकांश बचे हुए हैं (ठीक हो गए) जब वे देखे गए थे, जो उपचार (दवा) की एक नई पद्धति के पक्ष में इंगित करता है। इस तरह की जानकारी, जब हमारे लिए ब्याज की घटना के घटित होने पर कोई डेटा नहीं होता है, अधूरी कहलाती है। यदि हमारे लिए रुचि की घटना के घटित होने के बारे में डेटा है, तो जानकारी को पूर्ण कहा जाता है। वे अवलोकन जिनमें अधूरी जानकारी होती है, सेंसर किए गए अवलोकन कहलाते हैं। सेंसर किए गए अवलोकन विशिष्ट होते हैं जब मनाया गया मान उस समय का प्रतिनिधित्व करता है जब तक कि कुछ महत्वपूर्ण घटना नहीं होती है, और अवलोकन की अवधि समय में सीमित होती है। सेंसर किए गए अवलोकनों का उपयोग विचाराधीन विधि की विशिष्टता है - उत्तरजीविता विश्लेषण। इस पद्धति में, महत्वपूर्ण घटनाओं की क्रमिक घटनाओं के बीच समय अंतराल की संभाव्य विशेषताओं की जांच की जाती है। इस तरह के शोध को समाप्ति के क्षण तक की अवधि का विश्लेषण कहा जाता है, जिसे वस्तु के अवलोकन की शुरुआत और समाप्ति के क्षण के बीच के समय अंतराल के रूप में परिभाषित किया जा सकता है, जिस पर वस्तु अवलोकन के लिए निर्दिष्ट गुणों को पूरा करना बंद कर देती है। अनुसंधान का उद्देश्य समाप्ति के क्षण तक अवधियों से जुड़ी सशर्त संभावनाओं को निर्धारित करना है। सेंसर किए गए डेटा का अध्ययन करने के लिए आजीवन तालिकाओं का निर्माण, उत्तरजीविता वितरण की फिटिंग, कापलान-मीयर प्रक्रिया का उपयोग करके उत्तरजीविता कार्य का अनुमान वर्णनात्मक तरीके हैं। प्रस्तावित विधियों में से कुछ दो या दो से अधिक समूहों में उत्तरजीविता की तुलना करने की अनुमति देती हैं। अंत में, उत्तरजीविता विश्लेषण में जीवनकाल के समान मूल्यों के साथ बहुभिन्नरूपी निरंतर चर के बीच संबंधों के मूल्यांकन के लिए प्रतिगमन मॉडल शामिल हैं।
विवेकशील विश्लेषण के सामान्य मॉडल। यदि विवेचक विश्लेषण (डीए) की प्रयोज्यता की शर्तें पूरी नहीं होती हैं - स्वतंत्र चर (भविष्यवक्ता) को कम से कम एक अंतराल पैमाने पर मापा जाना चाहिए, उनका वितरण सामान्य कानून के अनुरूप होना चाहिए, सामान्य मॉडल की विधि का उपयोग करना आवश्यक है भेदभावपूर्ण विश्लेषण (जीडीए)। विधि का नाम इसलिए रखा गया है क्योंकि यह विवेचक कार्यों का विश्लेषण करने के लिए सामान्य रैखिक मॉडल (जीएलएम) का उपयोग करता है। इस मॉड्यूल में, डिस्क्रिमिनेंट फ़ंक्शन विश्लेषण को एक सामान्य बहुभिन्नरूपी रैखिक मॉडल के रूप में माना जाता है जिसमें श्रेणीबद्ध आश्रित चर (प्रतिक्रिया) को वैक्टर द्वारा दर्शाया जाता है, जिसमें प्रत्येक अवलोकन के लिए अलग-अलग समूहों को दर्शाते हुए कोड होते हैं। क्लासिकल डिस्क्रिमिनेंट एनालिसिस की तुलना में ODA पद्धति के कई महत्वपूर्ण लाभ हैं। उदाहरण के लिए, उपयोग किए गए भविष्यवक्ता के प्रकार (श्रेणीबद्ध या निरंतर) या परिभाषित किए जा रहे मॉडल के प्रकार पर कोई प्रतिबंध नहीं है, भविष्यवक्ताओं का चरणबद्ध चयन और भविष्यवक्ताओं के सर्वोत्तम उपसमूह का चयन संभव है, यदि कोई क्रॉस-सत्यापन नमूना है डेटा फ़ाइल में, भविष्यवक्ताओं के सर्वश्रेष्ठ सबसेट का चयन क्रॉस-वैलिडेशन सैंपलिंग आदि के लिए शेयरों के गलत वर्गीकरण पर आधारित हो सकता है।

समय श्रृंखला।समय श्रृंखला गणितीय आँकड़ों का सबसे गहन विकासशील, आशाजनक क्षेत्र है। एक समय (गतिशील) श्रृंखला एक निश्चित विशेषता X (यादृच्छिक चर) की टिप्पणियों का एक अनुक्रम है जो क्रमिक समतुल्य क्षणों t पर है। व्यक्तिगत अवलोकनों को श्रृंखला के स्तर कहा जाता है और xt, t = 1, ..., n द्वारा निरूपित किया जाता है। समय श्रृंखला का अध्ययन करते समय, कई घटक प्रतिष्ठित होते हैं:
एक्स टी \u003d यू टी + वाई टी + सी टी + ई टी, टी \u003d 1, ..., एन,
जहां यू टी एक प्रवृत्ति है, एक सुचारू रूप से बदलते घटक जो दीर्घकालिक कारकों (जनसंख्या में गिरावट, आय में गिरावट, आदि) के शुद्ध प्रभाव का वर्णन करता है; - मौसमी घटक, बहुत लंबी अवधि (दिन, सप्ताह, महीना, आदि) में प्रक्रियाओं की आवृत्ति को दर्शाता है; сt एक चक्रीय घटक है जो एक वर्ष में लंबी अवधि में प्रक्रियाओं की आवृत्ति को दर्शाता है; टी एक यादृच्छिक घटक है जो यादृच्छिक कारकों के प्रभाव को दर्शाता है जिसका हिसाब और पंजीकरण नहीं किया जा सकता है। पहले तीन घटक नियतात्मक घटक हैं। बड़ी संख्या में बाहरी कारकों के सुपरपोजिशन के परिणामस्वरूप यादृच्छिक घटक बनता है, प्रत्येक व्यक्तिगत रूप से विशेषता एक्स के मूल्यों में परिवर्तन पर एक महत्वहीन प्रभाव पड़ता है। समय श्रृंखला का विश्लेषण और अध्ययन हमें मॉडल बनाने की अनुमति देता है भविष्य के लिए विशेषता X के मूल्यों की भविष्यवाणी करने के लिए, यदि अतीत में टिप्पणियों का क्रम ज्ञात हो।

तंत्रिका - तंत्र।तंत्रिका नेटवर्क एक कंप्यूटिंग प्रणाली है, जिसकी वास्तुकला न्यूरॉन्स से तंत्रिका ऊतक के निर्माण के अनुरूप है। सबसे निचली परत के न्यूरॉन्स को इनपुट मापदंडों के मूल्यों के साथ आपूर्ति की जाती है, जिसके आधार पर कुछ निर्णय किए जाने चाहिए। उदाहरण के लिए, रोगी के नैदानिक और प्रयोगशाला मापदंडों के मूल्यों के अनुसार, रोग की गंभीरता के अनुसार उसे एक या दूसरे समूह में शामिल करना आवश्यक है। इन मूल्यों को नेटवर्क द्वारा सिग्नल के रूप में माना जाता है जो आंतरिक स्तर पर कनेक्शन को सौंपे गए संख्यात्मक मूल्यों (वजन) के आधार पर अगली परत पर प्रसारित होते हैं, कमजोर या मजबूत होते हैं। नतीजतन, ऊपरी परत के न्यूरॉन के आउटपुट पर एक निश्चित मूल्य उत्पन्न होता है, जिसे एक प्रतिक्रिया के रूप में माना जाता है - पूरे नेटवर्क की इनपुट मापदंडों की प्रतिक्रिया। नेटवर्क को काम करने के लिए, इसे डेटा पर "प्रशिक्षित" (प्रशिक्षित) होना चाहिए, जिसके लिए इनपुट मापदंडों के मान और उनके लिए सही प्रतिक्रिया ज्ञात हो। सीखने में आंतरिक कनेक्शन के भार का चयन करना शामिल है जो ज्ञात सही उत्तरों के निकटतम प्रतिक्रिया प्रदान करता है। अवलोकनों को वर्गीकृत करने के लिए तंत्रिका नेटवर्क का उपयोग किया जा सकता है।

प्रयोग योजना।इन विधियों की संभावनाओं का पूरी तरह से दोहन करने के लिए एक निश्चित क्रम में टिप्पणियों को व्यवस्थित करने या विशेष रूप से नियोजित जांच करने की कला "प्रायोगिक डिजाइन" विषय की सामग्री है। वर्तमान में, प्रयोगात्मक विधियों का व्यापक रूप से विज्ञान और व्यावहारिक गतिविधि के विभिन्न क्षेत्रों में उपयोग किया जाता है। आमतौर पर, वैज्ञानिक अनुसंधान का मुख्य लक्ष्य अध्ययन के तहत आश्रित चर पर किसी विशेष कारक के प्रभाव के सांख्यिकीय महत्व को दर्शाना होता है। एक नियम के रूप में, प्रयोगों की योजना बनाने का मुख्य लक्ष्य कम से कम महंगे अवलोकनों का उपयोग करके शोधकर्ता को रुचि के संकेतक (आश्रित चर) पर अध्ययन के तहत कारकों के प्रभाव के बारे में अधिक से अधिक वस्तुनिष्ठ जानकारी निकालना है। दुर्भाग्य से, व्यवहार में, ज्यादातर मामलों में, अनुसंधान योजना पर अपर्याप्त ध्यान दिया जाता है। वे डेटा एकत्र करते हैं (जितना वे एकत्र कर सकते हैं), और फिर वे सांख्यिकीय प्रसंस्करण और विश्लेषण करते हैं। लेकिन ठीक से किया गया सांख्यिकीय विश्लेषण अकेले वैज्ञानिक वैधता प्राप्त करने के लिए पर्याप्त नहीं है, क्योंकि डेटा विश्लेषण से प्राप्त किसी भी जानकारी की गुणवत्ता डेटा की गुणवत्ता पर ही निर्भर करती है। इसलिए, प्रयोगों का डिज़ाइन सब कुछ पाता है अधिक से अधिक आवेदनअनुप्रयुक्त अनुसंधान में। प्रायोगिक नियोजन विधियों का उद्देश्य अध्ययन के तहत प्रक्रिया पर कुछ कारकों के प्रभाव का अध्ययन करना और खोज करना है इष्टतम स्तरकारक जो इस प्रक्रिया के प्रवाह के आवश्यक स्तर को निर्धारित करते हैं।

गुणवत्ता नियंत्रण कार्ड।आधुनिक दुनिया की स्थितियों में, न केवल निर्मित उत्पादों की गुणवत्ता की समस्या, बल्कि जनसंख्या को प्रदान की जाने वाली सेवाएं भी अत्यंत प्रासंगिक हैं। किसी भी फर्म, संगठन या संस्था की भलाई काफी हद तक इस महत्वपूर्ण समस्या के सफल समाधान पर निर्भर करती है। उत्पादों और सेवाओं की गुणवत्ता वैज्ञानिक अनुसंधान, डिजाइन और तकनीकी विकास की प्रक्रिया में बनती है और उत्पादन और सेवाओं के एक अच्छे संगठन द्वारा सुनिश्चित की जाती है। लेकिन उत्पादों का निर्माण और सेवाओं का प्रावधान, उनके प्रकार की परवाह किए बिना, हमेशा उत्पादन और प्रावधान की स्थितियों में एक निश्चित परिवर्तनशीलता से जुड़ा होता है। इससे उनकी गुणवत्ता की विशेषताओं में कुछ परिवर्तनशीलता होती है। इसलिए, गुणवत्ता नियंत्रण के तरीकों को विकसित करने के मुद्दे प्रासंगिक हैं जो तकनीकी प्रक्रिया के उल्लंघन या सेवाओं के प्रावधान के संकेतों का समय पर पता लगाने की अनुमति देंगे। हालांकि, प्राप्त करने और बनाए रखने के लिए उच्च स्तरगुणवत्ता जो उपभोक्ता को संतुष्ट करती है, ऐसे तरीकों की आवश्यकता होती है जिनका उद्देश्य तैयार उत्पादों में दोषों और सेवाओं में विसंगतियों को दूर करना नहीं है, बल्कि उनकी घटना के कारणों को रोकना और भविष्यवाणी करना है। एक नियंत्रण चार्ट एक उपकरण है जो आपको एक प्रक्रिया की प्रगति को ट्रैक करने और इसे प्रभावित करने की अनुमति देता है (उपयुक्त प्रतिक्रिया का उपयोग करके), इसे प्रक्रिया के लिए आवश्यकताओं से विचलित होने से रोकता है। गुणवत्ता नियंत्रण चार्ट उपकरण संभाव्यता सिद्धांत और गणितीय आंकड़ों के आधार पर सांख्यिकीय विधियों का व्यापक उपयोग करता है। विश्लेषण किए गए उत्पादों की सीमित मात्रा के साथ, सांख्यिकीय विधियों का उपयोग, सटीकता और विश्वसनीयता की एक निश्चित डिग्री के साथ उत्पादों की गुणवत्ता की स्थिति का न्याय करना संभव बनाता है। गुणवत्ता की समस्याओं का पूर्वानुमान, इष्टतम प्रबंधन, सही की स्वीकृति प्रदान करता है प्रबंधन निर्णयअंतर्ज्ञान के आधार पर नहीं, बल्कि संख्यात्मक जानकारी के संचित सरणियों में वैज्ञानिक अध्ययन और पैटर्न की पहचान की मदद से। />/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>