सांख्यिकीय डेटा विश्लेषण विधियों की समीक्षा। सांख्यिकीय पद्धतियां

कई मामलों में लोगों की गतिविधियों में डेटा के साथ काम करना शामिल होता है, और बदले में, इसका मतलब न केवल उनके साथ काम करना, बल्कि उनका अध्ययन, प्रसंस्करण और विश्लेषण करना भी हो सकता है। उदाहरण के लिए, जब आपको जानकारी को संक्षिप्त करने, कुछ संबंध ढूंढने या संरचनाओं को परिभाषित करने की आवश्यकता होती है। और इस मामले में विश्लेषण के लिए न केवल इसका उपयोग करना, बल्कि सांख्यिकीय तरीकों को लागू करना भी बहुत सुविधाजनक है।

सांख्यिकीय पैटर्न के विभिन्न रूपों के साथ-साथ सांख्यिकीय अनुसंधान की प्रक्रिया की जटिलता के कारण सांख्यिकीय विश्लेषण विधियों की एक विशेषता उनकी जटिलता है। हालाँकि, हम उन तरीकों के बारे में बात करना चाहते हैं जिनका उपयोग हर कोई कर सकता है, और इसे प्रभावी ढंग से और आनंद के साथ कर सकता है।

सांख्यिकीय अनुसंधान निम्नलिखित विधियों का उपयोग करके किया जा सकता है:

  • सांख्यिकीय अवलोकन;
  • सांख्यिकीय अवलोकन सामग्री का सारांश और समूहन;
  • निरपेक्ष और सापेक्ष सांख्यिकीय मान;
  • विविधता श्रृंखला;
  • नमूना;
  • सहसंबंध और प्रतिगमन विश्लेषण;
  • गतिशील शृंखला.

सांख्यिकीय अवलोकन

सांख्यिकीय अवलोकन एक योजनाबद्ध, संगठित और, ज्यादातर मामलों में, जानकारी का व्यवस्थित संग्रह है, जिसका उद्देश्य मुख्य रूप से घटनाएँ हैं सामाजिक जीवन. यह विधि पूर्वनिर्धारित सबसे हड़ताली विशेषताओं के पंजीकरण के माध्यम से कार्यान्वित की जाती है, जिसका उद्देश्य बाद में अध्ययन की जा रही घटनाओं की विशेषताओं को प्राप्त करना है।

कुछ महत्वपूर्ण आवश्यकताओं को ध्यान में रखते हुए सांख्यिकीय अवलोकन किया जाना चाहिए:

  • इसमें अध्ययन की जा रही घटना को पूरी तरह से कवर किया जाना चाहिए;
  • प्राप्त डेटा सटीक और विश्वसनीय होना चाहिए;
  • प्राप्त डेटा एक समान और आसानी से तुलनीय होना चाहिए।

इसके अलावा, सांख्यिकीय अवलोकन दो रूप ले सकता है:

  • रिपोर्टिंग सांख्यिकीय अवलोकन का एक रूप है जहां संगठनों, संस्थानों या उद्यमों के विशिष्ट सांख्यिकीय प्रभागों को जानकारी प्रदान की जाती है। इस मामले में, डेटा विशेष रिपोर्ट में दर्ज किया जाता है।
  • विशेष रूप से संगठित अवलोकन एक ऐसा अवलोकन है जो एक विशिष्ट उद्देश्य के लिए आयोजित किया जाता है, ताकि रिपोर्ट में उपलब्ध नहीं होने वाली जानकारी प्राप्त की जा सके, या रिपोर्ट में जानकारी की विश्वसनीयता को स्पष्ट और स्थापित किया जा सके। इस फॉर्म में सर्वेक्षण (उदाहरण के लिए, जनमत सर्वेक्षण), जनगणना आदि शामिल हैं।

इसके अलावा, सांख्यिकीय अवलोकनों को दो विशेषताओं के आधार पर वर्गीकृत किया जा सकता है: या तो डेटा रिकॉर्डिंग की प्रकृति के आधार पर या अवलोकन इकाइयों के कवरेज के आधार पर। पहली श्रेणी में सर्वेक्षण, दस्तावेज़ीकरण और प्रत्यक्ष अवलोकन शामिल हैं, और दूसरी श्रेणी में निरंतर और अपूर्ण अवलोकन शामिल हैं, अर्थात। चयनात्मक.

सांख्यिकीय अवलोकन का उपयोग करके डेटा प्राप्त करने के लिए, आप प्रश्नावली, संवाददाता गतिविधियाँ, स्व-गणना (जब अवलोकन किया जाता है, उदाहरण के लिए, संबंधित दस्तावेज़ स्वयं भरें), अभियान और रिपोर्टिंग जैसे तरीकों का उपयोग कर सकते हैं।

सांख्यिकीय अवलोकन सामग्री का सारांश और समूहन

दूसरी विधि की बात करें तो सबसे पहले हमें सारांश के बारे में बात करनी चाहिए। सारांश कुछ व्यक्तिगत तथ्यों को संसाधित करने की प्रक्रिया है जो अवलोकन के दौरान एकत्र किए गए डेटा के समग्र समूह का निर्माण करते हैं। यदि सारांश सही ढंग से किया जाता है, तो अवलोकन की व्यक्तिगत वस्तुओं के बारे में व्यक्तिगत डेटा की एक बड़ी मात्रा सांख्यिकीय तालिकाओं और परिणामों के पूरे परिसर में बदल सकती है। यह अध्ययन यह निर्धारित करने में भी मदद करता है सामान्य सुविधाएंऔर अध्ययन के तहत घटनाओं के पैटर्न।

अध्ययन की सटीकता और गहराई के संकेतकों को ध्यान में रखते हुए, एक सरल और जटिल सारांश को अलग किया जा सकता है, लेकिन उनमें से कोई भी विशिष्ट चरणों पर आधारित होना चाहिए:

  • एक समूहीकरण विशेषता का चयन किया जाता है;
  • समूह गठन का क्रम निर्धारित किया जाता है;
  • समूह और वस्तु या घटना को समग्र रूप से चिह्नित करने के लिए संकेतकों की एक प्रणाली विकसित की जा रही है;
  • टेबल लेआउट विकसित किए जा रहे हैं जहां सारांश परिणाम प्रस्तुत किए जाएंगे।

यह ध्यान रखना महत्वपूर्ण है कि सारांश के विभिन्न रूप हैं:

  • केंद्रीकृत सारांश, बाद के प्रसंस्करण के लिए प्राप्त प्राथमिक सामग्री को उच्च केंद्र में स्थानांतरित करने की आवश्यकता होती है;
  • विकेंद्रीकृत सारांश, जहां डेटा का अध्ययन कई चरणों में आरोही तरीके से होता है।

सारांश विशेष उपकरणों का उपयोग करके किया जा सकता है, उदाहरण के लिए, कंप्यूटर सॉफ़्टवेयर का उपयोग करके या मैन्युअल रूप से।

जहां तक ​​समूहीकरण की बात है, इस प्रक्रिया को अध्ययन के तहत डेटा को विशेषताओं के अनुसार समूहों में विभाजित करके अलग किया जाता है। सांख्यिकीय विश्लेषण द्वारा प्रस्तुत कार्यों की विशेषताएं प्रभावित करती हैं कि यह किस प्रकार का समूह होगा: टाइपोलॉजिकल, संरचनात्मक या विश्लेषणात्मक। इसीलिए, संक्षेपण और समूहीकरण के लिए, वे या तो अत्यधिक विशिष्ट विशेषज्ञों की सेवाओं का सहारा लेते हैं या उपयोग करते हैं।

पूर्ण और सापेक्ष सांख्यिकीय मात्राएँ

निरपेक्ष मूल्यों को सांख्यिकीय डेटा की प्रस्तुति का पहला रूप माना जाता है। इसकी मदद से, घटनाओं को आयामी विशेषताएँ देना संभव है, उदाहरण के लिए, समय में, लंबाई में, आयतन में, क्षेत्रफल में, द्रव्यमान में, आदि।

यदि आप व्यक्तिगत निरपेक्ष सांख्यिकीय मूल्यों के बारे में जानना चाहते हैं, तो आप माप, अनुमान, गिनती या वजन का सहारा ले सकते हैं। और यदि आपको कुल वॉल्यूम संकेतक प्राप्त करने की आवश्यकता है, तो आपको सारांश और समूहीकरण का उपयोग करना चाहिए। यह ध्यान में रखना चाहिए कि माप की इकाइयों की उपस्थिति में पूर्ण सांख्यिकीय मान भिन्न होते हैं। ऐसी इकाइयों में लागत, श्रम और प्राकृतिक शामिल हैं।

और सापेक्ष मात्राएँ सामाजिक जीवन की घटनाओं से संबंधित मात्रात्मक संबंधों को व्यक्त करती हैं। उन्हें प्राप्त करने के लिए, कुछ मात्राएँ हमेशा दूसरों से विभाजित होती हैं। जिस सूचक से इसकी तुलना की जाती है (यह हर है) उसे तुलना का आधार कहा जाता है, और जिस सूचक से इसकी तुलना की जाती है (यह अंश है) उसे रिपोर्टिंग मान कहा जाता है।

उनकी सामग्री के आधार पर सापेक्ष मूल्य भिन्न हो सकते हैं। उदाहरण के लिए, तुलना के मूल्य, विकास के स्तर के मूल्य, किसी विशेष प्रक्रिया की तीव्रता के मूल्य, समन्वय, संरचना, गतिशीलता आदि के मूल्य हैं। और इसी तरह।

विभेदक विशेषताओं के अनुसार जनसंख्या का अध्ययन करने के लिए, सांख्यिकीय विश्लेषण औसत मूल्यों - सामान्यीकरण का उपयोग करता है गुणवत्ता विशेषताएँकुछ विभेदक विशेषताओं पर आधारित सजातीय घटनाओं का एक सेट।

औसत मूल्यों का एक अत्यंत महत्वपूर्ण गुण यह है कि वे अपने संपूर्ण परिसर में विशिष्ट विशेषताओं के मूल्यों के बारे में एक एकल संख्या के रूप में बात करते हैं। यद्यपि व्यक्तिगत इकाइयों के बीच मात्रात्मक अंतर हो सकता है, औसत मूल्य व्यक्त होते हैं सामान्य मूल्य, अध्ययनाधीन परिसर की सभी इकाइयों की विशेषता। इससे पता चलता है कि किसी एक चीज़ की विशेषताओं का उपयोग करके, आप संपूर्ण की विशेषताएँ प्राप्त कर सकते हैं।

यह ध्यान में रखना चाहिए कि सबसे अधिक में से एक महत्वपूर्ण शर्तेंसांख्यिकीय विश्लेषण करते समय औसत का उपयोग करना सामाजिक घटनाएँ, उनके परिसर की एकरूपता पर विचार किया जाता है, जिसके लिए आपको औसत मूल्य जानने की आवश्यकता होती है। और इसे निर्धारित करने का सूत्र इस बात पर निर्भर करेगा कि औसत मूल्य की गणना के लिए प्रारंभिक डेटा कैसे प्रस्तुत किया जाएगा।

विविधता शृंखला

कुछ मामलों में, कुछ अध्ययनित मात्राओं के औसत संकेतकों पर डेटा किसी घटना या प्रक्रिया को संसाधित करने, मूल्यांकन करने और गहराई से विश्लेषण करने के लिए पर्याप्त नहीं हो सकता है। फिर, किसी को व्यक्तिगत इकाइयों के संकेतकों की भिन्नता या फैलाव को ध्यान में रखना चाहिए, जो प्रतिनिधित्व भी करता है महत्वपूर्ण विशेषताअध्ययनाधीन जनसंख्या.

मात्राओं के व्यक्तिगत मूल्य कई कारकों से प्रभावित हो सकते हैं, और जिन घटनाओं या प्रक्रियाओं का अध्ययन किया जा रहा है वे स्वयं बहुत विविध हो सकती हैं, अर्थात। भिन्नता है (यह विविधता भिन्नता श्रृंखला है), जिसके कारणों का अध्ययन जो किया जा रहा है उसके सार में खोजा जाना चाहिए।

उपर्युक्त निरपेक्ष मूल्य सीधे विशेषताओं के माप की इकाइयों पर निर्भर हैं, और इसलिए दो या दो से अधिक भिन्नता श्रृंखलाओं के अध्ययन, मूल्यांकन और तुलना की प्रक्रिया को और अधिक जटिल बनाते हैं। और सापेक्ष संकेतकों की गणना पूर्ण और औसत संकेतकों के अनुपात के रूप में की जानी चाहिए।

नमूना

नमूनाकरण विधि (या अधिक सरल रूप से, नमूनाकरण) का अर्थ यह है कि एक भाग के गुणों का उपयोग संपूर्ण की संख्यात्मक विशेषताओं को निर्धारित करने के लिए किया जाता है (इसे सामान्य जनसंख्या कहा जाता है)। मुख्य नमूनाकरण विधि आंतरिक संबंध है जो भागों और संपूर्ण, व्यक्तिगत और सामान्य को एकजुट करती है।

नमूनाकरण विधि के दूसरों की तुलना में कई महत्वपूर्ण फायदे हैं, क्योंकि अवलोकनों की संख्या में कमी के लिए धन्यवाद, यह आपको खर्च किए गए काम, धन और प्रयास की मात्रा को कम करने की अनुमति देता है, साथ ही ऐसी प्रक्रियाओं और घटनाओं पर सफलतापूर्वक डेटा प्राप्त करता है जहां उनका पूरी तरह से अध्ययन करना या तो अव्यावहारिक है या बस असंभव है।

अध्ययन की जा रही घटना या प्रक्रिया की विशेषताओं के साथ नमूने की विशेषताओं का पत्राचार स्थितियों के एक सेट पर निर्भर करेगा, और मुख्य रूप से इस बात पर कि नमूना पद्धति को व्यवहार में कैसे लागू किया जाएगा। यह या तो एक व्यवस्थित चयन हो सकता है, एक तैयार योजना का पालन करते हुए, या अनियोजित, जब नमूना सामान्य आबादी से बनाया जाता है।

लेकिन सभी मामलों में, नमूनाकरण विधि विशिष्ट होनी चाहिए और निष्पक्षता के मानदंडों को पूरा करना चाहिए। इन आवश्यकताओं को हमेशा पूरा किया जाना चाहिए, क्योंकि विधि की विशेषताओं और सांख्यिकीय रूप से विश्लेषण की जा रही चीज़ों की विशेषताओं के बीच पत्राचार उन पर निर्भर करेगा।

इस प्रकार, नमूना सामग्री को संसाधित करने से पहले, इसकी पूरी तरह से जांच करना आवश्यक है, जिससे अनावश्यक और महत्वहीन हर चीज से छुटकारा मिल सके। साथ ही, नमूना संकलित करते समय किसी भी शौकिया गतिविधियों से बचना अनिवार्य है। इसका मतलब यह है कि किसी भी स्थिति में आपको केवल उन विकल्पों का चयन नहीं करना चाहिए जो सामान्य लगते हैं और अन्य सभी को छोड़ देना चाहिए।

एक प्रभावी और उच्च गुणवत्ता वाला नमूना निष्पक्ष रूप से चुना जाना चाहिए, अर्थात। इसे इस तरह से किया जाना चाहिए कि किसी भी व्यक्तिपरक प्रभाव और पक्षपातपूर्ण उद्देश्यों को बाहर रखा जाए। और इस शर्त को ठीक से पूरा करने के लिए, यादृच्छिकीकरण के सिद्धांत का सहारा लेना आवश्यक है या, अधिक सरलता से, उनकी पूरी आबादी से विकल्पों के यादृच्छिक चयन के सिद्धांत का सहारा लेना आवश्यक है।

प्रस्तुत सिद्धांत नमूना पद्धति के सिद्धांत के आधार के रूप में कार्य करता है, और जब भी एक प्रभावी नमूना आबादी बनाने के लिए आवश्यक हो तो इसका पालन किया जाना चाहिए, और व्यवस्थित चयन के मामले यहां कोई अपवाद नहीं हैं।

सहसंबंध और प्रतिगमन विश्लेषण

सहसंबंध विश्लेषण और प्रतिगमन विश्लेषण दो अत्यधिक प्रभावी तरीके हैं जो आपको दो या दो से अधिक संकेतकों के संभावित संबंधों का अध्ययन करने के लिए बड़ी मात्रा में डेटा का विश्लेषण करने की अनुमति देते हैं।

सहसंबंध विश्लेषण के मामले में, उद्देश्य हैं:

  • विभेदक विशेषताओं के बीच मौजूदा संबंध की निकटता को मापें;
  • अज्ञात कारण संबंधों की पहचान करें;
  • उन कारकों का आकलन करें जो अंतिम विशेषता को सबसे अधिक प्रभावित करते हैं।

और प्रतिगमन विश्लेषण के मामले में, कार्य इस प्रकार हैं:

  • संचार का रूप निर्धारित करें;
  • आश्रित पर स्वतंत्र संकेतकों के प्रभाव की डिग्री स्थापित करें;
  • आश्रित संकेतक के परिकलित मान निर्धारित करें।

उपरोक्त सभी समस्याओं को हल करने के लिए सहसंबंध और प्रतिगमन विश्लेषण दोनों का संयोजन में उपयोग करना लगभग हमेशा आवश्यक होता है।

गतिशीलता श्रृंखला

सांख्यिकीय विश्लेषण की इस पद्धति का उपयोग करके, घटना की तीव्रता या गति को निर्धारित करना, उनके विकास की प्रवृत्ति का पता लगाना, उतार-चढ़ाव को उजागर करना, विकास की गतिशीलता की तुलना करना और समय के साथ विकसित होने वाली घटनाओं के बीच संबंध का पता लगाना बहुत सुविधाजनक है।

गतिशीलता श्रृंखला एक श्रृंखला है जिसमें सांख्यिकीय संकेतक समय के साथ क्रमिक रूप से स्थित होते हैं, जिनमें से परिवर्तन अध्ययन के तहत वस्तु या घटना की विकास प्रक्रिया की विशेषता बताते हैं।

गतिशीलता श्रृंखला में दो घटक शामिल हैं:

  • उपलब्ध डेटा से जुड़ी समय अवधि या बिंदु;
  • स्तर या सांख्यिकीय सूचक.

कुल मिलाकर, ये घटक समय श्रृंखला के दो शब्दों का प्रतिनिधित्व करते हैं, जहां पहला पद (समय अवधि) अक्षर "टी" द्वारा दर्शाया जाता है, और दूसरा (स्तर) अक्षर "वाई" द्वारा दर्शाया जाता है।

समय अंतराल की अवधि के आधार पर जिसके साथ स्तर आपस में जुड़े हुए हैं, गतिशीलता श्रृंखला क्षणिक और अंतराल हो सकती है। अंतराल श्रृंखला आपको एक के बाद एक अवधियों का कुल मूल्य प्राप्त करने के लिए स्तर जोड़ने की अनुमति देती है, लेकिन क्षण श्रृंखला में ऐसी कोई संभावना नहीं है, लेकिन वहां इसकी आवश्यकता नहीं है।

समय श्रृंखला भी समान और भिन्न अंतराल पर मौजूद होती है। क्षण और अंतराल श्रृंखला में अंतराल का सार हमेशा अलग होता है। पहले मामले में, अंतराल उन तिथियों के बीच का समय अंतराल है जिनसे विश्लेषण के लिए डेटा जुड़ा हुआ है (उदाहरण के लिए, प्रति माह, वर्ष आदि कार्यों की संख्या निर्धारित करने के लिए ऐसी श्रृंखला का उपयोग करना सुविधाजनक है)। और दूसरे मामले में, एक समय अवधि जिसमें सामान्यीकृत डेटा का एक सेट संलग्न होता है (ऐसी श्रृंखला का उपयोग एक महीने, एक वर्ष आदि के लिए समान कार्यों की गुणवत्ता निर्धारित करने के लिए किया जा सकता है)। पंक्ति के प्रकार की परवाह किए बिना, अंतराल समान या भिन्न हो सकते हैं।

स्वाभाविक रूप से, सांख्यिकीय विश्लेषण के प्रत्येक तरीके को सक्षम रूप से लागू करने का तरीका सीखने के लिए, केवल उनके बारे में जानना पर्याप्त नहीं है, क्योंकि वास्तव में, सांख्यिकी एक संपूर्ण विज्ञान है जिसमें कुछ कौशल और क्षमताओं की भी आवश्यकता होती है। लेकिन इसे आसान बनाने के लिए, आपको अपनी सोच को प्रशिक्षित करना चाहिए और...

अन्यथा, सूचना का अनुसंधान, मूल्यांकन, प्रसंस्करण और विश्लेषण बहुत दिलचस्प प्रक्रियाएं हैं। और ऐसे मामलों में भी जहां इसका कोई खास नतीजा नहीं निकलता, शोध के दौरान कई दिलचस्प बातें पता चल सकती हैं। सांख्यिकीय विश्लेषण ने मानव गतिविधि के बड़ी संख्या में क्षेत्रों में अपना आवेदन पाया है, और आप इसका उपयोग स्कूल, कार्य, व्यवसाय और बाल विकास और स्व-शिक्षा सहित अन्य क्षेत्रों में कर सकते हैं।

सांख्यिकी"जैव सांख्यिकी".

1. नाममात्र;
2. क्रमसूचक;
3. अंतराल;

नमूने

प्रतिनिधि

चयनात्मक फ्रेम सामान्य उद्देश्यरहित नमूना अंतराल नमूनाकरण

स्तरीकृत नमूना

झुंडऔर कोटा नमूना

शून्य परिकल्पना

वैकल्पिक परिकल्पना शक्ति

आत्मविश्वास की संभावना"।


शीर्षक: सांख्यिकीय डेटा विश्लेषण के मूल सिद्धांत
विस्तृत विवरण:

किसी भी वैज्ञानिक अनुसंधान, मौलिक या प्रायोगिक, के पूरा होने के बाद प्राप्त आंकड़ों का सांख्यिकीय विश्लेषण किया जाता है। सांख्यिकीय विश्लेषण को सफलतापूर्वक करने और निर्दिष्ट समस्याओं को हल करने के लिए, अध्ययन की उचित योजना बनाई जानी चाहिए। इसलिए, सांख्यिकी की मूल बातें समझे बिना परिणामों की योजना बनाना और प्रसंस्करण करना असंभव है वैज्ञानिक प्रयोग. हालाँकि, चिकित्सा शिक्षा न केवल सांख्यिकी का ज्ञान प्रदान करती है, बल्कि उच्च गणित की मूल बातें भी प्रदान करती है। इसलिए, बहुत बार आप यह राय पा सकते हैं कि केवल एक सांख्यिकीविद् को बायोमेडिकल अनुसंधान में सांख्यिकीय प्रसंस्करण के मुद्दों से निपटना चाहिए, और एक डॉक्टर-शोधकर्ता को अपने चिकित्सा मुद्दों पर ध्यान देना चाहिए वैज्ञानिकों का काम. श्रम का यह विभाजन, जिसमें डेटा विश्लेषण में सहायता शामिल है, पूरी तरह से उचित है। हालाँकि, सांख्यिकी के सिद्धांतों की समझ आवश्यक है, कम से कम किसी विशेषज्ञ के समक्ष समस्या के गलत निरूपण से बचने के लिए, जिसके साथ अध्ययन शुरू होने से पहले संचार उतना ही महत्वपूर्ण है जितना डेटा प्रोसेसिंग के चरण में।

सांख्यिकीय विश्लेषण की मूल बातों के बारे में बात करने से पहले, "शब्द" का अर्थ स्पष्ट करना आवश्यक है। सांख्यिकी". कई परिभाषाएँ हैं, लेकिन सबसे पूर्ण और संक्षिप्त, हमारी राय में, सांख्यिकी की परिभाषा "डेटा एकत्र करने, प्रस्तुत करने और विश्लेषण करने का विज्ञान" है। बदले में, जीवित दुनिया के अनुप्रयोग में सांख्यिकी के उपयोग को "बायोमेट्रिक्स" या "कहा जाता है" जैव सांख्यिकी".

यह ध्यान दिया जाना चाहिए कि बहुत बार आँकड़े केवल प्रयोगात्मक डेटा के प्रसंस्करण तक सीमित हो जाते हैं, उनके अधिग्रहण के चरण पर ध्यान दिए बिना। हालाँकि, प्रयोग की योजना के दौरान ही सांख्यिकीय ज्ञान आवश्यक है, ताकि इसके दौरान प्राप्त संकेतक शोधकर्ता को विश्वसनीय जानकारी प्रदान कर सकें। इसलिए, हम कह सकते हैं कि प्रयोगात्मक परिणामों का सांख्यिकीय विश्लेषण अध्ययन शुरू होने से पहले ही शुरू हो जाता है।

पहले से ही एक योजना विकसित करने के चरण में, शोधकर्ता को स्पष्ट रूप से समझना चाहिए कि उसके काम में किस प्रकार के चर होंगे। सभी चरों को दो वर्गों में विभाजित किया जा सकता है: गुणात्मक और मात्रात्मक। एक चर कितनी सीमा ले सकता है यह माप के पैमाने पर निर्भर करता है। चार मुख्य पैमानों को प्रतिष्ठित किया जा सकता है:

1. नाममात्र;
2. क्रमसूचक;
3. अंतराल;
4. तर्कसंगत (संबंधों का पैमाना)।

नाममात्र पैमाने ("नामों" का पैमाना) में ही होते हैं प्रतीकवस्तुओं के कुछ वर्गों का वर्णन करने के लिए, उदाहरण के लिए, "लिंग" या "रोगी का पेशा"। नाममात्र पैमाने का तात्पर्य है कि चर उन मूल्यों को अपनाएगा जिनके मात्रात्मक संबंध निर्धारित नहीं किए जा सकते हैं। इस प्रकार, पुरुष और महिला लिंग के बीच गणितीय संबंध स्थापित करना असंभव है। पारंपरिक संख्यात्मक पदनाम (महिलाएं - 0, पुरुष - 1, या इसके विपरीत) बिल्कुल मनमाने ढंग से दिए जाते हैं और केवल कंप्यूटर प्रसंस्करण के लिए होते हैं। नाममात्र का पैमाना शुद्ध गुणवत्ता वाला है, अलग श्रेणियांइस पैमाने में उन्हें आवृत्तियों (अवलोकनों की संख्या या अनुपात, प्रतिशत) में व्यक्त किया जाता है।

क्रमसूचक (क्रमिक) पैमाना यह प्रदान करता है कि इसमें अलग-अलग श्रेणियों को आरोही या अवरोही क्रम में व्यवस्थित किया जा सकता है। चिकित्सा आंकड़ों में, क्रमिक पैमाने का एक उत्कृष्ट उदाहरण रोग की गंभीरता की डिग्री का क्रम है। इस मामले में, हम गंभीरता को आरोही क्रम में व्यवस्थित कर सकते हैं, लेकिन हमारे पास अभी भी मात्रात्मक संबंधों को निर्दिष्ट करने का अवसर नहीं है, यानी, क्रमिक पैमाने पर मापा मूल्यों के बीच की दूरी अज्ञात है या कोई फर्क नहीं पड़ता। "गंभीरता" चर के मूल्यों का क्रम स्थापित करना आसान है, लेकिन यह निर्धारित करना असंभव है कि गंभीर स्थिति मध्यम स्थिति से कितनी बार भिन्न होती है।

क्रमसूचक पैमाना अर्ध-मात्रात्मक प्रकार के डेटा को संदर्भित करता है, और इसके ग्रेडेशन को आवृत्तियों (गुणात्मक पैमाने पर) और उपायों दोनों द्वारा वर्णित किया जा सकता है केंद्रीय मूल्य, जिसके बारे में हम नीचे चर्चा करेंगे।

अंतराल और तर्कसंगत पैमाने विशुद्ध रूप से मात्रात्मक प्रकार के डेटा हैं। अंतराल पैमाने में, हम पहले से ही यह निर्धारित कर सकते हैं कि एक चर का एक मान दूसरे से कितना भिन्न है। इस प्रकार, शरीर के तापमान में 1 डिग्री सेल्सियस की वृद्धि का मतलब हमेशा इकाइयों की एक निश्चित संख्या द्वारा उत्पन्न गर्मी में वृद्धि है। हालाँकि, अंतराल पैमाने में सकारात्मक और नकारात्मक दोनों मान होते हैं (कोई पूर्ण शून्य नहीं है)। इस संबंध में, यह कहना असंभव है कि 20 डिग्री सेल्सियस 10 से दोगुना गर्म है। हम केवल यह कह सकते हैं कि 20 डिग्री तापमान 10 से अधिक गर्म है क्योंकि 30 डिग्री तापमान 20 से अधिक गर्म है।

तर्कसंगत पैमाने (संबंधों का पैमाना) में केवल और केवल एक संदर्भ बिंदु होता है सकारात्मक मूल्य. चिकित्सा में, सबसे तर्कसंगत पैमाने सांद्रता हैं। उदाहरण के लिए, 10 mmol/L का ग्लूकोज स्तर 5 mmol/L की तुलना में दोगुना है। तापमान के लिए, तर्कसंगत पैमाना केल्विन स्केल है, जहां पूर्ण शून्य (कोई गर्मी नहीं) है।

यह जोड़ा जाना चाहिए कि कोई भी मात्रात्मक चर निरंतर हो सकता है, जैसे कि शरीर के तापमान को मापने के मामले में (यह एक सतत अंतराल पैमाना है), या असतत, यदि हम रक्त कोशिकाओं की संख्या या प्रयोगशाला जानवरों की संतानों की गिनती करते हैं (यह एक है) असतत तर्कसंगत पैमाने)।

प्रायोगिक परिणामों के सांख्यिकीय विश्लेषण के तरीकों के चुनाव के लिए ये अंतर महत्वपूर्ण हैं। इस प्रकार, नाममात्र डेटा के लिए हम ची-स्क्वायर परीक्षण लागू करते हैं, और प्रसिद्ध छात्र परीक्षण के लिए आवश्यक है कि चर (अंतराल या तर्कसंगत) निरंतर हो।

वेरिएबल के प्रकार के बारे में प्रश्न तय हो जाने के बाद, आपको निर्माण शुरू करना चाहिए नमूने. एक नमूना एक निश्चित वर्ग (चिकित्सा में - एक जनसंख्या) की वस्तुओं का एक छोटा समूह है। बिल्कुल सटीक डेटा प्राप्त करने के लिए, किसी दिए गए वर्ग की सभी वस्तुओं का अध्ययन करना आवश्यक है, हालांकि, व्यावहारिक (अक्सर वित्तीय) कारणों से, जनसंख्या के केवल एक हिस्से का अध्ययन किया जाता है, जिसे नमूना कहा जाता है। इसके बाद, सांख्यिकीय विश्लेषण शोधकर्ता को एक निश्चित डिग्री की सटीकता के साथ प्राप्त पैटर्न को पूरी आबादी तक विस्तारित करने की अनुमति देता है। वास्तव में, सभी बायोमेडिकल आँकड़ों का उद्देश्य कम से कम संभव संख्या में अवलोकनों से सबसे सटीक परिणाम प्राप्त करना है, क्योंकि मनुष्यों पर शोध करते समय नैतिक विचार भी महत्वपूर्ण हैं। हम आवश्यकता से अधिक रोगियों को जोखिम में नहीं डाल सकते।

एक नमूने का निर्माण कई लोगों द्वारा नियंत्रित होता है अनिवार्य जरूरतें, जिसके उल्लंघन से शोध परिणामों से गलत निष्कर्ष निकल सकते हैं। सबसे पहले, नमूना आकार महत्वपूर्ण है. अध्ययन किए गए मापदंडों के अनुमान की सटीकता नमूना आकार पर निर्भर करती है। यहां आपको "सटीकता" शब्द पर ध्यान देना चाहिए। कैसे बड़े आकारजिन समूहों का अध्ययन किया जाता है, वैज्ञानिक को उतने ही अधिक सटीक (लेकिन जरूरी नहीं कि सही) परिणाम प्राप्त होते हैं। नमूना अध्ययन के परिणामों को समग्र रूप से संपूर्ण जनसंख्या में स्थानांतरित करने के लिए, नमूना होना चाहिए प्रतिनिधि. नमूने की प्रतिनिधित्वशीलता यह मानती है कि यह जनसंख्या के सभी आवश्यक गुणों को दर्शाता है। दूसरे शब्दों में, अध्ययन किए गए समूहों में विभिन्न लिंग, उम्र, पेशे के लोग थे। सामाजिक स्थितिइत्यादि उसी आवृत्ति के साथ घटित होते हैं जैसे संपूर्ण जनसंख्या में होते हैं।

हालाँकि, इससे पहले कि आप एक अध्ययन समूह का चयन करना शुरू करें, आपको एक विशिष्ट जनसंख्या का अध्ययन करने की आवश्यकता निर्धारित करनी चाहिए। जनसंख्या का एक उदाहरण एक निश्चित नोसोलॉजी वाले सभी मरीज़ या कामकाजी उम्र के लोग आदि हो सकते हैं। इस प्रकार, सैन्य उम्र के युवा लोगों की आबादी के लिए प्राप्त परिणामों को रजोनिवृत्ति के बाद की महिलाओं पर लागू करने की संभावना नहीं है। अध्ययन आबादी में मौजूद विशेषताओं का सेट अध्ययन डेटा की "सामान्यीकरण" निर्धारित करता है।

नमूने विभिन्न तरीकों से बनाये जा सकते हैं। उनमें से सबसे सरल यादृच्छिक संख्या जनरेटर का उपयोग करके चयन है आवश्यक मात्राजनसंख्या से वस्तुएँ या चयनात्मक फ्रेम(नमूना चयन ढांचा)। इस विधि को "कहा जाता है सामान्य उद्देश्यरहित नमूना" यदि आप नमूनाकरण फ़्रेम में यादृच्छिक रूप से एक प्रारंभिक बिंदु का चयन करते हैं, और फिर प्रत्येक दूसरे, पांचवें, या दसवें ऑब्जेक्ट को लेते हैं (अध्ययन में किस समूह के आकार की आवश्यकता के आधार पर), तो आपको मिलेगा अंतराल नमूनाकरण. अंतराल नमूनाकरण यादृच्छिक नहीं है, क्योंकि नमूनाकरण फ़्रेम के भीतर डेटा की आवधिक पुनरावृत्ति की संभावना को कभी भी बाहर नहीं रखा जाता है।

तथाकथित "बनाना संभव है" स्तरीकृत नमूना”, जो मानता है कि जनसंख्या में कई अलग-अलग समूह शामिल हैं और इस संरचना को प्रायोगिक समूह में पुन: प्रस्तुत किया जाना चाहिए। उदाहरण के लिए, यदि किसी जनसंख्या में पुरुषों और महिलाओं का अनुपात 30:70 है, तो एक स्तरीकृत नमूने में अनुपात समान होना चाहिए। इस दृष्टिकोण के साथ, यह महत्वपूर्ण है कि नमूने को अधिक संतुलित न किया जाए, अर्थात इसकी विशेषताओं की एकरूपता से बचा जाए, अन्यथा शोधकर्ता डेटा में अंतर या संबंध खोजने का मौका चूक सकता है।

समूह बनाने की वर्णित विधियों के अलावा, वहाँ भी हैं झुंडऔर कोटा नमूना. पहले का उपयोग उस स्थिति में किया जाता है जब नमूना फ्रेम के बारे में पूरी जानकारी प्राप्त करना उसके आकार के कारण मुश्किल होता है। फिर जनसंख्या में शामिल कई समूहों से नमूना तैयार किया जाता है। दूसरा - कोटा - स्तरीकृत नमूने के समान है, लेकिन यहां वस्तुओं का वितरण जनसंख्या के अनुरूप नहीं है।

नमूना आकार पर लौटते हुए, यह कहा जाना चाहिए कि यह पहले और दूसरे प्रकार की सांख्यिकीय त्रुटियों की संभावना से निकटता से संबंधित है। सांख्यिकीय त्रुटियाँ इस तथ्य के कारण हो सकती हैं कि अध्ययन पूरी आबादी का नहीं, बल्कि उसके एक हिस्से का अध्ययन करता है। पहले प्रकार की त्रुटि एक ग़लत विचलन है शून्य परिकल्पना. बदले में, शून्य परिकल्पना यह धारणा है कि सभी अध्ययन किए गए समूह एक ही सामान्य जनसंख्या से लिए गए हैं, जिसका अर्थ है कि उनके बीच अंतर या संबंध यादृच्छिक हैं। यदि हम नैदानिक ​​परीक्षणों के साथ सादृश्य बनाते हैं, तो टाइप I त्रुटि एक गलत सकारात्मक परिणाम है।

दूसरे प्रकार की त्रुटि गलत विचलन है। वैकल्पिक परिकल्पना, जिसका अर्थ यह है कि समूहों के बीच मतभेद या संबंध यादृच्छिक संयोग के कारण नहीं, बल्कि अध्ययन किए जा रहे कारकों के प्रभाव के कारण होते हैं। और फिर, निदान के साथ एक सादृश्य: टाइप II त्रुटि एक गलत नकारात्मक परिणाम है। इस त्रुटि के साथ जुड़ी हुई अवधारणा है शक्ति, जो हमें बताता है कि एक निश्चित सांख्यिकीय पद्धति दी गई परिस्थितियों और उसकी संवेदनशीलता के तहत कितनी प्रभावी है। पावर की गणना सूत्र का उपयोग करके की जाती है: 1-β, जहां β प्रकार II त्रुटि की संभावना है। यह सूचकमुख्यतः नमूना आकार पर निर्भर करता है। समूह का आकार जितना बड़ा होगा, प्रकार II त्रुटि की संभावना उतनी ही कम होगी और सांख्यिकीय परीक्षणों की शक्ति उतनी ही अधिक होगी। यह निर्भरता कम से कम द्विघात है, यानी, नमूना आकार को आधे से कम करने से शक्ति में कम से कम चार गुना गिरावट आएगी। न्यूनतम स्वीकार्य शक्ति 80% मानी जाती है, और प्रकार I त्रुटि का अधिकतम स्वीकार्य स्तर 5% माना जाता है। हालाँकि, यह हमेशा याद रखना चाहिए कि ये सीमाएँ मनमाने ढंग से निर्धारित की जाती हैं और अध्ययन की प्रकृति और लक्ष्यों के आधार पर बदल सकती हैं। एक नियम के रूप में, वैज्ञानिक समुदाय सत्ता में मनमाने ढंग से परिवर्तन को मान्यता देता है, लेकिन अधिकांश मामलों में टाइप I त्रुटि का स्तर 5% से अधिक नहीं हो सकता है।

उपरोक्त सभी का सीधा संबंध अध्ययन के नियोजन चरण से है। हालाँकि, कई शोधकर्ता गलती से सांख्यिकीय डेटा प्रोसेसिंग को केवल कार्य के मुख्य भाग के पूरा होने के बाद किए गए किसी प्रकार के हेरफेर के रूप में देखते हैं। अक्सर, एक अनियोजित प्रयोग को पूरा करने के बाद, पक्ष में सांख्यिकीय डेटा के विश्लेषण का आदेश देने की एक अदम्य इच्छा प्रकट होती है। लेकिन "कचरे के ढेर" से, यहां तक ​​कि एक सांख्यिकीविद् के लिए भी शोधकर्ता द्वारा अपेक्षित परिणाम निकालना बहुत मुश्किल होगा। इसलिए, यदि आपके पास जैवसांख्यिकी का अपर्याप्त ज्ञान है, तो आपको प्रयोग शुरू करने से पहले सांख्यिकीय विश्लेषण में मदद लेनी चाहिए।

विश्लेषण प्रक्रिया की ओर मुड़ते हुए, हमें दो मुख्य प्रकार की सांख्यिकीय तकनीकों को इंगित करना चाहिए: वर्णनात्मक और प्रदर्शनात्मक (विश्लेषणात्मक)। वर्णनात्मक तकनीकों में वे विधियाँ शामिल हैं जो आपको डेटा को संक्षिप्त और समझने में आसान रूप में प्रस्तुत करने की अनुमति देती हैं। इनमें तालिकाएँ, ग्राफ़, आवृत्तियाँ (पूर्ण और सापेक्ष), केंद्रीय प्रवृत्ति के माप (माध्य, माध्य, मोड) और डेटा फैलाव के माप (विचरण, मानक विचलन, अंतरचतुर्थक सीमा, आदि) शामिल हैं। दूसरे शब्दों में, वर्णनात्मक विधियाँ अध्ययन किए जा रहे नमूनों की विशेषता बताती हैं।

उपलब्ध मात्रात्मक डेटा का वर्णन करने का सबसे लोकप्रिय (हालांकि अक्सर गलत) तरीका निम्नलिखित संकेतकों को परिभाषित करना है:

  • नमूने में अवलोकनों की संख्या या उसका आकार;
  • औसत मान (अंकगणितीय माध्य);
  • मानक विचलन इस बात का माप है कि किसी चर के मान कितने व्यापक रूप से भिन्न होते हैं।

यह याद रखना महत्वपूर्ण है कि अंकगणित माध्य और मानक विचलन काफी कम संख्या में नमूनों में केंद्रीय प्रवृत्ति और फैलाव के माप हैं। ऐसे नमूनों में, अधिकांश वस्तुओं का मान समान संभावना के साथ औसत से विचलित होता है, और उनका वितरण एक सममित "घंटी" (गॉसियन या गॉस-लाप्लास वक्र) बनाता है। इस वितरण को "सामान्य" भी कहा जाता है, लेकिन चिकित्सा प्रयोगों के अभ्यास में यह केवल 30% मामलों में होता है। यदि किसी चर के मानों को केंद्र के सापेक्ष असममित रूप से वितरित किया जाता है, तो माध्यिका और मात्राओं (प्रतिशत, चतुर्थक, दशमलव) का उपयोग करके समूहों का वर्णन करना बेहतर होता है।

समूहों का विवरण पूरा करने के बाद, उनके संबंधों और संपूर्ण जनसंख्या के लिए अध्ययन के परिणामों को सामान्य बनाने की संभावना के बारे में प्रश्न का उत्तर देना आवश्यक है। इस प्रयोजन के लिए, साक्ष्य-आधारित जैवसांख्यिकीय विधियों का उपयोग किया जाता है। जब सांख्यिकीय डेटा प्रोसेसिंग की बात आती है तो शोधकर्ता सबसे पहले इन्हीं को याद करते हैं। कार्य के इस चरण को आमतौर पर "सांख्यिकीय परिकल्पनाओं का परीक्षण" कहा जाता है।

परिकल्पना परीक्षण के कार्यों को दो भागों में विभाजित किया जा सकता है बड़े समूह. पहला समूह इस प्रश्न का उत्तर देता है कि क्या समूहों के बीच किसी संकेतक के स्तर में अंतर है, उदाहरण के लिए, हेपेटाइटिस के रोगियों और स्वस्थ लोगों में यकृत ट्रांसएमिनेस के स्तर में अंतर। दूसरा समूह आपको दो या दो से अधिक संकेतकों के बीच संबंध के अस्तित्व को साबित करने की अनुमति देता है, उदाहरण के लिए, यकृत समारोह और प्रतिरक्षा प्रणाली।

व्यावहारिक रूप से, पहले समूह के कार्यों को दो उपप्रकारों में विभाजित किया जा सकता है:

  • केवल दो समूहों (स्वस्थ और बीमार, पुरुष और महिला) में संकेतक की तुलना;
  • तीन या अधिक समूहों की तुलना (दवा की विभिन्न खुराक का अध्ययन)।

यह ध्यान में रखा जाना चाहिए कि गुणात्मक और मात्रात्मक डेटा के लिए सांख्यिकीय तरीके काफी भिन्न होते हैं।

ऐसी स्थिति में जहां अध्ययन किया जा रहा चर गुणात्मक है और केवल दो समूहों की तुलना की जाती है, ची-स्क्वायर परीक्षण का उपयोग किया जा सकता है। यह एक काफी शक्तिशाली और व्यापक रूप से ज्ञात मानदंड है, हालांकि, यदि टिप्पणियों की संख्या कम है तो यह पर्याप्त प्रभावी नहीं है। इस समस्या को हल करने के लिए कई विधियाँ हैं, जैसे येट्स निरंतरता सुधार और फिशर की सटीक विधि।

यदि अध्ययन किया जा रहा चर मात्रात्मक है, तो दो प्रकार के सांख्यिकीय परीक्षणों में से एक का उपयोग किया जा सकता है। पहले प्रकार का मापदण्ड आधारित है विशिष्ट प्रकारजनसंख्या का वितरण और इस जनसंख्या के मापदंडों के साथ संचालन। ऐसे परीक्षणों को "पैरामीट्रिक" कहा जाता है, और वे आम तौर पर मूल्यों के सामान्य वितरण की धारणा पर आधारित होते हैं। गैर-पैरामीट्रिक परीक्षण जनसंख्या के वितरण के प्रकार के बारे में एक धारणा पर आधारित नहीं हैं और इसके मापदंडों का उपयोग नहीं करते हैं। कभी-कभी ऐसे मानदंडों को "वितरण-मुक्त परीक्षण" कहा जाता है। कुछ हद तक, यह गलत है, क्योंकि कोई भी गैरपैरामीट्रिक मानदंड मानता है कि सभी तुलना किए गए समूहों में वितरण समान होगा, अन्यथा गलत सकारात्मक परिणाम प्राप्त हो सकते हैं।

सामान्य रूप से वितरित आबादी से निकाले गए डेटा पर दो पैरामीट्रिक परीक्षण लागू होते हैं: दो समूहों की तुलना करने के लिए छात्र का टी-परीक्षण और भिन्नताओं की समानता के परीक्षण के लिए फिशर का एफ-परीक्षण (जिसे भिन्नता के विश्लेषण के रूप में भी जाना जाता है)। बहुत अधिक गैर-पैरामीट्रिक मानदंड हैं। अलग-अलग परीक्षण उन मान्यताओं में एक-दूसरे से भिन्न होते हैं जिन पर वे आधारित हैं, गणना की जटिलता में, सांख्यिकीय शक्ति आदि में। हालांकि, ज्यादातर मामलों में सबसे स्वीकार्य विलकॉक्सन परीक्षण (संबंधित समूहों के लिए) और मैन-व्हिटनी परीक्षण हैं। , जिसे स्वतंत्र नमूनों के लिए परीक्षण विलकॉक्सन के रूप में भी जाना जाता है। ये परीक्षण सुविधाजनक हैं क्योंकि इनमें डेटा वितरण की प्रकृति के बारे में धारणाओं की आवश्यकता नहीं होती है। लेकिन अगर यह पता चलता है कि नमूने सामान्य रूप से वितरित आबादी से लिए गए हैं, तो उनकी सांख्यिकीय शक्ति छात्र के परीक्षण से महत्वपूर्ण रूप से भिन्न नहीं होगी।

सांख्यिकीय विधियों का पूरा विवरण विशेष साहित्य में पाया जा सकता है, हालांकि, मुख्य बात यह है कि प्रत्येक सांख्यिकीय परीक्षण के लिए इसके उपयोग के लिए नियमों (धारणाओं) और शर्तों के एक सेट की आवश्यकता होती है, और "सही" खोजने के लिए कई तरीकों की यांत्रिक खोज की आवश्यकता होती है। ''परिणाम वैज्ञानिक दृष्टिकोण से बिल्कुल अस्वीकार्य है। इस अर्थ में, सांख्यिकीय परीक्षण दवाओं के करीब हैं - प्रत्येक के संकेत और मतभेद हैं, दुष्प्रभावऔर अप्रभावीता की संभावना. और सांख्यिकीय परीक्षणों का अनियंत्रित उपयोग भी उतना ही खतरनाक है, क्योंकि परिकल्पनाएँ और निष्कर्ष उन्हीं पर आधारित होते हैं।

सांख्यिकीय विश्लेषण की सटीकता के मुद्दे को पूरी तरह से समझने के लिए, अवधारणा को परिभाषित और विश्लेषण करना आवश्यक है " आत्मविश्वास की संभावना"।आत्मविश्वास संभाव्यता संभावित और असंभावित घटनाओं के बीच की सीमा के रूप में लिया जाने वाला एक मूल्य है। परंपरागत रूप से, इसे "पी" अक्षर से दर्शाया जाता है। कई शोधकर्ताओं के लिए, सांख्यिकीय विश्लेषण करने का एकमात्र उद्देश्य प्रतिष्ठित पी-वैल्यू की गणना करना है, जो प्रसिद्ध वाक्यांश "निष्पादन को माफ नहीं किया जा सकता" में अल्पविराम लगाता प्रतीत होता है। अधिकतम स्वीकार्य आत्मविश्वास स्तर 0.05 माना जाता है। यह याद रखना चाहिए कि आत्मविश्वास की संभावना किसी घटना की संभावना नहीं है, बल्कि भरोसे का मामला है। विश्लेषण शुरू करने से पहले आत्मविश्वास की संभावना निर्धारित करके, हम अपने शोध के परिणामों में आत्मविश्वास की डिग्री निर्धारित करते हैं। और, जैसा कि आप जानते हैं, अत्यधिक भोलापन और अत्यधिक संदेह किसी भी कार्य के परिणामों को समान रूप से नकारात्मक रूप से प्रभावित करते हैं।

आत्मविश्वास का स्तर दर्शाता है कि प्रकार I त्रुटि होने की अधिकतम संभावना शोधकर्ता द्वारा स्वीकार्य मानी जाती है। आत्मविश्वास के स्तर को कम करने से, दूसरे शब्दों में, परिकल्पनाओं के परीक्षण के लिए शर्तों को कड़ा करने से दूसरे प्रकार की त्रुटियों की संभावना बढ़ जाती है। नतीजतन, आत्मविश्वास की संभावना के स्तर का चुनाव पहले और दूसरे प्रकार की त्रुटियों की घटना से संभावित नुकसान को ध्यान में रखते हुए किया जाना चाहिए। उदाहरण के लिए, बायोमेडिकल आंकड़ों में अपनाई गई सख्त रूपरेखा, जो गलत सकारात्मक परिणामों के अनुपात को 5% से अधिक नहीं परिभाषित करती है, एक गंभीर आवश्यकता है, क्योंकि चिकित्सा अनुसंधान के परिणामों के आधार पर, नया उपचार पेश किया जाता है या अस्वीकार कर दिया जाता है, और यह है हजारों लोगों के जीवन का मामला।

यह ध्यान में रखना चाहिए कि पी मान स्वयं डॉक्टर के लिए बहुत जानकारीपूर्ण नहीं है, क्योंकि यह केवल शून्य परिकल्पना को गलत तरीके से खारिज करने की संभावना को इंगित करता है। यह संकेतक कुछ नहीं कहता है, उदाहरण के लिए, सामान्य आबादी में अध्ययन के तहत दवा का उपयोग करते समय चिकित्सीय प्रभाव के आकार के बारे में। इसलिए, एक राय है कि आत्मविश्वास की संभावना के स्तर के बजाय, आत्मविश्वास अंतराल के आकार के आधार पर अध्ययन के परिणामों का मूल्यांकन करना बेहतर होगा। एक आत्मविश्वास अंतराल मूल्यों की एक श्रृंखला है जिसके भीतर, एक निश्चित संभावना के साथ, वास्तविक जनसंख्या मूल्य (माध्य, माध्य या आवृत्ति के लिए) निहित होता है। व्यवहार में, इन दोनों मूल्यों का होना अधिक सुविधाजनक है, जो आपको संपूर्ण जनसंख्या के लिए प्राप्त परिणामों की प्रयोज्यता को अधिक आत्मविश्वास के साथ आंकने की अनुमति देता है।

अंत में, एक सांख्यिकीविद् या एक शोधकर्ता द्वारा उपयोग किए जाने वाले उपकरणों के बारे में कुछ शब्द कहे जाने चाहिए जो स्वतंत्र रूप से डेटा विश्लेषण करते हैं। मैन्युअल गणनाएँ बहुत पुरानी हो चुकी हैं। वर्तमान सांख्यिकीय कंप्यूटर प्रोग्राम गंभीर गणितीय प्रशिक्षण के बिना सांख्यिकीय विश्लेषण करना संभव बनाते हैं। एसपीएसएस, एसएएस, आर आदि जैसी शक्तिशाली प्रणालियाँ शोधकर्ता को जटिल और शक्तिशाली सांख्यिकीय तरीकों का उपयोग करने में सक्षम बनाती हैं। हालाँकि, यह हमेशा अच्छी बात नहीं होती है। विशिष्ट प्रयोगात्मक डेटा के लिए उपयोग किए जाने वाले सांख्यिकीय परीक्षणों की प्रयोज्यता की डिग्री को जाने बिना, शोधकर्ता गणना कर सकता है और कुछ आउटपुट नंबर भी प्राप्त कर सकता है, लेकिन परिणाम बहुत संदिग्ध होगा। इसलिए, प्रयोगात्मक परिणामों की सांख्यिकीय प्रसंस्करण करने के लिए एक शर्त आंकड़ों की गणितीय नींव का अच्छा ज्ञान होना चाहिए।


अनुप्रयुक्त सांख्यिकी में अनुसंधान का उद्देश्य अवलोकनों या प्रयोगों के परिणामस्वरूप प्राप्त सांख्यिकीय डेटा है। सांख्यिकीय डेटा वस्तुओं (अवलोकनों, मामलों) और संकेतों (चर) का एक संग्रह है जो उन्हें चित्रित करता है। डेटा विश्लेषण के सांख्यिकीय तरीकों का उपयोग मानव गतिविधि के लगभग सभी क्षेत्रों में किया जाता है। जब भी किसी समूह (वस्तुओं या विषयों) के बारे में कुछ आंतरिक विविधता वाले निर्णय प्राप्त करने और उन्हें उचित ठहराने के लिए आवश्यक होता है तो उनका उपयोग किया जाता है।

समूह ए से संबंधित डेटा विश्लेषण के सांख्यिकीय तरीकों को आमतौर पर लागू सांख्यिकी के तरीके कहा जाता है।

संख्यात्मक आँकड़े संख्याएँ, सदिश, फलन हैं। उन्हें गुणांकों द्वारा जोड़ा और गुणा किया जा सकता है। अतः संख्यात्मक सांख्यिकी में विभिन्न योगों का अत्यधिक महत्व होता है। किसी नमूने के यादृच्छिक तत्वों के योग का विश्लेषण करने के लिए गणितीय उपकरण बड़ी संख्या और केंद्रीय सीमा प्रमेय के (शास्त्रीय) नियम हैं।

गैर-संख्यात्मक सांख्यिकीय डेटा वर्गीकृत डेटा, विभिन्न प्रकार की विशेषताओं के वैक्टर, बाइनरी संबंध, सेट, फ़ज़ी सेट आदि हैं। उन्हें गुणांक द्वारा जोड़ा या गुणा नहीं किया जा सकता है।

सांख्यिकीय डेटा विश्लेषण में आम तौर पर क्रमिक रूप से, समानांतर में, या अधिक में निष्पादित कई प्रक्रियाएं और एल्गोरिदम शामिल होते हैं जटिल योजना. विशेष रूप से, निम्नलिखित चरणों को प्रतिष्ठित किया जा सकता है:

एक सांख्यिकीय अध्ययन की योजना बनाना;

एक इष्टतम या तर्कसंगत कार्यक्रम के अनुसार आवश्यक सांख्यिकीय डेटा के संग्रह का आयोजन करना (नमूना योजना बनाना, एक संगठनात्मक संरचना बनाना और सांख्यिकीविदों की एक टीम का चयन करना, प्रशिक्षण कर्मियों को जो डेटा एकत्र करेंगे, साथ ही डेटा नियंत्रक, आदि);

डेटा का प्रत्यक्ष संग्रह और कुछ मीडिया पर उनकी रिकॉर्डिंग (विषय क्षेत्र के कारणों से गलत डेटा के संग्रह और अस्वीकृति के गुणवत्ता नियंत्रण के साथ);

डेटा का प्राथमिक विवरण (विभिन्न नमूना विशेषताओं की गणना, वितरण कार्य, गैरपैरामीट्रिक घनत्व अनुमान, हिस्टोग्राम का निर्माण, सहसंबंध क्षेत्र, विभिन्न तालिकाएं और आरेख, आदि),

कुछ संख्यात्मक या गैर-संख्यात्मक विशेषताओं और वितरण के मापदंडों का मूल्यांकन (उदाहरण के लिए, भिन्नता के गुणांक का गैर-पैरामीट्रिक अंतराल अनुमान या प्रतिक्रिया और कारकों के बीच संबंध की बहाली, यानी फ़ंक्शन अनुमान),

सांख्यिकीय परिकल्पनाओं का परीक्षण करना (कभी-कभी उनकी शृंखलाएँ - पिछली परिकल्पना का परीक्षण करने के बाद, एक या किसी अन्य बाद की परिकल्पना का परीक्षण करने का निर्णय लिया जाता है),

अधिक गहन अध्ययन, अर्थात् बहुभिन्नरूपी सांख्यिकीय विश्लेषण, निदान और वर्गीकरण एल्गोरिदम, गैर-संख्यात्मक और अंतराल डेटा के आंकड़े, समय श्रृंखला विश्लेषण, आदि के लिए विभिन्न एल्गोरिदम का अनुप्रयोग;

प्राप्त अनुमानों और निष्कर्षों की स्थिरता की जाँच करना अनुमेय विचलनउपयोग किए गए संभाव्य सांख्यिकीय मॉडल के लिए प्रारंभिक डेटा और पूर्वापेक्षाएँ, विशेष रूप से, नमूना गुणन की विधि का उपयोग करके अनुमानों के गुणों का अध्ययन;

प्राप्त सांख्यिकीय परिणामों का व्यावहारिक उद्देश्यों के लिए उपयोग (उदाहरण के लिए, विशिष्ट सामग्रियों का निदान करने, पूर्वानुमान लगाने, चयन करने के लिए)। निवेश परियोजनाप्रस्तावित विकल्पों में से, कार्यान्वयन का इष्टतम तरीका खोजना तकनीकी प्रक्रिया, तकनीकी उपकरणों आदि के नमूनों के परीक्षण के परिणामों का सारांश,

सारांश रिपोर्ट तैयार करना, विशेष रूप से उन लोगों के लिए है जो प्रबंधन सहित डेटा विश्लेषण के सांख्यिकीय तरीकों में विशेषज्ञ नहीं हैं - "निर्णय निर्माता"।

विधियों में शामिल हैं:

सहसंबंध विश्लेषण। चर (यादृच्छिक चर) के बीच एक कार्यात्मक संबंध हो सकता है, जो इस तथ्य में प्रकट होता है कि उनमें से एक को दूसरे के कार्य के रूप में परिभाषित किया गया है। लेकिन चरों के बीच एक अन्य प्रकार का संबंध भी हो सकता है, जो इस तथ्य में प्रकट होता है कि उनमें से एक अपने वितरण कानून को बदलकर दूसरे में परिवर्तन पर प्रतिक्रिया करता है। ऐसे रिश्ते को स्टोकेस्टिक कहा जाता है। चरों के बीच निर्भरता के माप के रूप में, सहसंबंध गुणांक (आर) का उपयोग किया जाता है, जो - 1 से +1 तक भिन्न होता है। यदि सहसंबंध गुणांक नकारात्मक है, तो इसका मतलब है कि जैसे-जैसे एक चर का मान बढ़ता है, दूसरे का मान घटता जाता है। यदि चर स्वतंत्र हैं, तो सहसंबंध गुणांक 0 है (विपरीत केवल सामान्य वितरण वाले चर के लिए सत्य है)। लेकिन यदि सहसंबंध गुणांक 0 के बराबर नहीं है (चर को असंबद्ध कहा जाता है), तो इसका मतलब है कि चर के बीच निर्भरता है। आर मान 1 के जितना करीब होगा, निर्भरता उतनी ही मजबूत होगी। सहसंबंध गुणांक +1 या -1 के अपने सीमा मान तक पहुंचता है यदि और केवल यदि चर के बीच संबंध रैखिक है। सहसंबंध विश्लेषण हमें चर (यादृच्छिक चर) के बीच स्टोकेस्टिक संबंध की ताकत और दिशा स्थापित करने की अनुमति देता है।

प्रतिगमन विश्लेषण। प्रतिगमन विश्लेषण एक यादृच्छिक चर के एक या अधिक अन्य यादृच्छिक चर के संबंध को मॉडल करता है। इस मामले में, पहले चर को आश्रित कहा जाता है, और बाकी को स्वतंत्र कहा जाता है। आश्रित और स्वतंत्र चर का चुनाव या असाइनमेंट मनमाना (सशर्त) है और शोधकर्ता द्वारा उस समस्या के आधार पर किया जाता है जिसे वह हल कर रहा है। स्वतंत्र चर को कारक, प्रतिगामी या भविष्यवक्ता कहा जाता है, और आश्रित चर को परिणाम विशेषता या प्रतिक्रिया कहा जाता है।

यदि भविष्यवक्ताओं की संख्या 1 है, तो प्रतिगमन को सरल या एकल-कारक कहा जाता है; यदि भविष्यवक्ताओं की संख्या 1 से अधिक है, तो इसे एकाधिक या बहुकारक कहा जाता है। सामान्य तौर पर, प्रतिगमन मॉडल को इस प्रकार लिखा जा सकता है:

वाई = एफ (एक्स 1, एक्स 2, ..., एक्स एन),

जहां y आश्रित चर (प्रतिक्रिया) है, x i (i = 1,…, n) भविष्यवक्ता (कारक) हैं, n भविष्यवक्ताओं की संख्या है।

विहित विश्लेषण. कैनोनिकल विश्लेषण को वस्तुओं की विशेषता बताने वाली सुविधाओं (स्वतंत्र चर) की दो सूचियों के बीच निर्भरता का विश्लेषण करने के लिए डिज़ाइन किया गया है। उदाहरण के लिए, कोई भिन्न-भिन्न के बीच संबंधों का अध्ययन कर सकता है प्रतिकूल कारकऔर रोग के लक्षणों के एक निश्चित समूह की उपस्थिति, या रोगी के नैदानिक ​​​​और प्रयोगशाला संकेतकों (सिंड्रोम) के दो समूहों के बीच संबंध। विहित विश्लेषण एक चर और कई अन्य चर के बीच संबंध के माप के रूप में एकाधिक सहसंबंध का सामान्यीकरण है।

औसतों की तुलना करने की विधियाँ. व्यावहारिक अनुसंधान में, अक्सर ऐसे मामले होते हैं जब प्रयोगों की एक श्रृंखला की किसी विशेषता का औसत परिणाम दूसरी श्रृंखला के औसत परिणाम से भिन्न होता है। चूंकि औसत माप परिणाम हैं, एक नियम के रूप में, वे हमेशा भिन्न होते हैं; सवाल यह है कि क्या औसत में पाई गई विसंगति को अपरिहार्य यादृच्छिक प्रयोगात्मक त्रुटियों द्वारा समझाया जा सकता है या क्या यह कुछ कारणों से होता है। औसत परिणामों की तुलना चर विशेषताओं के बीच निर्भरता की पहचान करने के तरीकों में से एक है जो वस्तुओं (अवलोकनों) के अध्ययन किए गए सेट की विशेषता है। यदि, एक श्रेणीबद्ध स्वतंत्र चर (भविष्यवक्ता) का उपयोग करके अनुसंधान वस्तुओं को उपसमूहों में विभाजित करते समय, उपसमूहों में कुछ आश्रित चर के साधनों की असमानता के बारे में परिकल्पना सत्य है, तो इसका मतलब है कि इस आश्रित चर और श्रेणीबद्ध चर के बीच एक स्टोकेस्टिक संबंध है भविष्यवक्ता.

आवृत्ति विश्लेषण. फ़्रिक्वेंसी टेबल, या जैसा कि उन्हें सिंगल-इनपुट टेबल भी कहा जाता है, हैं सबसे सरल विधिश्रेणीबद्ध चर का विश्लेषण. इस प्रकारसांख्यिकीय अनुसंधान का उपयोग अक्सर खोजपूर्ण विश्लेषण प्रक्रियाओं में से एक के रूप में किया जाता है, यह देखने के लिए कि किसी नमूने में अवलोकनों के विभिन्न समूहों को कैसे वितरित किया जाता है, या किसी विशेषता का मान न्यूनतम से अधिकतम मान तक के अंतराल पर कैसे वितरित किया जाता है। क्रॉसटेब्यूलेशन (संयुग्मन) दो (या अधिक) आवृत्ति तालिकाओं के संयोजन की प्रक्रिया है ताकि निर्मित तालिका में प्रत्येक कोशिका को सारणीबद्ध चर के मूल्यों या स्तरों के एकल संयोजन द्वारा दर्शाया जाए। क्रॉसटेब्यूलेशन आपको विचाराधीन कारकों के विभिन्न स्तरों पर अवलोकनों की घटना की आवृत्तियों को संयोजित करने की अनुमति देता है।

पत्राचार विश्लेषण. आवृत्ति विश्लेषण की तुलना में पत्राचार विश्लेषण, दो-प्रविष्टि और बहु-प्रविष्टि तालिकाओं के विश्लेषण के लिए अधिक शक्तिशाली वर्णनात्मक और खोजपूर्ण तरीके प्रदान करता है। विधि, आकस्मिकता तालिकाओं की तरह, आपको तालिका में शामिल समूह चर की संरचना और संबंध का अध्ययन करने की अनुमति देती है।

क्लस्टर विश्लेषण। क्लस्टर विश्लेषण एक वर्गीकरण विश्लेषण पद्धति है; इसका मुख्य उद्देश्य अध्ययन के तहत वस्तुओं और विशेषताओं के समूह को ऐसे समूहों या समूहों में विभाजित करना है जो एक निश्चित अर्थ में सजातीय हैं। यह एक बहुभिन्नरूपी सांख्यिकीय पद्धति है, इसलिए यह माना जाता है कि मूल डेटा महत्वपूर्ण मात्रा का हो सकता है, अर्थात। शोध वस्तुओं (अवलोकनों) की संख्या और इन वस्तुओं की विशेषता बताने वाली विशेषताएं दोनों ही काफी बड़ी हो सकती हैं। क्लस्टर विश्लेषण का बड़ा लाभ यह है कि यह वस्तुओं को एक मानदंड के अनुसार नहीं, बल्कि कई विशेषताओं के अनुसार विभाजित करना संभव बनाता है। इसके अलावा, क्लस्टर विश्लेषण, अधिकांश गणितीय और सांख्यिकीय तरीकों के विपरीत, विचाराधीन वस्तुओं के प्रकार पर कोई प्रतिबंध नहीं लगाता है और लगभग मनमानी प्रकृति के विभिन्न प्रारंभिक डेटा का अध्ययन करने की अनुमति देता है।

विभेदक विश्लेषण। विभेदक विश्लेषण में ऐसी स्थिति में बहुभिन्नरूपी टिप्पणियों को वर्गीकृत करने के लिए सांख्यिकीय तरीके शामिल होते हैं जहां शोधकर्ता के पास तथाकथित प्रशिक्षण नमूने होते हैं। इस प्रकार का विश्लेषण बहुआयामी है, क्योंकि यह किसी वस्तु की कई विशेषताओं का उपयोग करता है, जिनकी संख्या मनमाने ढंग से बड़ी हो सकती है। विभेदक विश्लेषण का उद्देश्य माप के आधार पर करना है विभिन्न विशेषताएँकिसी वस्तु को वर्गीकृत करने के लिए उसके (संकेत) अर्थात्। कुछ इष्टतम तरीके से दिए गए कई समूहों (वर्गों) में से एक को सौंपा गया। इस मामले में, यह माना जाता है कि स्रोत डेटा में, वस्तुओं की विशेषताओं के साथ, एक श्रेणीबद्ध (समूहीकरण) चर होता है जो यह निर्धारित करता है कि वस्तु किसी विशेष समूह से संबंधित है या नहीं। कारक विश्लेषण। कारक विश्लेषण सबसे लोकप्रिय बहुभिन्नरूपी सांख्यिकीय तरीकों में से एक है। यदि क्लस्टर और विभेदक विधियाँ टिप्पणियों को वर्गीकृत करती हैं, तो उन्हें एकरूपता के समूहों में विभाजित करती हैं कारक विश्लेषणउन विशेषताओं (चर) को वर्गीकृत करता है जो अवलोकनों का वर्णन करते हैं। इसलिए, कारक विश्लेषण का मुख्य लक्ष्य चर के वर्गीकरण और उनके बीच संबंधों की संरचना का निर्धारण करने के आधार पर चर की संख्या को कम करना है।

वर्गीकरण वृक्ष. वर्गीकरण पेड़ वर्गीकरण विश्लेषण की एक विधि है जो किसी को यह अनुमान लगाने की अनुमति देती है कि वस्तुएं वस्तुओं की विशेषता वाले विशेषताओं के संबंधित मूल्यों के आधार पर किसी विशेष वर्ग से संबंधित हैं या नहीं। विशेषताओं को स्वतंत्र चर कहा जाता है, और वस्तुओं के वर्गों से संबंधित होने का संकेत देने वाले चर को आश्रित कहा जाता है। शास्त्रीय विभेदक विश्लेषण के विपरीत, वर्गीकरण वृक्ष चरों में एक-आयामी शाखाएँ निष्पादित करने में सक्षम हैं विभिन्न प्रकार केश्रेणीबद्ध, क्रमिक, अंतराल। मात्रात्मक चर के वितरण कानून पर कोई प्रतिबंध नहीं लगाया गया है। विभेदक विश्लेषण के अनुरूप, यह विधि वर्गीकरण प्रक्रिया में व्यक्तिगत चर के योगदान का विश्लेषण करना संभव बनाती है।

प्रमुख घटक विश्लेषण और वर्गीकरण. प्रमुख घटक विश्लेषण और वर्गीकरण विधि हमें इस समस्या को हल करने की अनुमति देती है और दो उद्देश्यों को पूरा करती है:

"मुख्य" और "गैर-सहसंबद्ध" चर प्राप्त करने के लिए चर की कुल संख्या को कम करना (डेटा में कमी);

निर्मित कारक स्थान का उपयोग करके चर और अवलोकनों का वर्गीकरण।

विधि की मुख्य समस्या का समाधान मूल से कम आयाम वाले अव्यक्त (छिपे हुए) चर (कारकों) का एक वेक्टर स्थान बनाकर प्राप्त किया जाता है। प्रारंभिक आयाम मूल डेटा में विश्लेषण करने के लिए चर की संख्या से निर्धारित होता है।

बहुआयामी स्केलिंग. इस विधि को कारक विश्लेषण के विकल्प के रूप में माना जा सकता है, जिसमें अव्यक्त (प्रत्यक्ष रूप से देखने योग्य नहीं) कारकों को अलग करके चर की संख्या में कमी हासिल की जाती है जो देखे गए चर के बीच संबंधों की व्याख्या करते हैं। बहुआयामी स्केलिंग का उद्देश्य अव्यक्त चर को ढूंढना और व्याख्या करना है जो उपयोगकर्ता को मूल फीचर स्पेस में दिए गए बिंदुओं के बीच समानताएं समझाने में सक्षम बनाता है। व्यवहार में वस्तुओं की समानता के संकेतक उनके बीच की दूरी या संबंध की डिग्री हो सकते हैं। कारक विश्लेषण में, चर के बीच समानताएं सहसंबंध गुणांक के मैट्रिक्स का उपयोग करके व्यक्त की जाती हैं। बहुआयामी स्केलिंग में, एक मनमाने प्रकार के ऑब्जेक्ट समानता मैट्रिक्स का उपयोग प्रारंभिक डेटा के रूप में किया जा सकता है: दूरियां, सहसंबंध, आदि।

संरचनात्मक समीकरण मॉडलिंग (कारण मॉडलिंग)। संरचनात्मक समीकरण मॉडलिंग का उद्देश्य जटिल प्रणालियाँ हैं जिनकी आंतरिक संरचना अज्ञात है ("ब्लैक बॉक्स")। संरचनात्मक समीकरण मॉडलिंग का मूल विचार यह है कि कोई यह परीक्षण कर सकता है कि चर Y और X उनके भिन्नताओं और सहप्रसरणों का विश्लेषण करके Y = aX द्वारा रैखिक रूप से संबंधित हैं या नहीं। यह विचार माध्य और विचरण के एक सरल गुण पर आधारित है: यदि आप प्रत्येक संख्या को किसी स्थिरांक k से गुणा करते हैं, तो माध्य भी k से गुणा हो जाएगा, और मानक विचलन मापांक k से गुणा हो जाएगा।

समय श्रृंखला। समय श्रृंखला गणितीय सांख्यिकी का सबसे गहन रूप से विकसित होने वाला, आशाजनक क्षेत्र है। समय (गतिशील) श्रृंखला से हमारा तात्पर्य क्रमिक समान दूरी वाले क्षणों t पर कुछ विशेषता X (यादृच्छिक चर) के अवलोकनों के अनुक्रम से है। व्यक्तिगत अवलोकनों को श्रृंखला के स्तर कहा जाता है और उन्हें xt, t = 1, …, n निर्दिष्ट किया जाता है। समय श्रृंखला का अध्ययन करते समय, कई घटकों को प्रतिष्ठित किया जाता है:

x t =u t +y t +c t +e t , t = 1, …, n,

जहां यह एक प्रवृत्ति है, एक सुचारू रूप से बदलता घटक है जो दीर्घकालिक कारकों (जनसंख्या में गिरावट, आय में कमी, आदि) के शुद्ध प्रभाव का वर्णन करता है; - मौसमी घटक, बहुत लंबी अवधि (दिन, सप्ताह, महीना, आदि) में प्रक्रियाओं की पुनरावृत्ति को दर्शाता है; сt - चक्रीय घटक, एक वर्ष से अधिक समय की लंबी अवधि में प्रक्रियाओं की पुनरावृत्ति को दर्शाता है; टी एक यादृच्छिक घटक है जो यादृच्छिक कारकों के प्रभाव को दर्शाता है जिसे ध्यान में नहीं रखा जा सकता है और पंजीकृत नहीं किया जा सकता है। पहले तीन घटक नियतिवादी घटक हैं।

तंत्रिका - तंत्र। तंत्रिका नेटवर्क एक कंप्यूटिंग प्रणाली है जिसकी वास्तुकला न्यूरॉन्स से तंत्रिका ऊतक के निर्माण के समान है। सबसे निचली परत के न्यूरॉन्स को इनपुट मापदंडों के मान प्रदान किए जाते हैं, जिसके आधार पर कुछ निर्णय लिए जाने चाहिए।

प्रयोगों की रूप रेखा। इन विधियों की क्षमताओं का पूरी तरह से दोहन करने के लिए अवलोकनों को एक निश्चित क्रम में व्यवस्थित करने या विशेष रूप से नियोजित परीक्षण करने की कला "प्रायोगिक योजना" के विषय की सामग्री है।

गुणवत्ता नियंत्रण कार्ड. उत्पादों और सेवाओं की गुणवत्ता वैज्ञानिक अनुसंधान, डिजाइन और तकनीकी विकास की प्रक्रिया में बनती है, और उत्पादन और सेवाओं के अच्छे संगठन द्वारा सुनिश्चित की जाती है। लेकिन उत्पादों का निर्माण और सेवाओं का प्रावधान, उनके प्रकार की परवाह किए बिना, हमेशा उत्पादन और प्रावधान की स्थितियों में एक निश्चित परिवर्तनशीलता से जुड़ा होता है। इससे उनकी गुणवत्ता विशेषताओं में कुछ परिवर्तनशीलता आती है। इसलिए, गुणवत्ता नियंत्रण विधियों को विकसित करने के मुद्दे प्रासंगिक हैं जो तकनीकी प्रक्रिया या सेवाओं के प्रावधान के उल्लंघन के संकेतों की समय पर पहचान करने की अनुमति देंगे।

एक सांख्यिकीय जनसंख्या की विभिन्न इकाइयाँ जिनमें काफी महत्वपूर्ण विशेषताओं पर एक दूसरे के साथ एक निश्चित समानता होती है, समूहीकरण विधि का उपयोग करके समूहों में जोड़ दी जाती हैं। यह तकनीक आपको अवलोकन के दौरान प्राप्त जानकारी को "संपीड़ित" करने की अनुमति देती है और इस आधार पर, अध्ययन की जा रही घटना में निहित पैटर्न स्थापित करती है।

हल करने के लिए समूहन विधि का प्रयोग किया जाता है विभिन्न कार्य, जिनमें से सबसे महत्वपूर्ण हैं:

1. सामाजिक-आर्थिक प्रकारों की पहचान

2. समान जनसंख्या की संरचना का निर्धारण

3. सामाजिक घटनाओं की व्यक्तिगत विशेषताओं के बीच संबंध और पैटर्न का खुलासा करना

इस संबंध में, 3 प्रकार के समूह हैं: टाइपोलॉजिकल, संरचनात्मक और विश्लेषणात्मक। समूहों को उनके कार्यान्वयन के रूप से अलग किया जाता है।

एक टाइपोलॉजिकल ग्रुपिंग गुणात्मक रूप से विषम सांख्यिकीय आबादी का एक विभाजन है जिसका अध्ययन वर्गों, सामाजिक-आर्थिक प्रकारों और इकाइयों के सजातीय समूहों में किया जाता है।

संरचनात्मक समूहन इकाइयों के गुणात्मक रूप से सजातीय समूह को कुछ आवश्यक विशेषताओं के अनुसार समूहों में विभाजित करते हैं जो इसकी संरचना और आंतरिक संरचना की विशेषता बताते हैं।

विश्लेषणात्मक समूह अध्ययन के तहत सामाजिक-आर्थिक घटनाओं और उन्हें चिह्नित करने वाली विशेषताओं के बीच संबंधों और परस्पर निर्भरता की स्थापना सुनिश्चित करते हैं। इस प्रकार के समूहन के माध्यम से, सजातीय घटनाओं के संकेतों के बीच कारण-और-प्रभाव संबंध स्थापित और अध्ययन किए जाते हैं, और एक सांख्यिकीय आबादी के विकास में कारक निर्धारित किए जाते हैं।

अनुप्रयुक्त सांख्यिकी में अनुसंधान का उद्देश्य अवलोकनों या प्रयोगों के परिणामस्वरूप प्राप्त सांख्यिकीय डेटा है। सांख्यिकीय डेटा वस्तुओं (अवलोकनों, मामलों) और संकेतों (चर) का एक सेट है जो उन्हें चित्रित करता है। उदाहरण के लिए, अनुसंधान की वस्तुएँ दुनिया के देश और उनकी विशेषताएँ, भौगोलिक और आर्थिक संकेतक हैं: महाद्वीप; समुद्र तल से ऊँचाई; औसत वार्षिक तापमान; जीवन की गुणवत्ता, प्रति व्यक्ति सकल घरेलू उत्पाद की हिस्सेदारी के मामले में सूची में देश का स्थान; स्वास्थ्य देखभाल, शिक्षा और सेना पर समाज का खर्च; औसत जीवन प्रत्याशा; बेरोजगारी, अशिक्षा का अनुपात; जीवन की गुणवत्ता सूचकांक, आदि।
चर वे मात्राएँ हैं जो माप के परिणामस्वरूप विभिन्न मान ले सकती हैं।
स्वतंत्र चर वे चर होते हैं जिनके मूल्यों को प्रयोग के दौरान बदला जा सकता है, जबकि आश्रित चर वे चर होते हैं जिनके मूल्यों को केवल मापा जा सकता है।
चरों को विभिन्न पैमानों पर मापा जा सकता है। पैमानों के बीच का अंतर उनकी सूचना सामग्री से निर्धारित होता है। निम्नलिखित प्रकार के पैमानों पर विचार किया जाता है, जो उनकी सूचना सामग्री के बढ़ते क्रम में प्रस्तुत किए जाते हैं: नाममात्र, क्रमसूचक, अंतराल, अनुपात पैमाना, निरपेक्ष। ये पैमाने अनुमेय गणितीय संक्रियाओं की संख्या में भी एक दूसरे से भिन्न होते हैं। "सबसे गरीब" पैमाना नाममात्र का है, क्योंकि एक भी अंकगणितीय ऑपरेशन परिभाषित नहीं है, जबकि "सबसे अमीर" निरपेक्ष है।
नाममात्र (वर्गीकरण) पैमाने पर मापन का अर्थ यह निर्धारित करना है कि कोई वस्तु (अवलोकन) किसी विशेष वर्ग से संबंधित है या नहीं। उदाहरण के लिए: लिंग, सेवा की शाखा, पेशा, महाद्वीप, आदि। इस पैमाने में, आप केवल कक्षाओं में वस्तुओं की संख्या - आवृत्ति और सापेक्ष आवृत्ति की गणना कर सकते हैं।
क्रमिक (रैंक) पैमाने पर मापन, सदस्यता वर्ग का निर्धारण करने के अलावा, आपको कुछ मामलों में एक दूसरे के साथ तुलना करके टिप्पणियों को व्यवस्थित करने की अनुमति देता है। हालाँकि, यह पैमाना कक्षाओं के बीच की दूरी निर्धारित नहीं करता है, बल्कि केवल यह निर्धारित करता है कि दोनों में से कौन सा अवलोकन बेहतर है। इसलिए, क्रमिक प्रयोगात्मक डेटा, भले ही उन्हें संख्याओं द्वारा दर्शाया गया हो, उन्हें संख्या नहीं माना जा सकता है और उन पर अंकगणितीय संचालन नहीं किया जा सकता है 5। इस स्केल में आप किसी वस्तु की आवृत्ति की गणना करने के अलावा, वस्तु की रैंक की गणना भी कर सकते हैं। क्रमिक पैमाने पर मापे गए चर के उदाहरण: छात्र ग्रेड, प्रतियोगिताओं में पुरस्कार, सैन्य रैंक, जीवन की गुणवत्ता की सूची में देश का स्थान, आदि। कभी-कभी नाममात्र और क्रमिक चर को श्रेणीबद्ध या समूहीकरण कहा जाता है, क्योंकि वे अध्ययन की वस्तुओं को उपसमूहों में विभाजित करने की अनुमति देते हैं।
अंतराल पैमाने पर मापते समय, प्रेक्षणों का क्रम इतनी सटीकता से किया जा सकता है कि उनमें से किन्हीं दो के बीच की दूरी ज्ञात हो। अंतराल पैमाना रैखिक परिवर्तनों (y = ax + b) तक अद्वितीय है। इसका मतलब यह है कि पैमाने का एक मनमाना संदर्भ बिंदु है - एक पारंपरिक शून्य। अंतराल पैमाने पर मापे गए चर के उदाहरण: तापमान, समय, समुद्र तल से ऊंचाई। किसी दिए गए पैमाने पर चर का उपयोग अवलोकनों के बीच की दूरी निर्धारित करने के लिए किया जा सकता है। दूरियाँ पूर्ण संख्याएँ हैं और उन पर कोई भी अंकगणितीय संक्रियाएँ निष्पादित की जा सकती हैं।
अनुपात पैमाना अंतराल पैमाने के समान है, लेकिन यह y = ax के रूप में परिवर्तन तक अद्वितीय है। इसका मतलब यह है कि पैमाने का एक निश्चित संदर्भ बिंदु होता है - पूर्ण शून्य, लेकिन माप का एक मनमाना पैमाना। अनुपात पैमाने पर मापे गए चर के उदाहरण: लंबाई, वजन, वर्तमान, धन की राशि, स्वास्थ्य देखभाल, शिक्षा, सैन्य, औसत जीवन प्रत्याशा आदि पर समाज का व्यय। इस पैमाने पर माप पूर्ण संख्याएँ हैं और उन पर कोई भी अंकगणितीय ऑपरेशन किया जा सकता है।
एक पूर्ण पैमाने में एक पूर्ण शून्य और माप की एक पूर्ण इकाई (स्केल) दोनों होती है। निरपेक्ष पैमाने का एक उदाहरण संख्या रेखा है। यह पैमाना आयामहीन है, इसलिए इस पर माप का उपयोग लघुगणक के घातांक या आधार के रूप में किया जा सकता है। पूर्ण पैमाने पर माप के उदाहरण: बेरोजगारी दर; निरक्षर लोगों का अनुपात, जीवन गुणवत्ता सूचकांक, आदि।
अधिकांश सांख्यिकीय विधियाँ पैरामीट्रिक सांख्यिकी के तरीकों से संबंधित हैं, जो इस धारणा पर आधारित हैं कि चर का एक यादृच्छिक वेक्टर कुछ बहुभिन्नरूपी वितरण बनाता है, जो आमतौर पर सामान्य या सामान्य वितरण में बदल जाता है। यदि इस धारणा की पुष्टि नहीं होती है, तो गणितीय सांख्यिकी के गैर-पैरामीट्रिक तरीकों का उपयोग किया जाना चाहिए।

सहसंबंध विश्लेषण।चर (यादृच्छिक चर) के बीच एक कार्यात्मक संबंध हो सकता है, जो इस तथ्य में प्रकट होता है कि उनमें से एक को दूसरे के कार्य के रूप में परिभाषित किया गया है। लेकिन चरों के बीच एक अन्य प्रकार का संबंध भी हो सकता है, जो इस तथ्य में प्रकट होता है कि उनमें से एक अपने वितरण कानून को बदलकर दूसरे में परिवर्तन पर प्रतिक्रिया करता है। ऐसे रिश्ते को स्टोकेस्टिक कहा जाता है। ऐसा तब प्रतीत होता है जब दोनों चरों को प्रभावित करने वाले सामान्य यादृच्छिक कारक होते हैं। चरों के बीच निर्भरता के माप के रूप में, सहसंबंध गुणांक (आर) का उपयोग किया जाता है, जो -1 से +1 तक भिन्न होता है। यदि सहसंबंध गुणांक नकारात्मक है, तो इसका मतलब है कि जैसे-जैसे एक चर का मान बढ़ता है, दूसरे का मान घटता जाता है। यदि चर स्वतंत्र हैं, तो सहसंबंध गुणांक 0 है (विपरीत केवल सामान्य वितरण वाले चर के लिए सत्य है)। लेकिन यदि सहसंबंध गुणांक 0 के बराबर नहीं है (चर को असंबद्ध कहा जाता है), तो इसका मतलब है कि चर के बीच निर्भरता है। आर मान 1 के जितना करीब होगा, निर्भरता उतनी ही मजबूत होगी। सहसंबंध गुणांक +1 या -1 के अपने सीमा मान तक पहुंचता है यदि और केवल तभी जब चर के बीच संबंध रैखिक हो। सहसंबंध विश्लेषण हमें चर (यादृच्छिक चर) के बीच स्टोकेस्टिक संबंध की ताकत और दिशा स्थापित करने की अनुमति देता है। यदि चर को कम से कम एक अंतराल पैमाने पर मापा जाता है और सामान्य रूप से वितरित किया जाता है, तो सहसंबंध विश्लेषण पियर्सन सहसंबंध गुणांक की गणना करके किया जाता है; अन्यथा, स्पीयरमैन, केंडल के ताऊ, या गामा सहसंबंध का उपयोग किया जाता है।

प्रतिगमन विश्लेषण।प्रतिगमन विश्लेषण एक यादृच्छिक चर के एक या अधिक अन्य यादृच्छिक चर के संबंध को मॉडल करता है। इस मामले में, पहले चर को आश्रित कहा जाता है, और बाकी को स्वतंत्र कहा जाता है। आश्रित और स्वतंत्र चर का चुनाव या असाइनमेंट मनमाना (सशर्त) है और शोधकर्ता द्वारा उस समस्या के आधार पर किया जाता है जिसे वह हल कर रहा है। स्वतंत्र चर को कारक, प्रतिगामी या भविष्यवक्ता कहा जाता है, और आश्रित चर को परिणाम विशेषता या प्रतिक्रिया कहा जाता है।
यदि भविष्यवक्ताओं की संख्या 1 है, तो प्रतिगमन को सरल या एकतरफा कहा जाता है; यदि भविष्यवक्ताओं की संख्या 1 से अधिक है, तो इसे एकाधिक या बहुक्रियात्मक कहा जाता है। सामान्य तौर पर, प्रतिगमन मॉडल को इस प्रकार लिखा जा सकता है:

वाई = एफ(एक्स 1, एक्स 2, …, एक्स एन),

जहां y आश्रित चर (प्रतिक्रिया) है, x i (i = 1,..., n) भविष्यवक्ता (कारक) हैं, n भविष्यवक्ताओं की संख्या है।
प्रतिगमन विश्लेषण का उपयोग करके, आप कई समस्याओं को हल कर सकते हैं जो अध्ययन के तहत समस्या के लिए महत्वपूर्ण हैं:
1). कारकों के भाग को एक चर - प्रतिक्रिया के साथ प्रतिस्थापित करके विश्लेषण किए गए चर (कारक स्थान) के स्थान के आयाम को कम करना। कारक विश्लेषण द्वारा यह समस्या अधिक पूर्णतः हल हो जाती है।
2). प्रत्येक कारक के प्रभाव का मात्रात्मक माप, अर्थात एकाधिक प्रतिगमन शोधकर्ता को यह पूछने (और संभावित उत्तर देने) की अनुमति देता है कि "सबसे अच्छा भविष्यवक्ता क्या है..."। साथ ही, प्रतिक्रिया पर व्यक्तिगत कारकों का प्रभाव स्पष्ट हो जाता है, और शोधकर्ता अध्ययन की जा रही घटना की प्रकृति को बेहतर ढंग से समझता है।
3). कारकों के कुछ मूल्यों के लिए अनुमानित प्रतिक्रिया मूल्यों की गणना, अर्थात्। प्रतिगमन विश्लेषण "क्या होगा यदि..." जैसे प्रश्नों के उत्तर प्राप्त करने के लिए एक कम्प्यूटेशनल प्रयोग का आधार बनाता है।
4). प्रतिगमन विश्लेषण में, कारण-और-प्रभाव तंत्र अधिक स्पष्ट रूप में प्रकट होता है। इस मामले में, पूर्वानुमान सार्थक व्याख्या के लिए बेहतर है।

विहित विश्लेषण.कैनोनिकल विश्लेषण को वस्तुओं की विशेषता बताने वाली सुविधाओं (स्वतंत्र चर) की दो सूचियों के बीच निर्भरता का विश्लेषण करने के लिए डिज़ाइन किया गया है। उदाहरण के लिए, आप विभिन्न प्रतिकूल कारकों और किसी बीमारी के लक्षणों के एक निश्चित समूह की उपस्थिति, या किसी रोगी के नैदानिक ​​​​और प्रयोगशाला मापदंडों (सिंड्रोम) के दो समूहों के बीच संबंध का अध्ययन कर सकते हैं। विहित विश्लेषण एक चर और कई अन्य चर के बीच संबंध के माप के रूप में एकाधिक सहसंबंध का सामान्यीकरण है। जैसा कि ज्ञात है, एकाधिक सहसंबंध एक चर और के बीच अधिकतम सहसंबंध है रैखिक प्रकार्यअन्य चर. इस अवधारणा को चर के सेटों के बीच कनेक्शन के मामले में सामान्यीकृत किया गया है - ऐसी विशेषताएं जो वस्तुओं की विशेषता बताती हैं। इस मामले में, खुद को विचार तक सीमित रखना ही काफी है बड़ी संख्या मेंप्रत्येक सेट से सबसे सहसंबद्ध रैखिक संयोजन। उदाहरण के लिए, मान लें कि चर के पहले सेट में विशेषताएँ y1, ..., ur शामिल हैं, दूसरे सेट में - x1, ..., xq शामिल हैं, तो इन सेटों के बीच संबंध को रैखिक संयोजनों के बीच सहसंबंध के रूप में मूल्यांकन किया जा सकता है a1y1 + a2y2 + ... + apyp, b1x1 + b2x2 + ... + bqxq, जिसे विहित सहसंबंध कहा जाता है। विहित विश्लेषण का कार्य भार गुणांकों को इस प्रकार ज्ञात करना है कि विहित सहसंबंध अधिकतम हो।

औसतों की तुलना करने की विधियाँ.व्यावहारिक अनुसंधान में, अक्सर ऐसे मामले होते हैं जब प्रयोगों की एक श्रृंखला की किसी विशेषता का औसत परिणाम दूसरी श्रृंखला के औसत परिणाम से भिन्न होता है। चूंकि औसत माप परिणाम हैं, एक नियम के रूप में, वे हमेशा भिन्न होते हैं; सवाल यह है कि क्या औसत में पाई गई विसंगति को अपरिहार्य यादृच्छिक प्रयोगात्मक त्रुटियों द्वारा समझाया जा सकता है या क्या यह कुछ कारणों से होता है। यदि हम दो औसतों की तुलना करने की बात कर रहे हैं तो छात्र परीक्षण (टी-टेस्ट) का उपयोग किया जा सकता है। यह एक पैरामीट्रिक मानदंड है, क्योंकि यह माना जाता है कि प्रयोगों की प्रत्येक श्रृंखला में विशेषता का सामान्य वितरण होता है। वर्तमान में, औसतों की तुलना के लिए गैर-पैरामीट्रिक मानदंडों का उपयोग करना फैशनेबल हो गया है।
औसत परिणामों की तुलना चर विशेषताओं के बीच निर्भरता की पहचान करने के तरीकों में से एक है जो वस्तुओं (अवलोकनों) के अध्ययन किए गए सेट की विशेषता है। यदि, एक श्रेणीबद्ध स्वतंत्र चर (भविष्यवक्ता) का उपयोग करके अनुसंधान वस्तुओं को उपसमूहों में विभाजित करते समय, उपसमूहों में कुछ आश्रित चर के साधनों की असमानता के बारे में परिकल्पना सत्य है, तो इसका मतलब है कि इस आश्रित चर और श्रेणीबद्ध चर के बीच एक स्टोकेस्टिक संबंध है भविष्यवक्ता. इसलिए, उदाहरण के लिए, यदि यह स्थापित हो जाता है कि गर्भावस्था के दौरान धूम्रपान करने वाली और धूम्रपान न करने वाली माताओं के समूह में बच्चों के शारीरिक और बौद्धिक विकास के औसत संकेतकों की समानता के बारे में परिकल्पना गलत है, तो इसका मतलब है कि के बीच एक संबंध है। गर्भावस्था के दौरान माँ का बच्चे का धूम्रपान करना और उसका बौद्धिक और शारीरिक विकास।
अधिकांश सामान्य विधिविचरण के साधन विश्लेषण की तुलना। एनोवा शब्दावली में, एक श्रेणीबद्ध भविष्यवक्ता को एक कारक कहा जाता है।
विचरण के विश्लेषण को एक पैरामीट्रिक, सांख्यिकीय पद्धति के रूप में परिभाषित किया जा सकता है जिसे एक प्रयोग के परिणाम पर विभिन्न कारकों के प्रभाव का मूल्यांकन करने के साथ-साथ प्रयोगों की बाद की योजना के लिए डिज़ाइन किया गया है। इसलिए, विचरण के विश्लेषण में कारकों की एक या अधिक गुणात्मक विशेषताओं पर मात्रात्मक विशेषता की निर्भरता का अध्ययन करना संभव है। यदि एक कारक पर विचार किया जाता है, तो विचरण का एक-तरफ़ा विश्लेषण उपयोग किया जाता है, अन्यथा विचरण का बहुक्रियात्मक विश्लेषण उपयोग किया जाता है।

आवृत्ति विश्लेषण.फ़्रिक्वेंसी टेबल, या एकल-प्रविष्टि टेबल, जैसा कि उन्हें भी कहा जाता है, श्रेणीबद्ध चर का विश्लेषण करने की सबसे सरल विधि है। मात्रात्मक चर की जांच करने के लिए आवृत्ति तालिकाओं का भी सफलतापूर्वक उपयोग किया जा सकता है, हालांकि वे परिणामों की व्याख्या करने में कठिनाइयों का कारण बन सकते हैं। इस प्रकार के सांख्यिकीय अनुसंधान का उपयोग अक्सर खोजपूर्ण विश्लेषण प्रक्रियाओं में से एक के रूप में किया जाता है ताकि यह देखा जा सके कि किसी नमूने में अवलोकनों के विभिन्न समूहों को कैसे वितरित किया जाता है, या किसी विशेषता का मूल्य न्यूनतम से अधिकतम मूल्य तक के अंतराल पर कैसे वितरित किया जाता है। आमतौर पर, आवृत्ति तालिकाओं को हिस्टोग्राम का उपयोग करके ग्राफिक रूप से चित्रित किया जाता है।

क्रॉसटेब्यूलेशन (संयुग्मन)- दो (या अधिक) आवृत्ति तालिकाओं के संयोजन की प्रक्रिया ताकि निर्मित तालिका में प्रत्येक कोशिका को सारणीबद्ध चर के मूल्यों या स्तरों के एकल संयोजन द्वारा दर्शाया जाए। क्रॉसटेब्यूलेशन आपको विचाराधीन कारकों के विभिन्न स्तरों पर अवलोकनों की घटना की आवृत्तियों को संयोजित करने की अनुमति देता है। इन आवृत्तियों की जांच करके, सारणीबद्ध चर के बीच कनेक्शन की पहचान करना और इस कनेक्शन की संरचना का पता लगाना संभव है। आमतौर पर, अपेक्षाकृत कम संख्या में मूल्यों वाले श्रेणीबद्ध या मात्रात्मक चर को सारणीबद्ध किया जाता है। यदि आपको एक सतत चर (मान लें कि रक्त शर्करा का स्तर) को सारणीबद्ध करने की आवश्यकता है, तो आपको पहले इसे फिर से कोड करना चाहिए, परिवर्तन की सीमा को छोटी संख्या में अंतरालों में विभाजित करना चाहिए (उदाहरण के लिए, स्तर: निम्न, मध्यम, उच्च)।

पत्राचार विश्लेषण.आवृत्ति विश्लेषण की तुलना में पत्राचार विश्लेषण, दो-प्रविष्टि और बहु-प्रविष्टि तालिकाओं के विश्लेषण के लिए अधिक शक्तिशाली वर्णनात्मक और खोजपूर्ण तरीके प्रदान करता है। विधि, आकस्मिकता तालिकाओं की तरह, आपको तालिका में शामिल समूह चर की संरचना और संबंध का अध्ययन करने की अनुमति देती है। शास्त्रीय पत्राचार विश्लेषण में, आकस्मिकता तालिका में आवृत्तियों को मानकीकृत (सामान्यीकृत) किया जाता है ताकि सभी कोशिकाओं में तत्वों का योग 1 के बराबर हो।
पत्राचार विश्लेषण का एक लक्ष्य सापेक्ष आवृत्तियों की तालिका की सामग्री को निम्न-आयामी स्थान में तालिका की व्यक्तिगत पंक्तियों और/या स्तंभों के बीच की दूरी के रूप में प्रस्तुत करना है।

क्लस्टर विश्लेषण।क्लस्टर विश्लेषण वर्गीकरण विश्लेषण की एक विधि है; इसका मुख्य उद्देश्य अध्ययन के तहत वस्तुओं और विशेषताओं के समूह को ऐसे समूहों या समूहों में विभाजित करना है जो एक निश्चित अर्थ में सजातीय हैं। यह एक बहुभिन्नरूपी सांख्यिकीय पद्धति है, इसलिए यह माना जाता है कि मूल डेटा महत्वपूर्ण मात्रा का हो सकता है, अर्थात। शोध वस्तुओं (अवलोकनों) की संख्या और इन वस्तुओं की विशेषता बताने वाली विशेषताएं दोनों ही काफी बड़ी हो सकती हैं। क्लस्टर विश्लेषण का बड़ा लाभ यह है कि यह वस्तुओं को एक मानदंड के अनुसार नहीं, बल्कि कई विशेषताओं के अनुसार विभाजित करना संभव बनाता है। इसके अलावा, क्लस्टर विश्लेषण, अधिकांश गणितीय और सांख्यिकीय तरीकों के विपरीत, विचाराधीन वस्तुओं के प्रकार पर कोई प्रतिबंध नहीं लगाता है और लगभग मनमानी प्रकृति के विभिन्न प्रारंभिक डेटा का अध्ययन करने की अनुमति देता है। चूँकि क्लस्टर समरूपता के समूह हैं, क्लस्टर विश्लेषण का कार्य वस्तुओं की विशेषताओं के आधार पर, उनके सेट को m (m एक पूर्णांक है) क्लस्टर में विभाजित करना है ताकि प्रत्येक वस्तु केवल एक विभाजन समूह से संबंधित हो। इस मामले में, एक क्लस्टर से संबंधित वस्तुएं सजातीय (समान) होनी चाहिए, और विभिन्न समूहों से संबंधित वस्तुएं विषम होनी चाहिए। यदि क्लस्टरिंग ऑब्जेक्ट्स को एन-आयामी फीचर स्पेस में बिंदुओं के रूप में दर्शाया जाता है (एन ऑब्जेक्ट्स को चिह्नित करने वाली सुविधाओं की संख्या है), तो ऑब्जेक्ट्स के बीच समानता बिंदुओं के बीच की दूरी की अवधारणा के माध्यम से निर्धारित की जाती है, क्योंकि यह सहज रूप से स्पष्ट है कि दूरी जितनी छोटी होगी वस्तुओं के बीच, वे जितनी अधिक समान होती हैं।

विभेदक विश्लेषण।विभेदक विश्लेषण में ऐसी स्थिति में बहुभिन्नरूपी टिप्पणियों को वर्गीकृत करने के लिए सांख्यिकीय तरीके शामिल होते हैं जहां शोधकर्ता के पास तथाकथित प्रशिक्षण नमूने होते हैं। इस प्रकार का विश्लेषण बहुआयामी है, क्योंकि यह किसी वस्तु की कई विशेषताओं का उपयोग करता है, जिनकी संख्या मनमाने ढंग से बड़ी हो सकती है। विभेदक विश्लेषण का उद्देश्य किसी वस्तु की विभिन्न विशेषताओं (विशेषताओं) के माप के आधार पर इसे वर्गीकृत करना है, अर्थात इसे कुछ इष्टतम तरीके से कई निर्दिष्ट समूहों (वर्गों) में से एक को निर्दिष्ट करना है। इस मामले में, यह माना जाता है कि स्रोत डेटा में, वस्तुओं की विशेषताओं के साथ, एक श्रेणीबद्ध (समूहीकरण) चर होता है जो यह निर्धारित करता है कि वस्तु किसी विशेष समूह से संबंधित है या नहीं। इसलिए, विभेदक विश्लेषण में मूल अनुभवजन्य वर्गीकरण के साथ विधि द्वारा किए गए वर्गीकरण की स्थिरता की जांच करना शामिल है। इष्टतम विधि को या तो नुकसान की न्यूनतम गणितीय अपेक्षा, या गलत वर्गीकरण की न्यूनतम संभावना के रूप में समझा जाता है। सामान्य मामले में, भेदभाव (भेदभाव) की समस्या निम्नानुसार तैयार की जाती है। मान लीजिए किसी वस्तु के अवलोकन का परिणाम एक k-आयामी यादृच्छिक वेक्टर X = (X1, X2, ..., XK) का निर्माण है, जहां X1, X2, ..., XK वस्तु की विशेषताएं हैं। एक नियम स्थापित करना आवश्यक है जिसके अनुसार, वेक्टर एक्स के समन्वय मूल्यों के आधार पर, ऑब्जेक्ट को संभावित सेट i, i = 1, 2, ..., n में से एक को सौंपा गया है। भेदभाव के तरीकों को पैरामीट्रिक और गैर-पैरामीट्रिक में विभाजित किया जा सकता है। पैरामीट्रिक में, यह ज्ञात है कि प्रत्येक जनसंख्या में फ़ीचर वैक्टर का वितरण सामान्य है, लेकिन इन वितरणों के मापदंडों के बारे में कोई जानकारी नहीं है। गैर-पैरामीट्रिक भेदभाव विधियों के लिए सटीक ज्ञान की आवश्यकता नहीं होती है कार्यात्मक रूपवितरण और आबादी के बारे में महत्वहीन प्राथमिक जानकारी के आधार पर भेदभाव की समस्याओं को हल करने की अनुमति देता है, जो व्यावहारिक अनुप्रयोगों के लिए विशेष रूप से मूल्यवान है। यदि विभेदक विश्लेषण की प्रयोज्यता की शर्तें पूरी होती हैं - स्वतंत्र चर-चिह्न (उन्हें भविष्यवक्ता भी कहा जाता है) को कम से कम अंतराल पैमाने पर मापा जाना चाहिए, उनका वितरण सामान्य कानून के अनुरूप होना चाहिए, शास्त्रीय विभेदक विश्लेषण का उपयोग करना आवश्यक है , अन्यथा - विभेदक विश्लेषण के सामान्य मॉडल की विधि।

कारक विश्लेषण।कारक विश्लेषण सबसे लोकप्रिय बहुभिन्नरूपी सांख्यिकीय तरीकों में से एक है। यदि क्लस्टर और विभेदक विधियाँ टिप्पणियों को वर्गीकृत करती हैं, उन्हें एकरूपता के समूहों में विभाजित करती हैं, तो कारक विश्लेषण टिप्पणियों का वर्णन करने वाली विशेषताओं (चर) को वर्गीकृत करता है। इसलिए, कारक विश्लेषण का मुख्य लक्ष्य चर के वर्गीकरण और उनके बीच संबंधों की संरचना का निर्धारण करने के आधार पर चर की संख्या को कम करना है। छुपे हुए (अव्यक्त) सामान्य कारकों की पहचान करके कमी प्राप्त की जाती है जो वस्तु की देखी गई विशेषताओं के बीच संबंधों को समझाते हैं, अर्थात। चर के मूल सेट के बजाय, चयनित कारकों के अनुसार डेटा का विश्लेषण करना संभव होगा, जिनकी संख्या परस्पर संबंधित चर की मूल संख्या से काफी कम है।

वर्गीकरण वृक्ष.वर्गीकरण पेड़ वर्गीकरण विश्लेषण की एक विधि है जो किसी को यह अनुमान लगाने की अनुमति देती है कि वस्तुएं वस्तुओं की विशेषता वाले विशेषताओं के संबंधित मूल्यों के आधार पर किसी विशेष वर्ग से संबंधित हैं या नहीं। विशेषताओं को स्वतंत्र चर कहा जाता है, और वस्तुओं के वर्गों से संबंधित होने का संकेत देने वाले चर को आश्रित कहा जाता है। शास्त्रीय विभेदक विश्लेषण के विपरीत, वर्गीकरण वृक्ष विभिन्न प्रकार के चरों में एक-आयामी शाखाकरण करने में सक्षम हैं: श्रेणीबद्ध, क्रमिक और अंतराल। मात्रात्मक चर के वितरण कानून पर कोई प्रतिबंध नहीं लगाया गया है। विभेदक विश्लेषण के अनुरूप, यह विधि वर्गीकरण प्रक्रिया में व्यक्तिगत चर के योगदान का विश्लेषण करना संभव बनाती है। पेड़ों का वर्गीकरण बहुत जटिल हो सकता है और कभी-कभी होता भी है। हालाँकि, विशेष ग्राफिकल प्रक्रियाओं का उपयोग बहुत जटिल पेड़ों के लिए भी परिणामों की व्याख्या को सरल बनाना संभव बनाता है। परिणामों की चित्रमय प्रस्तुति की संभावना और व्याख्या में आसानी बड़े पैमाने पर लागू क्षेत्रों में वर्गीकरण पेड़ों की महान लोकप्रियता को समझाती है, हालांकि, वर्गीकरण पेड़ों के सबसे महत्वपूर्ण विशिष्ट गुण उनकी पदानुक्रम और व्यापक प्रयोज्यता हैं। विधि की संरचना ऐसी है कि उपयोगकर्ता को न्यूनतम वर्गीकरण त्रुटियों को प्राप्त करते हुए, नियंत्रित मापदंडों का उपयोग करके मनमानी जटिलता के पेड़ बनाने का अवसर मिलता है। लेकिन एक जटिल पेड़ का उपयोग करते हुए, निर्णय नियमों के बड़े सेट के कारण, किसी नई वस्तु को वर्गीकृत करना मुश्किल है। इसलिए, वर्गीकरण वृक्ष का निर्माण करते समय, उपयोगकर्ता को वृक्ष की जटिलता और वर्गीकरण प्रक्रिया की जटिलता के बीच एक उचित समझौता खोजना होगा। वर्गीकरण पेड़ों की प्रयोज्यता की विस्तृत श्रृंखला उन्हें डेटा विश्लेषण के लिए एक बहुत ही आकर्षक उपकरण बनाती है, लेकिन यह नहीं माना जाना चाहिए कि इसे पारंपरिक वर्गीकरण विश्लेषण विधियों के स्थान पर उपयोग के लिए अनुशंसित किया गया है। इसके विपरीत, यदि पारंपरिक तरीकों द्वारा लगाए गए अधिक कठोर सैद्धांतिक मान्यताओं को पूरा किया जाता है और नमूना वितरण में कुछ है विशेष गुण(उदाहरण के लिए, चर का वितरण सामान्य कानून से मेल खाता है), तो पारंपरिक तरीकों का उपयोग अधिक प्रभावी होगा। हालाँकि, खोजपूर्ण विश्लेषण की एक विधि के रूप में या अंतिम उपाय के रूप में जब सभी विफल हो जाते हैं पारंपरिक तरीके,कई शोधकर्ताओं के अनुसार, पेड़ों का वर्गीकरण, कोई समान नहीं है।

प्रमुख घटक विश्लेषण और वर्गीकरण.व्यवहार में, उच्च-आयामी डेटा का विश्लेषण करने का कार्य अक्सर उठता है। प्रमुख घटक विश्लेषण और वर्गीकरण विधि हमें इस समस्या को हल करने की अनुमति देती है और दो उद्देश्यों को पूरा करती है:
- "मुख्य" और "गैर-सहसंबंधित" चर प्राप्त करने के लिए चर की कुल संख्या (डेटा में कमी) को कम करना;
- निर्माण किए जा रहे कारक स्थान का उपयोग करके चर और अवलोकनों का वर्गीकरण।
यह विधि हल की जा रही समस्याओं के निर्माण में कारक विश्लेषण के समान है, लेकिन इसमें कई महत्वपूर्ण अंतर हैं:
- प्रमुख घटकों का विश्लेषण करते समय, कारकों को निकालने के लिए पुनरावृत्त तरीकों का उपयोग नहीं किया जाता है;
- प्रमुख घटकों को निकालने के लिए उपयोग किए जाने वाले सक्रिय चर और अवलोकनों के साथ, आप सहायक चर और/या अवलोकन निर्दिष्ट कर सकते हैं; फिर सहायक चर और अवलोकनों को सक्रिय चर और अवलोकनों से गणना किए गए कारक स्थान पर प्रक्षेपित किया जाता है;
- सूचीबद्ध क्षमताएं विधि को चर और अवलोकन दोनों को वर्गीकृत करने के लिए एक शक्तिशाली उपकरण के रूप में उपयोग करने की अनुमति देती हैं।
विधि की मुख्य समस्या का समाधान मूल से कम आयाम वाले अव्यक्त (छिपे हुए) चर (कारकों) का एक वेक्टर स्थान बनाकर प्राप्त किया जाता है। प्रारंभिक आयाम मूल डेटा में विश्लेषण करने के लिए चर की संख्या से निर्धारित होता है।

बहुआयामी स्केलिंग. इस विधि को कारक विश्लेषण के विकल्प के रूप में माना जा सकता है, जिसमें अव्यक्त (प्रत्यक्ष रूप से देखने योग्य नहीं) कारकों को अलग करके चर की संख्या में कमी हासिल की जाती है जो देखे गए चर के बीच संबंधों की व्याख्या करते हैं। बहुआयामी स्केलिंग का उद्देश्य अव्यक्त चर को ढूंढना और व्याख्या करना है जो उपयोगकर्ता को मूल फीचर स्पेस में दिए गए बिंदुओं के बीच समानताएं समझाने में सक्षम बनाता है। व्यवहार में वस्तुओं की समानता के संकेतक उनके बीच की दूरी या संबंध की डिग्री हो सकते हैं। कारक विश्लेषण में, चर के बीच समानताएं सहसंबंध गुणांक के मैट्रिक्स का उपयोग करके व्यक्त की जाती हैं। बहुआयामी स्केलिंग में, एक मनमाने प्रकार के ऑब्जेक्ट समानता मैट्रिक्स का उपयोग प्रारंभिक डेटा के रूप में किया जा सकता है: दूरियां, सहसंबंध, आदि। इस तथ्य के बावजूद कि अध्ययन किए जा रहे प्रश्नों की प्रकृति में कई समानताएं हैं, बहुआयामी स्केलिंग और कारक विश्लेषण के तरीकों में कई महत्वपूर्ण अंतर हैं। इस प्रकार, कारक विश्लेषण के लिए आवश्यक है कि अध्ययन के तहत डेटा एक बहुभिन्नरूपी सामान्य वितरण के अधीन हो, और संबंध रैखिक होने चाहिए। बहुआयामी स्केलिंग ऐसे प्रतिबंध नहीं लगाती है; यह तब लागू हो सकता है जब वस्तुओं की जोड़ीदार समानता का मैट्रिक्स दिया गया हो। प्राप्त परिणामों में अंतर के संदर्भ में, कारक विश्लेषण बहुआयामी स्केलिंग की तुलना में अधिक कारकों - अव्यक्त चर को निकालने का प्रयास करता है। इसलिए, बहुआयामी स्केलिंग अक्सर व्याख्या करने में आसान समाधान की ओर ले जाती है। अधिक महत्वपूर्ण बात यह है कि, हालांकि, बहुआयामी स्केलिंग को किसी भी प्रकार की दूरी या समानता पर लागू किया जा सकता है, जबकि कारक विश्लेषण के लिए आवश्यक है कि चर के सहसंबंध मैट्रिक्स को इनपुट के रूप में उपयोग किया जाए, या सहसंबंध मैट्रिक्स की गणना पहले इनपुट डेटा की फ़ाइल से की जाए। बहुआयामी स्केलिंग की मूल धारणा यह है कि आवश्यक बुनियादी विशेषताओं का एक निश्चित मीट्रिक स्थान है जो वस्तुओं के जोड़े के बीच निकटता पर प्राप्त अनुभवजन्य डेटा के आधार के रूप में कार्य करता है। इसलिए, इस स्थान में वस्तुओं को बिंदुओं के रूप में दर्शाया जा सकता है। यह भी माना जाता है कि जो वस्तुएं (मूल मैट्रिक्स के अनुसार) करीब हैं, वे बुनियादी विशेषताओं के स्थान में छोटी दूरी के अनुरूप हैं। इसलिए, बहुआयामी स्केलिंग वस्तुओं की निकटता पर अनुभवजन्य डेटा का विश्लेषण करने के तरीकों का एक सेट है, जिसकी मदद से किसी दिए गए सार्थक कार्य के लिए आवश्यक मापी गई वस्तुओं की विशेषताओं के स्थान का आयाम निर्धारित किया जाता है और बिंदुओं का विन्यास निर्धारित किया जाता है। इस स्थान में (ऑब्जेक्ट्स) का निर्माण किया गया है। यह स्थान ("बहुआयामी पैमाना") इस अर्थ में आमतौर पर उपयोग किए जाने वाले पैमानों के समान है कि मापी गई वस्तुओं की आवश्यक विशेषताओं के मान अंतरिक्ष के अक्षों पर कुछ स्थितियों के अनुरूप होते हैं। बहुआयामी स्केलिंग के तर्क को निम्नलिखित द्वारा चित्रित किया जा सकता है सरल उदाहरण. आइए मान लें कि कुछ शहरों के बीच जोड़ीवार दूरियों (यानी, कुछ विशेषताओं की समानता) का एक मैट्रिक्स है। मैट्रिक्स का विश्लेषण करते हुए, दो-आयामी अंतरिक्ष (एक विमान पर) में शहरों के निर्देशांक के साथ बिंदुओं का पता लगाना आवश्यक है, उनके बीच की वास्तविक दूरी को यथासंभव संरक्षित करना। विमान पर बिंदुओं के परिणामी स्थान को बाद में अनुमानित के रूप में उपयोग किया जा सकता है भौगोलिक मानचित्र. सामान्य मामले में, बहुआयामी स्केलिंग किसी को वस्तुओं (हमारे उदाहरण में शहर) को कुछ छोटे आयाम (इस मामले में यह दो के बराबर है) के स्थान में व्यवस्थित करने की अनुमति देती है ताकि उनके बीच देखी गई दूरियों को पर्याप्त रूप से पुन: पेश किया जा सके। परिणामस्वरूप, इन दूरियों को पाए गए अव्यक्त चर के संदर्भ में मापा जा सकता है। इसलिए, हमारे उदाहरण में, हम जोड़ी के संदर्भ में दूरियों की व्याख्या कर सकते हैं भौगोलिक निर्देशांकउत्तर/दक्षिण और पूर्व/पश्चिम।

संरचनात्मक समीकरण मॉडलिंग (कारण मॉडलिंग)।बहुभिन्नरूपी सांख्यिकीय विश्लेषण और सहसंबंध संरचनाओं के विश्लेषण के क्षेत्र में हालिया प्रगति, नवीनतम कम्प्यूटेशनल एल्गोरिदम के साथ मिलकर, एक नई, लेकिन पहले से ही मान्यता प्राप्त तकनीक, संरचनात्मक समीकरण मॉडलिंग (SEPATH) के निर्माण के लिए शुरुआती बिंदु के रूप में कार्य करती है। बहुभिन्नरूपी विश्लेषण की इस असामान्य रूप से शक्तिशाली तकनीक में सांख्यिकी के विभिन्न क्षेत्रों के तरीके शामिल हैं, एकाधिक प्रतिगमन और कारक विश्लेषण स्वाभाविक रूप से यहां विकसित और संयोजित किए गए थे।
संरचनात्मक समीकरण मॉडलिंग का उद्देश्य जटिल प्रणालियाँ हैं जिनकी आंतरिक संरचना अज्ञात है ("ब्लैक बॉक्स")। SEPATH का उपयोग करके सिस्टम के मापदंडों का अवलोकन करके, आप इसकी संरचना का पता लगा सकते हैं और सिस्टम के तत्वों के बीच कारण-और-प्रभाव संबंध स्थापित कर सकते हैं।
संरचनात्मक मॉडलिंग समस्या का सूत्रीकरण इस प्रकार है। मान लीजिए कि ऐसे चर हैं जिनके लिए सांख्यिकीय क्षण ज्ञात हैं, उदाहरण के लिए, नमूना सहसंबंध या सहप्रसरण गुणांक का एक मैट्रिक्स। ऐसे चरों को स्पष्ट कहा जाता है। वे एक जटिल प्रणाली की विशेषताएँ हो सकते हैं। देखे गए स्पष्ट चरों के बीच वास्तविक संबंध काफी जटिल हो सकते हैं, लेकिन हम मानते हैं कि कई छिपे हुए चर हैं जो इन संबंधों की संरचना को कुछ हद तक सटीकता के साथ समझाते हैं। इस प्रकार, अव्यक्त चर की सहायता से, स्पष्ट और अंतर्निहित चर के बीच संबंधों का एक मॉडल बनाया जाता है। कुछ समस्याओं में, अव्यक्त चर को कारण के रूप में और स्पष्ट को परिणाम के रूप में माना जा सकता है, इसलिए, ऐसे मॉडल को कारण कहा जाता है। यह माना जाता है कि छिपे हुए चर, बदले में, एक दूसरे से संबंधित हो सकते हैं। कनेक्शन की संरचना काफी जटिल मानी जाती है, लेकिन इसके प्रकार का अनुमान लगाया गया है - ये रैखिक समीकरणों द्वारा वर्णित कनेक्शन हैं। रैखिक मॉडल के कुछ पैरामीटर ज्ञात हैं, कुछ नहीं हैं, और मुक्त पैरामीटर हैं।
संरचनात्मक समीकरण मॉडलिंग का मूल विचार यह है कि कोई यह परीक्षण कर सकता है कि चर Y और X उनके भिन्नताओं और सहप्रसरणों का विश्लेषण करके Y = aX द्वारा रैखिक रूप से संबंधित हैं या नहीं। यह विचार माध्य और विचरण के एक सरल गुण पर आधारित है: यदि आप प्रत्येक संख्या को किसी स्थिरांक k से गुणा करते हैं, तो माध्य भी k से गुणा हो जाएगा, और मानक विचलन मापांक k से गुणा हो जाएगा। उदाहरण के लिए, तीन संख्याओं 1, 2, 3 के एक सेट पर विचार करें। इन संख्याओं का माध्य 2 और मानक विचलन 1 है। यदि आप तीनों संख्याओं को 4 से गुणा करते हैं, तो आप आसानी से गणना कर सकते हैं कि माध्य 8 है, मानक विचलन 4 है, और प्रसरण 16 है। इस प्रकार, यदि संबंध Y = 4X से संबंधित संख्या X और Y के सेट हैं, तो Y का प्रसरण X के प्रसरण से 16 गुना अधिक होना चाहिए। इसलिए, हम परीक्षण कर सकते हैं परिकल्पना कि Y और X संबंधित समीकरण Y = 4X हैं, चर Y और X के प्रसरणों की तुलना करते हुए। यह विचार हो सकता है विभिन्न तरीकेरैखिक समीकरणों की एक प्रणाली से संबंधित कई चरों के लिए सामान्यीकृत। साथ ही, परिवर्तन नियम अधिक बोझिल हो जाते हैं, गणनाएँ अधिक जटिल हो जाती हैं, लेकिन मूल विचार वही रहता है - आप यह जांच सकते हैं कि चर उनके भिन्नताओं और सहप्रसरणों का अध्ययन करके रैखिक रूप से संबंधित हैं या नहीं।

उत्तरजीविता विश्लेषण के तरीके।उत्तरजीविता विश्लेषण विधियां मूल रूप से चिकित्सा, जैविक अनुसंधान और बीमा में विकसित की गईं, लेकिन फिर सामाजिक और आर्थिक विज्ञान के साथ-साथ उद्योग में भी व्यापक रूप से उपयोग की जाने लगीं। इंजीनियरिंग समस्याएं(विश्वसनीयता और विफलता समय का विश्लेषण)। कल्पना कीजिए कि किसी नए उपचार या दवा की प्रभावशीलता का अध्ययन किया जा रहा है। जाहिर है, सबसे महत्वपूर्ण और वस्तुनिष्ठ विशेषता क्लिनिक में प्रवेश के क्षण से रोगियों की औसत जीवन प्रत्याशा या रोग से मुक्ति की औसत अवधि है। औसत उत्तरजीविता या छूट समय का वर्णन करने के लिए मानक पैरामीट्रिक और गैर-पैरामीट्रिक तरीकों का उपयोग किया जा सकता है। हालाँकि, विश्लेषण किए गए डेटा में एक महत्वपूर्ण विशेषता है - ऐसे मरीज़ हो सकते हैं जो संपूर्ण अवलोकन अवधि के दौरान जीवित रहे, और उनमें से कुछ में बीमारी अभी भी दूर हो रही है। रोगियों का एक समूह भी बन सकता है, जिनसे प्रयोग समाप्त होने से पहले संपर्क टूट गया था (उदाहरण के लिए, उन्हें अन्य क्लीनिकों में स्थानांतरित कर दिया गया था)। माध्य का अनुमान लगाने के लिए मानक तरीकों का उपयोग करते हुए, रोगियों के इस समूह को बाहर करना होगा, जिससे कड़ी मेहनत से अर्जित महत्वपूर्ण जानकारी खो जाएगी। इसके अलावा, इनमें से अधिकांश मरीज़ उस समय के दौरान जीवित बचे (ठीक हुए) हैं जब उनका पालन किया गया था, जो नए उपचार (दवा) के पक्ष में सबूत प्रदान करता है। इस प्रकार की जानकारी, जब हमारी रुचि की घटना के घटित होने के बारे में कोई डेटा नहीं होता है, अधूरी कहलाती है। यदि हमारे लिए रुचि की किसी घटना के घटित होने के बारे में डेटा है, तो जानकारी को पूर्ण कहा जाता है। जिन अवलोकनों में अधूरी जानकारी होती है उन्हें सेंसर किए गए अवलोकन कहा जाता है। सेंसर किए गए अवलोकन विशिष्ट होते हैं जब देखी गई मात्रा किसी महत्वपूर्ण घटना के घटित होने तक के समय का प्रतिनिधित्व करती है, और अवलोकन की अवधि समय में सीमित होती है। सेंसर किए गए अवलोकनों का उपयोग विचाराधीन विधि-अस्तित्व विश्लेषण के लिए विशिष्ट है। में यह विधिमहत्वपूर्ण घटनाओं की क्रमिक घटनाओं के बीच समय अंतराल की संभाव्य विशेषताओं का अध्ययन किया जाता है। इस प्रकार के शोध को समाप्ति के क्षण तक की अवधि का विश्लेषण कहा जाता है, जिसे किसी वस्तु के अवलोकन की शुरुआत और समाप्ति के क्षण के बीच के समय अंतराल के रूप में परिभाषित किया जा सकता है, जिस पर वस्तु अवलोकन के लिए निर्दिष्ट गुणों को पूरा करना बंद कर देती है। शोध का उद्देश्य समाप्ति तक की अवधि से जुड़ी सशर्त संभावनाओं को निर्धारित करना है। जीवन तालिकाओं का निर्माण, उत्तरजीविता वितरण को फिट करना, और कपलान-मेयर प्रक्रिया का उपयोग करके उत्तरजीविता फ़ंक्शन का अनुमान लगाना सेंसर किए गए डेटा का अध्ययन करने के लिए वर्णनात्मक तरीके हैं। प्रस्तावित तरीकों में से कुछ दो या दो से अधिक समूहों में जीवित रहने की तुलना की अनुमति देते हैं। अंत में, उत्तरजीविता विश्लेषण में जीवन काल के समान मूल्यों के साथ बहुभिन्नरूपी निरंतर चर के बीच संबंधों का अनुमान लगाने के लिए प्रतिगमन मॉडल शामिल हैं।
विभेदक विश्लेषण के सामान्य मॉडल. यदि विभेदक विश्लेषण (डीए) की प्रयोज्यता की शर्तें पूरी नहीं होती हैं - स्वतंत्र चर (भविष्यवक्ता) को कम से कम अंतराल पैमाने पर मापा जाना चाहिए, उनका वितरण सामान्य कानून के अनुरूप होना चाहिए, विभेदक के सामान्य मॉडल का उपयोग करना आवश्यक है विश्लेषण (जीडीए) विधि। विधि का नाम इसलिए रखा गया है क्योंकि यह विभेदक कार्यों का विश्लेषण करने के लिए एक सामान्य रैखिक मॉडल (जीएलएम) का उपयोग करता है। इस मॉड्यूल में, विभेदक फ़ंक्शन विश्लेषण को एक सामान्य बहुभिन्नरूपी रैखिक मॉडल के रूप में देखा जाता है जिसमें श्रेणीबद्ध आश्रित चर (प्रतिक्रिया) को प्रत्येक अवलोकन के लिए अलग-अलग समूहों को दर्शाने वाले कोड वाले वैक्टर द्वारा दर्शाया जाता है। शास्त्रीय विभेदक विश्लेषण की तुलना में ओडीए पद्धति के कई महत्वपूर्ण फायदे हैं। उदाहरण के लिए, प्रयुक्त भविष्यवक्ता के प्रकार (श्रेणीबद्ध या निरंतर) या परिभाषित किए जा रहे मॉडल के प्रकार पर कोई प्रतिबंध नहीं है; भविष्यवक्ताओं का चरणबद्ध चयन और भविष्यवक्ताओं के सर्वोत्तम उपसमूह का चयन संभव है; यदि कोई क्रॉस-सत्यापन नमूना है डेटा फ़ाइल में, भविष्यवक्ताओं के सर्वोत्तम उपसमूह का चयन क्रॉस-सत्यापन नमूने आदि के लिए अनुपात गलत वर्गीकरण पर आधारित हो सकता है।

समय श्रृंखला।समय श्रृंखला गणितीय सांख्यिकी का सबसे गहन रूप से विकसित होने वाला, आशाजनक क्षेत्र है। समय (गतिशील) श्रृंखला से हमारा तात्पर्य क्रमिक समान दूरी वाले क्षणों t पर कुछ विशेषता X (यादृच्छिक चर) के अवलोकनों के अनुक्रम से है। व्यक्तिगत अवलोकनों को श्रृंखला के स्तर कहा जाता है और उन्हें xt, t = 1, …, n निर्दिष्ट किया जाता है। समय श्रृंखला का अध्ययन करते समय, कई घटकों को प्रतिष्ठित किया जाता है:
x t =u t +y t +c t +e t , t = 1, …, n,
जहां यह एक प्रवृत्ति है, एक सुचारू रूप से बदलता घटक है जो दीर्घकालिक कारकों (जनसंख्या में गिरावट, आय में कमी, आदि) के शुद्ध प्रभाव का वर्णन करता है; - मौसमी घटक, बहुत लंबी अवधि (दिन, सप्ताह, महीना, आदि) में प्रक्रियाओं की पुनरावृत्ति को दर्शाता है; एसटी - चक्रीय घटक, एक वर्ष से अधिक समय की लंबी अवधि में प्रक्रियाओं की पुनरावृत्ति को दर्शाता है; टी - यादृच्छिक घटक, यादृच्छिक कारकों के प्रभाव को दर्शाता है जिन्हें ध्यान में नहीं रखा जा सकता है और रिकॉर्ड नहीं किया जा सकता है। पहले तीन घटक नियतिवादी घटक हैं। यादृच्छिक घटक का निर्माण बड़ी संख्या के सुपरपोजिशन के परिणामस्वरूप होता है बाह्य कारक, प्रत्येक विशेषता ज्ञात है।

तंत्रिका - तंत्र।तंत्रिका नेटवर्क एक कंप्यूटिंग प्रणाली है जिसकी वास्तुकला न्यूरॉन्स से तंत्रिका ऊतक के निर्माण के समान है। सबसे निचली परत के न्यूरॉन्स को इनपुट मापदंडों के मान प्रदान किए जाते हैं, जिसके आधार पर कुछ निर्णय लिए जाने चाहिए। उदाहरण के लिए, रोगी के नैदानिक ​​​​और प्रयोगशाला मापदंडों के मूल्यों के अनुसार, उसे रोग की गंभीरता के अनुसार एक या दूसरे समूह को सौंपना आवश्यक है। इन मानों को नेटवर्क द्वारा सिग्नल के रूप में माना जाता है जो अगली परत तक प्रेषित होते हैं, इंटिरियरॉन कनेक्शन को निर्दिष्ट संख्यात्मक मान (वजन) के आधार पर कमजोर या मजबूत होते हैं। परिणामस्वरूप, ऊपरी परत न्यूरॉन के आउटपुट पर एक निश्चित मान उत्पन्न होता है, जिसे एक प्रतिक्रिया के रूप में माना जाता है - इनपुट मापदंडों के लिए पूरे नेटवर्क की प्रतिक्रिया। नेटवर्क को काम करने के लिए, उसे डेटा पर "प्रशिक्षित" (प्रशिक्षित) होना चाहिए जिसके लिए इनपुट पैरामीटर के मान और उनके लिए सही प्रतिक्रियाएँ ज्ञात हों। प्रशिक्षण में इंटिरियरन कनेक्शन के वजन का चयन करना शामिल है जो ज्ञात सही उत्तरों के उत्तरों की सबसे बड़ी निकटता सुनिश्चित करता है। अवलोकनों को वर्गीकृत करने के लिए तंत्रिका नेटवर्क का उपयोग किया जा सकता है।

प्रयोगों की रूप रेखा।इन विधियों की क्षमताओं का पूरी तरह से दोहन करने के लिए अवलोकनों को एक निश्चित क्रम में व्यवस्थित करने या विशेष रूप से नियोजित परीक्षण करने की कला "प्रायोगिक योजना" के विषय की सामग्री है। वर्तमान में, प्रयोगात्मक तरीकों का व्यापक रूप से विज्ञान और विज्ञान दोनों में उपयोग किया जाता है विभिन्न क्षेत्रव्यावहारिक गतिविधियाँ. आमतौर पर, वैज्ञानिक अनुसंधान का मुख्य लक्ष्य अध्ययन किए जा रहे आश्रित चर पर एक निश्चित कारक के प्रभाव का सांख्यिकीय महत्व दिखाना है। एक नियम के रूप में, प्रयोगों को डिजाइन करने का मुख्य लक्ष्य कम से कम महंगी टिप्पणियों का उपयोग करके शोधकर्ता (आश्रित चर) के हित के संकेतक पर अध्ययन किए जा रहे कारकों के प्रभाव के बारे में अधिकतम उद्देश्यपूर्ण जानकारी निकालना है। दुर्भाग्य से, व्यवहार में, अधिकांश मामलों में, अनुसंधान योजना पर अपर्याप्त ध्यान दिया जाता है। वे डेटा एकत्र करते हैं (जितना वे एकत्र कर सकते हैं), और फिर सांख्यिकीय प्रसंस्करण और विश्लेषण करते हैं। लेकिन केवल उचित सांख्यिकीय विश्लेषण ही वैज्ञानिक वैधता प्राप्त करने के लिए पर्याप्त नहीं है, क्योंकि डेटा विश्लेषण से प्राप्त किसी भी जानकारी की गुणवत्ता डेटा की गुणवत्ता पर ही निर्भर करती है। इसलिए, नियोजन प्रयोगों से सब कुछ मिल जाता है अधिक से अधिक अनुप्रयोगअनुप्रयुक्त अनुसंधान में. प्रयोगात्मक डिजाइन विधियों का उद्देश्य अध्ययन और खोज के तहत प्रक्रिया पर कुछ कारकों के प्रभाव का अध्ययन करना है इष्टतम स्तरइस प्रक्रिया के आवश्यक स्तर को निर्धारित करने वाले कारक।

गुणवत्ता नियंत्रण कार्ड.आधुनिक दुनिया में, न केवल निर्मित उत्पादों की गुणवत्ता की समस्या, बल्कि आबादी को प्रदान की जाने वाली सेवाओं की भी समस्या अत्यंत प्रासंगिक है। किसी भी कंपनी, संगठन या संस्था की भलाई काफी हद तक इस महत्वपूर्ण समस्या के सफल समाधान पर निर्भर करती है। उत्पादों और सेवाओं की गुणवत्ता वैज्ञानिक अनुसंधान, डिजाइन और तकनीकी विकास की प्रक्रिया में बनती है, और उत्पादन और सेवाओं के अच्छे संगठन द्वारा सुनिश्चित की जाती है। लेकिन उत्पादों का निर्माण और सेवाओं का प्रावधान, उनके प्रकार की परवाह किए बिना, हमेशा उत्पादन और प्रावधान की स्थितियों में एक निश्चित परिवर्तनशीलता से जुड़ा होता है। इससे उनकी गुणवत्ता विशेषताओं में कुछ परिवर्तनशीलता आती है। इसलिए, गुणवत्ता नियंत्रण विधियों को विकसित करने के मुद्दे प्रासंगिक हैं जो तकनीकी प्रक्रिया या सेवाओं के प्रावधान के उल्लंघन के संकेतों की समय पर पहचान करने की अनुमति देंगे। साथ ही, हासिल करना और बनाए रखना उच्च स्तरउपभोक्ता को संतुष्ट करने वाली गुणवत्ता के लिए ऐसे तरीकों की आवश्यकता होती है जिनका उद्देश्य तैयार उत्पादों में दोषों और सेवाओं में विसंगतियों को दूर करना नहीं, बल्कि उनकी घटना के कारणों को रोकना और भविष्यवाणी करना है। नियंत्रण चार्ट एक उपकरण है जो आपको किसी प्रक्रिया की प्रगति की निगरानी करने और उसे प्रभावित करने (उचित फीडबैक की मदद से) की अनुमति देता है, जिससे प्रक्रिया के लिए प्रस्तुत आवश्यकताओं से उसके विचलन को रोका जा सकता है। गुणवत्ता नियंत्रण चार्ट उपकरण संभाव्यता सिद्धांत और गणितीय आंकड़ों पर आधारित सांख्यिकीय विधियों का व्यापक उपयोग करते हैं। सांख्यिकीय विधियों का उपयोग, विश्लेषित उत्पादों की सीमित मात्रा के साथ, निर्मित उत्पादों की गुणवत्ता की स्थिति को सटीकता और विश्वसनीयता की एक निश्चित डिग्री के साथ आंकना संभव बनाता है। पूर्वानुमान, गुणवत्ता समस्याओं का इष्टतम प्रबंधन, सही को अपनाना प्रदान करता है प्रबंधन निर्णयअंतर्ज्ञान के आधार पर नहीं, बल्कि वैज्ञानिक अध्ययन और संख्यात्मक जानकारी के संचित सरणियों में पैटर्न की पहचान की मदद से। />/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>/>