የማዕከላዊ ዝንባሌ vs ስርጭት
በገላጭ እና በተጨባጭ ስታቲስቲክስ፣ የውሂብ ስብስብን ከማእከላዊ ዝንባሌው፣ መበታተን እና ውዥንብር ጋር የሚዛመድ የውሂብ ስብስብን ለመግለጽ በርካታ ኢንዴክሶች ጥቅም ላይ ይውላሉ፡ የውሂብ ስብስብ ስርጭቱን አንጻራዊ ቅርጽ የሚወስኑ ሦስቱ በጣም አስፈላጊ ባህሪያት።
ማዕከላዊ ዝንባሌ ምንድነው?
የማእከላዊ ዝንባሌ የሚያመለክተው እና የእሴቶችን ስርጭት ማእከል ያገኛል። አማካኝ፣ ሞድ እና ሚዲያን የውሂብ ስብስብ ማዕከላዊ ዝንባሌን በሚገልጹበት ጊዜ በብዛት ጥቅም ላይ የዋሉ ኢንዴክሶች ናቸው። የውሂብ ስብስብ ሲሜትሪክ ከሆነ ሁለቱም ሚዲያን እና የውሂብ ስብስብ አማካኝ እርስ በርስ ይጣጣማሉ።
ከመረጃ ስብስብ ከተሰጠ፣ አማካዩ የሚሰላው የሁሉንም ዳታ እሴቶች ድምር ወስዶ ከዚያ በመረጃ ቁጥር በመከፋፈል ነው። ለምሳሌ የ 10 ሰዎች ክብደት (በኪሎግራም) 70, 62, 65, 72, 80, 70, 63, 72, 77 እና 79. ከዚያም የአስር ሰዎች አማካይ ክብደት (በኪሎግራም) ሊሆን ይችላል. እንደሚከተለው ይሰላል. የክብደቱ ድምር 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. አማካኝ=(ድምር) / (የውሂብ ቁጥር)=710/10=71 (በኪሎግራም). ከመደበኛው አዝማሚያ የሚያፈነግጡ የዳታ ነጥቦች (ዳታ ነጥቦች) አማካኙ ላይ ተጽዕኖ እንደሚያሳድሩ ተረድቷል። ስለዚህ፣ የውጭ ሰዎች ሲኖሩ ማለት ብቻ ስለ የውሂብ ስብስቡ መሃል ትክክለኛ ምስል አይሰጥም።
አማካኙ በመረጃ ስብስቡ ትክክለኛው መሃል ላይ የሚገኝ የውሂብ ነጥብ ነው። ሚዲያን ለማስላት አንዱ መንገድ የውሂብ ነጥቦቹን ወደ ላይ በቅደም ተከተል ማዘዝ እና በመሃል ላይ ያለውን የውሂብ ነጥቡን ማግኘት ነው። ለምሳሌ፣ አንድ ጊዜ የታዘዘው የቀደመ የውሂብ ስብስብ 62፣ 63፣ 65፣ 70፣ 70፣ 72፣ 72፣ 77፣ 79፣ 80 ይመስላል።ስለዚህ (70+72)/2=71 መሃል ላይ ነው። ከዚህ በመነሳት ሚዲያን በመረጃ ስብስብ ውስጥ መሆን እንደሌለበት ይታያል። ሚድያን ከውጪዎቹ መገኘት አይነካም. ስለዚህ ሚዲያን ከውጪ ባሉበት ሁኔታ እንደ ማዕከላዊ ዝንባሌ የተሻለ መለኪያ ሆኖ ያገለግላል።
ሁነታው በውሂብ ስብስብ ውስጥ በብዛት የሚከሰት እሴት ነው። በቀድሞው ምሳሌ, እሴቱ 70 እና 72 ሁለቱም ሁለት ጊዜ ይከሰታሉ, ስለዚህም ሁለቱም ሁነታዎች ናቸው. ይህ የሚያሳየው በአንዳንድ ስርጭቶች ውስጥ ከአንድ በላይ የሞዳል ዋጋ እንዳለ ነው። አንድ ሁነታ ብቻ ካለ፣ የውሂብ ስብስቡ አንድ ነው ይባላል፣ በዚህ አጋጣሚ፣ የውሂብ ስብስቡ ሁለትዮሽ ነው።
መበታተን ምንድነው?
ስርጭት ማለት ስለ ስርጭቱ መሃል ያለው የመረጃ ስርጭት መጠን ነው። ክልል እና መደበኛ መዛባት በብዛት ጥቅም ላይ የሚውሉት የስርጭት መለኪያዎች ናቸው።
ክልሉ በቀላሉ ዝቅተኛው ዋጋ ሲቀነስ ከፍተኛው እሴት ነው። ባለፈው ምሳሌ ከፍተኛው ዋጋ 80 እና ዝቅተኛው ዋጋ 62 ነው, ስለዚህ ክልሉ 80-62=18 ነው. ነገር ግን ክልል ስለ መበታተን በቂ ምስል አይሰጥም.
የደረጃውን ልዩነት ለማስላት በመጀመሪያ የውሂብ እሴቶች ከአማካይ ልዩነቶች ይሰላሉ። የሥርወ ስኩዌር አማካኝ መዛባት መደበኛ መዛባት ይባላል። በቀደመው ምሳሌ፣ ከአማካይ የሚለያዩት ልዩነቶች (70 – 71)=-1፣ (62 – 71)=-9፣ (65 – 71)=-6፣ (72 – 71)=1፣ (80 – 71)=9, (70 - 71)=-1, (63 - 71)=-8, (72-71)=1, (77-71)=6 እና (79-71)=8. ድምር ካሬዎች መዛባት (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 መደበኛ መዛባት √(366/10)=6.05 (በኪሎግራም) ነው። የውሂብ ስብስቡ በጣም የተዛባ ካልሆነ በቀር፣ ከዚህ በመነሳት አብዛኛው መረጃ በ71±6.05 መካከል ነው ወደሚል መደምደሚያ ሊደርስ ይችላል፣ እና በዚህ የተለየ ምሳሌ ላይም እንዲሁ ነው።
በማዕከላዊ ዝንባሌ እና መበታተን መካከል ያለው ልዩነት ምንድነው?
• ማዕከላዊ ዝንባሌ የሚያመለክተው እና የእሴቶችን ስርጭት መሃል ያገኘው
• ስርጭት ማለት የውሂብ ስብስብ መሃከል ያለው የውሂብ ስርጭት መጠን ነው።