تخمین تنوع و پراکندگی (Estimation Of Variability) و انواع مختلف آن | چیستیو

این درس از مجموعه دوره آمار مقدماتی و تحلیل اکتشافی داده (EDA) در علم داده است

پیش نیاز این درس:

» درس تخمین مکان داده‌ها و درس داده‌های پرت را حتما بخوانید

مدرس: مسعود کاویانی

تا اینجا در بحث آنالیز اکتشافی داده‌ها که با هم قرار گذاشتیم داده‌ها را خلاصه کنیم به این نتیجه رسیدیم که یک سری داده پرت داریم و یک سری تعریف برای اینکه بتوانیم تخمین بزنیم که مکان حدودی داده‌ها کجا هستند. برای مثال میانگین یک تخمینی است که می‌تواند بگوید داده‌ها حدوداً در کجا قرار دارند. ولی نکته اصلی دیگری که می‌توان گفت این است که این داده‌ها با چه تنوعی پراکنده شده‌اند و در واقع پراکندگی داده‌ها به چه صورت بوده است. برای مثال احتمالا پراکندگی سن افراد در یک سینما خیلی بیشتر از یک کلاس درس است (البته اگر معلم را کنار بگذاریم!).

برای تعریف پراکندگی داده‌ها (یا مجموعه‌ای از یک سری داده‌ها) تعاریف و معیارهای مختلفی موجود است که هر کدام کاربرد خاص خود را دارند. احتمالا اگر به صورت کاربردی یا حتی تئوری علوم داده را خوانده باشید در چند جا به انواع معیار‌های پراکندگی برخورده‌اید. اجازه بدهید چند مورد از مهم‌ترین معیارهای پراکندگی را با هم مرور کنیم. قبل از آن حتما درس قبل را در مورد تخمین مکان (Estimation Of Location) خوانده باشید.

داده‌های زیر را فرض کنید:

۱، ۲، ۵، ۵، ۷

میانگین این داده‌ها برابر ۴ است. یعنی فرض کنید تخمین مکان را برای این داده‌ها معیار میانگین در نظر گرفته‌ایم. حال اگر بخواهیم انحراف یا همان Deviation را تعریف کنیم مانند شکل زیر است:

در واقع اختلاف هر کدام از اعداد نسبت به میانگین را اینجا انحراف یا همان Deviation در نظر گرفته‌ایم. البته برای انحراف می‌توانیم مقدار قدر مطلق یا همان Absolute را در نظر گرفته‌ایم. یعنی مقدار منفی‌ها را قدر مطلق گرفته و مثبت کرده‌ایم. حال اگر میانگین این انحرافات را به دست بیاوریم یک معیار استاندارد را حساب کرده‌ایم. این معیار همان میانگین قدر مطلق انحراف یا انحراف مطلق میانگین یا Mean Absolute Deviation است. شکل زیر را نگاه کنید:

البته که Mean Absolute Deviation تنها معیار برای تخمین پراکندگی نیست. معروف‌ترین معیار در این حوزه شاید همان واریانس Variance باشد. شکل زیر واریانس را برای اعداد بالا محاسبه کرده‌است:

اگر از واریانس رادیکال بگیرید، معیار دیگری به اسم انحراف استاندارد یا همان Standard Deviation به دست می‌آید که عددی که از انحراف استاندارد به دست می‌آید نسبت به واریانس گویاتر است. زیرا واریانس هر کدام از اختلافات را به توان ۲ رسانده است. در واقع مثلا وقتی می‌گوییم انحراف استاندارد برابر ۲.۴ است یعنی هر کدام از اعداد تقریبا به اندازه ۲.۴واحد (به طور میانگین) از معیار میانگین مجموعه اعداد فاصله دارند. ولی وقتی بگوییم واریانس برابر ۶است، چیزی دستگیرمان نمی‌شود. (در واقع معیار انحراف استاندارد قابل تفسیرتر است) فقط می‌توانیم واریانس دو مجموعه‌ی مختلف را با هم مقایسه کنیم. یعنی اگر یک مجموعه‌ای واریانس بیشتری نسبت به یک مجموعه‌ی دیگر داشت، می‌توانیم بفهمیم که این مجموعه پراکندگی بیشتری دارد.

درس داده‌های پرت را که یادتان هست. دو معیاری که تا به حال گفتیم (واریانس و انحراف استاندارد) نسبت به داده‌های پرت حساس هستند به این معنی که داده‌های پرت می‌توانند بر روی آن‌ها تاثیر زیادی بگذارند.

از درس قبل Median را به یاد بیاورید. گفتیم Median یکی از معیارهای تخمین مکان بود که نسبت به داده‌های پرت قدرتمند (Robust) بود. یعنی داده‌های پرت نمی‌توانستند تاثیر زیادی بر روی محاسبه Median بگذارند. حال از روی همین Median به معیاری می‌رسیم که به آن Median Absolute Deviation می‌گویند. اگر Median برای داده‌های بالا ۵ باشد، این معیار مانند شکل زیر محاسبه می‌شود:

تا اینجا معیار‌های معروفی را گفتیم، اما معیار‌های دیگری در میان تخمین‌های پراکندگی وجود دارد. یک معیار دیگر، معیار بازه یا Range است. معیار ساده‌ای که در آن کافیست اختلاف کمترین و بیشترین مقدار را در یک مجموعه داده محاسبه کنید. برای مثال در داده‌های بالا اختلاف کمترین و بیشترر عدد (۱ – ۷) برابر است با ۶. یعنی معیار Range برای این داده‌ها برابر ۶ است. اما معیار Range بسیار حساس به داده‌های پرت است. برای همین یک معیار بهتر به نام IQR که مخفف InterQuartile Range است معرفی شده است. در این معیار، بازه‌ای بین ۲۵درصد تا ۷۵درصد داده‌ها را محاسبه می‌کنیم. سپس اختلاف بیشتر مقدار باقی‌مانده و کمترین مقدار باقی‌مانده را گرفته تا IQR برای داده‌ها محاسبه شود. این معیار نسبت به داده‌های پرت مقاومت بیشتری دارد. شکل زیر IQR را برای داده‌های بالا محاسبه کرده است:

طبیعتا معیارها و سنجه‌های مختلف دیگری را هم می‌توان برای پراکندگی داده‌ها محاسبه کرد که با کمی فکر کردن می‌توانید معیاری که برای داده‌ها و نوع داده‌های شما مناسب باشد را پیدا کنید.

این درس از مجموعه دوره آمار مقدماتی و تحلیل اکتشافی داده (EDA) در علم داده است

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

7 دیدگاه دربارهٔ «تخمین تنوع و پراکندگی (Estimation Of Variability) و انواع مختلف آن»

سیدمجتبی بنائی گفت:

نوامبر 2, 2018 در 11:43 ق.ظ

با سلام.
بابت مطالب خوبی که به زبان ساده و قابل فهم در اختیار جامعه علوم داده کشور قرار می دهید بسیار سپاسگزارم.

پاسخ
بهمن گفت:

ژانویه 9, 2022 در 3:38 ق.ظ

عالی
بسیار سپاسگذارم

پاسخ
رضا گفت:

مارس 10, 2022 در 3:27 ب.ظ

بنده هم به سهم خودم از مطالبتون تشكر ميكنم. كلي ابعاماتم رفع شد

پاسخ
muhamad musavi گفت:

سپتامبر 6, 2022 در 8:03 ب.ظ

اینقدر شیوا می نویسید که آدم از خواندن مطالب لذت می برد

پاسخ
فرشاد گفت:

سپتامبر 7, 2022 در 10:46 ب.ظ

سلام
شما در يك كلام عجيب و غريب خوبيد ، واقعا خوبيد ، لطفا بمونيد برامون ، و اينكه جايي راهنمايي كرديد كه براي شروع دوره علم داده چه مطالبي رو بايد ياد بگيريم ؟

پاسخ
محمد علیزاده گفت:

سپتامبر 9, 2022 در 11:30 ق.ظ

ممنون واقعا

پاسخ
آرسان گفت:

ژانویه 12, 2023 در 11:10 ب.ظ

استاد ارجمند از دقت نظر ششما و ارايه مطالب به زبان قابل فهم سپاسگزارم

پاسخ

7 دیدگاه دربارهٔ «تخمین تنوع و پراکندگی (Estimation Of Variability) و انواع مختلف آن»

دیدگاهتان را بنویسید لغو پاسخ