تخمین تنوع و پراکندگی (Estimation Of Variability) و انواع مختلف آن

مدرس: مسعود کاویانی

تا اینجا در بحث آنالیز اکتشافی داده‌ها که با هم قرار گذاشتیم داده‌ها را خلاصه کنیم به این نتیجه رسیدیم که یک سری داده پرت داریم و یک سری تعریف برای اینکه بتوانیم تخمین بزنیم که مکان حدودی داده‌ها کجا هستند. برای مثال میانگین یک تخمینی است که می‌تواند بگوید داده‌ها حدوداً در کجا قرار دارند. ولی نکته اصلی دیگری که می‌توان گفت این است که این داده‌ها با چه تنوعی پراکنده شده‌اند و در واقع پراکندگی داده‌ها به چه صورت بوده است. برای مثال احتمالا پراکندگی سن افراد در یک سینما خیلی بیشتر از یک کلاس درس است (البته اگر معلم را کنار بگذاریم!).

برای تعریف پراکندگی داده‌ها (یا مجموعه‌ای از یک سری داده‌ها) تعاریف و معیارهای مختلفی موجود است که هر کدام کاربرد خاص خود را دارند. احتمالا اگر به صورت کاربردی یا حتی تئوری علوم داده را خوانده باشید در چند جا به انواع معیار‌های پراکندگی برخورده‌اید. اجازه بدهید چند مورد از مهم‌ترین معیارهای پراکندگی را با هم مرور کنیم. قبل از آن حتما درس قبل را در مورد تخمین مکان (Estimation Of Location) خوانده باشید.

داده‌های زیر را فرض کنید:

۱، ۲، ۵، ۵، ۷

میانگین این داده‌ها برابر ۴ است. یعنی فرض کنید تخمین مکان را برای این داده‌ها معیار میانگین در نظر گرفته‌ایم. حال اگر بخواهیم انحراف یا همان Deviation را تعریف کنیم مانند شکل زیر است:

در واقع اختلاف هر کدام از اعداد نسبت به میانگین را اینجا انحراف یا همان Deviation در نظر گرفته‌ایم. البته برای انحراف می‌توانیم مقدار قدر مطلق یا همان Absolute را در نظر گرفته‌ایم. یعنی مقدار منفی‌ها را قدر مطلق گرفته و مثبت کرده‌ایم. حال اگر میانگین این انحرافات را به دست بیاوریم یک معیار استاندارد را حساب کرده‌ایم. این معیار همان میانگین قدر مطلق انحراف یا انحراف مطلق میانگین یا Mean Absolute Deviation است. شکل زیر را نگاه کنید:

البته که Mean Absolute Deviation تنها معیار برای تخمین پراکندگی نیست. معروف‌ترین معیار در این حوزه شاید همان واریانس Variance باشد. شکل زیر واریانس را برای اعداد بالا محاسبه کرده‌است:

اگر از واریانس رادیکال بگیرید، معیار دیگری به اسم انحراف استاندارد یا همان Standard Deviation به دست می‌آید که عددی که از انحراف استاندارد به دست می‌آید نسبت به واریانس گویاتر است. زیرا واریانس هر کدام از اختلافات را به توان ۲ رسانده است. در واقع مثلا وقتی می‌گوییم انحراف استاندارد برابر ۲.۴ است یعنی هر کدام از اعداد تقریبا به اندازه ۲.۴واحد (به طور میانگین) از معیار میانگین مجموعه اعداد فاصله دارند. ولی وقتی بگوییم واریانس برابر ۶است، چیزی دستگیرمان نمی‌شود. (در واقع معیار انحراف استاندارد قابل تفسیرتر است) فقط می‌توانیم واریانس دو مجموعه‌ی مختلف را با هم مقایسه کنیم. یعنی اگر یک مجموعه‌ای واریانس بیشتری نسبت به یک مجموعه‌ی دیگر داشت، می‌توانیم بفهمیم که این مجموعه پراکندگی بیشتری دارد.

درس داده‌های پرت را که یادتان هست. دو معیاری که تا به حال گفتیم (واریانس و انحراف استاندارد) نسبت به داده‌های پرت حساس هستند به این معنی که داده‌های پرت می‌توانند بر روی آن‌ها تاثیر زیادی بگذارند.

از درس قبل Median را به یاد بیاورید. گفتیم Median یکی از معیارهای تخمین مکان بود که نسبت به داده‌های پرت قدرتمند (Robust) بود. یعنی داده‌های پرت نمی‌توانستند تاثیر زیادی بر روی محاسبه Median بگذارند. حال از روی همین Median به معیاری می‌رسیم که به آن Median Absolute Deviation می‌گویند. اگر Median برای داده‌های بالا ۵ باشد، این معیار مانند شکل زیر محاسبه می‌شود:

تا اینجا معیار‌های معروفی را گفتیم، اما معیار‌های دیگری در میان تخمین‌های پراکندگی وجود دارد. یک معیار دیگر، معیار بازه یا Range است. معیار ساده‌ای که در آن کافیست اختلاف کمترین و بیشترین مقدار را در یک مجموعه داده محاسبه کنید. برای مثال در داده‌های بالا اختلاف کمترین و بیشترر عدد (۱ – ۷) برابر است با ۶. یعنی معیار Range برای این داده‌ها برابر ۶ است. اما معیار Range بسیار حساس به داده‌های پرت است. برای همین یک معیار بهتر به نام IQR که مخفف InterQuartile Range است معرفی شده است. در این معیار، بازه‌ای بین ۲۵درصد تا ۷۵درصد داده‌ها را محاسبه می‌کنیم. سپس اختلاف بیشتر مقدار باقی‌مانده و کمترین مقدار باقی‌مانده را گرفته تا IQR برای داده‌ها محاسبه شود. این معیار نسبت به داده‌های پرت مقاومت بیشتری دارد. شکل زیر IQR را برای داده‌های بالا محاسبه کرده است:

طبیعتا معیارها و سنجه‌های مختلف دیگری را هم می‌توان برای پراکندگی داده‌ها محاسبه کرد که با کمی فکر کردن می‌توانید معیاری که برای داده‌ها و نوع داده‌های شما مناسب باشد را پیدا کنید.

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:
منابع این بحث و اطلاعات بیشتر

» فصل اول کتاب Practical Statistics For Data Scientists 

» وب‌سایت StackExchange

» وب‌سایت Investopedia

در صورت تمایل به یادگیری بیشتر، منابع بالا در نظر گرفته شده است. می توانید با خواندن این منابع، به یادگیری خود در این زمینه عمق ببخشید

7 دیدگاه دربارهٔ «تخمین تنوع و پراکندگی (Estimation Of Variability) و انواع مختلف آن»

  1. سلام
    شما در يك كلام عجيب و غريب خوبيد ، واقعا خوبيد ، لطفا بمونيد برامون ، و اينكه جايي راهنمايي كرديد كه براي شروع دوره علم داده چه مطالبي رو بايد ياد بگيريم ؟

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *