فاصله‌ی آماری (Statistical Distance) و کاربردهای آن | چیستیو

این درس از مجموعه دوره آمار مقدماتی و تحلیل اکتشافی داده (EDA) در علم داده است

پیش نیاز این درس:

مدرس: مسعود کاویانی

روش‌های متعددی برای مقایسه‌ی دو مجموعه‌ی داده با یکدیگر است. مثلاً می‌توان میانگین آن‌ها را با یکدیگر مقایسه کرد و یا پراکندگی (واریانس) آن‌ها را مورد مقایسه قرار داد. اما هر کدام از این مقایسه‌ها قسمتی از حقیقت را پنهان می‌کنند. به همین دلیل معیارهایی با نام فاصله‌ی آماری به وجود آمده است که با استفاده از آن‌ها بتوان مجموعه داده‌های مختلف و یا متغیرهای متفاوت را با یکدیگر مقایسه کرد.

فرض کنید دو گروه ورزشکار داریم. یک گروه شناگران و گروه دوم بازیکنان واترپلو هستند. می‌خواهیم وزن هر یک از ورزشکاران را محاسبه کرده و ببینیم که آیا وزن ورزشکاران گروه شناگر با وزن ورزشکاران واترپلو تفاوت دارد یا خیر؟ برای این کار می‌توانیم میانگین وزن شناگران را از میانگین وزن بازیکنان واترپلو کم کرده و اختلاف آن‌ها را به دست بیاوریم. ولی این روش به خوبی نمی‌تواند فاصله‌ی دو مجموعه را نشان دهند. زیرا در این روش ما فقط به یک معیار (میانگین) بسنده کرده‌ایم و از معیارهای دیگر مانند پراکندگی، چولگی و… صرف نظر کرده‌ایم. برای همین بهتر است برای مقایسه‌ی این دو مجموعه از معیارهای فاصله‌ی آماری استفاده کرد.

برای محاسبه‌ی فاصله‌ی آماری نیاز به توزیعِ آماریِ هر مجموعه داریم. در درس قبل در مورد توزیع آماری و نحوه‌ی ساخت آن صحبت کردیم. حال فرض کنید وزنِ ورزشکارانِ مثال بالا که در دو گروه قرار داشتند را به صورت توزیع آماری نمایش دهیم. چیزی مانند شکل زیر:

در شکل بالا، توزیعِ آبی رنگ، توزیعِ وزنِ ورزشکاران واترپلو را نمایش می‌دهد و توزیعِ نارنجی، توزیع وزنِ ورزشکاران شناگر را. این توزیع به صورت احتمالی رسم شده است، یعنی فرکانسِ هر قسمت را تقسیم بر تعداد کل بازیکنان هر گروه کرده‌ایم. برای مثال اگر تعداد بازیکنان شناگر در بین وزن ۶۰ تا ۶۱ کیلو ۹ نفر باشد و تعداد کل بازیکنان شناگر ۵۰۰ نفر، مقداری که بر روی محور عمودی (فرکانس) برای بازه‌ی ۶۰ تا ۶۱ مشخص می‌شود برابر ۹/۵۰۰ (۹ تقسیم بر ۵۰۰) یعنی ۰/۰۱۸ خواهد بود.

همان‌طور که گفتیم معیارهای فاصله‌ی آماری یا همان statistical distance، معیارهایی هستند که می‌توانند میزان فاصله بین دو توزیع آماری را مشخص نمایند. برای مثال تعیین شباهت یا تفاوت بین دو توزیعِ مشخص شده در شکل بالا می‌تواند توسط معیارهای فاصله‌ی آماری صورت پذیرد.

اگر بخواهیم چند معیار برای فاصله‌ی آماری نام ببریم می‌توانیم به
«واگرایی کولبک-لیبلر (Kullback-Leibler divergence)»
«فاصله‌ی هلینگر (Hellinger distance)»
«واگرایی جنسن-شنون (Jensen-Shannon divergence)»
«فاصله‌ی بهاتاچاریا (Bhattacharyya distance)»
«فاصله‌ی کولموگوروف-اسمیرنوف (Kolmogorov-Smirnov)»
و «فاصله‌ی ماهالانوبیس (Mahalanobis distance)»
اشاره کرد.

هر کدام از معیارهای گفته شده در بالا با استفاده از فرمول مخصوص به خود می‌توانند فاصله یا شباهت بین دو توزیع آماری را محاسبه کنند. در دروس آینده با برخی از این معیارها و جزئیات بیشتر آن‌ها آشنا خواهیم شد.

این درس از مجموعه دوره آمار مقدماتی و تحلیل اکتشافی داده (EDA) در علم داده است

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

دیدگاهتان را بنویسید لغو پاسخ