چولگی (Skewness) در داده‌ها

مدرس: مسعود کاویانی

احتمالاً با توزیع نرمال آشنایی دارید. در مورد این توزیع و توزیع‌های دیگر در این دوره صحبت کرده‌ایم. اگر توزیع داده‌ها به سمت راست یا چپ کشیده شده باشد، می‌گوییم داده‌ها چولگی یا همان skewness دارند.

فرض کنید توزیعِ درآمد ماهیانه برای راننده‌های مختلف یک تاکسی اینترنتی به صورت شکل زیر باشد:

نمودار بالا یک نمودار هیستوگرام (فراوانی) است. اگر نمی‌دانید این نمودار و توزیع چگونه ساخته شده است این درس را بخوانید. در شکل بالا مشاهده می‌کنید که توزیع داده‌ها به صورت نرمال (یا همان گوسین) پراکنده شده است. برای مثال تعداد ۶۰۰ راننده‌ی تاکسی، درآمدی بین ۴ تا ۶ میلیون تومان دارند. تعداد ۳۵۰ راننده‌ی تاکسی درآمدی بین ۶ تا ۸ میلیون دارند و تعداد ۳۴۰ راننده هستند که درآمدی بین ۲ تا ۴ میلیون تومان دارند و همین‌طور برای بقیه‌ی داده‌ها…

نمودار بالا یک نمودار هیستوگرام برای نمایش توزیع داده‌هاست. این نمودار به صورت متقارن است. یعنی سمت چپ و راستِ داده‌ها، یکسان هستند. ولی فرض کنید هیستوگرام داده‌ها به جای اینکه به صورت بالا باشد، به صورت شکل زیر توزیع شده باشند:

همان‌طور که مشاهده می‌کنید، توزیع داده به سمت راست کشیده شده است. تفسیر شکل این صورت است که تعدادی از راننده‌ها بوده‌اند که درآمدهای بالایی نسبت به عرف راننده‌ها (که همان بین ۴ تا ۶ میلیون است) داشته‌اند. اگر داده‌ها به این صورت پراکنده شده باشند، می‌گوییم توزیع داده به سمت راست (مثبت) چولگی دارد.

به صورت کلی می‌توان چولگی داده‌ها را نسبت به یک توزیع نرمالِ ایده‌آل به صورت زیر نمایش داد:

همان‌طور که می‌بینید در حالتی که داده‌های ما به سمت راست چولگی داشته باشند، میانگین (mean) از مُد (mode) بیشتر است و در حالتی که داده‌های ما به سمت چپ چولگی داشته باشند، میانگین از مُد کمتر است. میانه (median) هم که در هر دو حالت بین میانگین و مُد قرار می‌گیرد.

با استفاده از چارک‌ها (quartiles) نیز می‌توان چولگی داده‌ها را تشخیص داد. شکل زیر را در نظر بگیرید:

در قسمت اول از شکل بالا، داده‌ها نرمال هستند، چون چارک‌ها در حالت متوازن قرار دارند، ولی در قسمت دوم، مشخص می‌شود که داده‌ها به سمت راست چولگی دارد. در واقع اگر اختلاف Q3 و Q2 از اختلاف Q2 و Q1 بیشتر باشد، به این نتیجه می‌رسیم که داده‌ها به سمت راست (مثبت) چولگی دارند و اگر مانند قسمت سوم، برعکسِ این اتفاق بیوفتد به این نتیجه می‌رسیم که داده ها به سمت چپ (منفی) چولگی دارند.

البته اگر بخواهیم به صورت دقیق‌تر چولگی داده‌ها را بررسی کنیم، می‌توانیم از فرمول زیر استفاده کنیم:

در این فرمول هر کدام از اعداد را منهای میانگین کرده، به توان ۳ می‌رسانیم و همه‌ی نتایج را با هم جمع می‌کنیم. سپس این داده‌ها را تقسیم بر تعداد کل داده‌ها منهای یک ضرب در انحراف استاندارد داده‌ها می‌کنیم. عددی که به دست می‌آید و اگر مثبت باشد، یعنی چولگی به سمت راست داریم و اگر منفی باشد یعنی چولگی به سمت چپ داریم. اگر صفر باشد به این این معنی است که داده‌ها چولگی ندارند.

چولگی در داده‌ها (skewness) را به عنوان گشتاور سوم نیز می‌شناسند. وجود توان ۳ در فرمول همین موضوع را می‌رساند. همان‌طور که در فرمول واریانس توان ۲ وجود داشت و واریانس را به عنوان گشتاور دوم می‌شناسند. همچنین گشتاور اول همان میانگین است که توان ۱ در فرمول خود دارد.

چولگی داده‌ها به ما می‌گوید که داده‌های پرت در کدام سمت (راست یا چپ) نسبت به میانگین قرار دارند. همچنین در فرآیند‌های یادیگری ماشین نیز، داده‌هایی (ویژگی‌هایی) که چولگی داشته باشند، می‌توانند منجر به افزایش خطا شوند. برای همین می‌توان این داده‌ها با استفاده از تبدیل‌هایی مانند تبدیل توان (power transformation) به داده‌های نرمال ایده‌آل تبدیل کرد که در دوره‌ها و دروس آینده به این موضوع خواهیم پرداخت.

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

8 دیدگاه دربارهٔ «چولگی (Skewness) در داده‌ها»

    1. اون توان ِ ۳، واریانس نیست.
      مقدار انحراف معیار، به توان ۳ است.
      اگر بخوایم با واریانس بگیم، سخت میشه!
      میشه واریانس، به توانِ ۳دومم!! 😀

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *