چولگی (Skewness) در داده‌ها | چیستیو | علوم داده و نرم افزار

این درس از مجموعه دوره آمار مقدماتی و تحلیل اکتشافی داده (EDA) در علم داده است

پیش نیاز این درس:

بهتر است درسِ توزیع نرمال را خوانده باشید

مدرس: مسعود کاویانی

احتمالاً با توزیع نرمال آشنایی دارید. در مورد این توزیع و توزیع‌های دیگر در این دوره صحبت کرده‌ایم. اگر توزیع داده‌ها به سمت راست یا چپ کشیده شده باشد، می‌گوییم داده‌ها چولگی یا همان skewness دارند.

فرض کنید توزیعِ درآمد ماهیانه برای راننده‌های مختلف یک تاکسی اینترنتی به صورت شکل زیر باشد:

نمودار بالا یک نمودار هیستوگرام (فراوانی) است. اگر نمی‌دانید این نمودار و توزیع چگونه ساخته شده است این درس را بخوانید. در شکل بالا مشاهده می‌کنید که توزیع داده‌ها به صورت نرمال (یا همان گوسین) پراکنده شده است. برای مثال تعداد ۶۰۰ راننده‌ی تاکسی، درآمدی بین ۴ تا ۶ میلیون تومان دارند. تعداد ۳۵۰ راننده‌ی تاکسی درآمدی بین ۶ تا ۸ میلیون دارند و تعداد ۳۴۰ راننده هستند که درآمدی بین ۲ تا ۴ میلیون تومان دارند و همین‌طور برای بقیه‌ی داده‌ها…

نمودار بالا یک نمودار هیستوگرام برای نمایش توزیع داده‌هاست. این نمودار به صورت متقارن است. یعنی سمت چپ و راستِ داده‌ها، یکسان هستند. ولی فرض کنید هیستوگرام داده‌ها به جای اینکه به صورت بالا باشد، به صورت شکل زیر توزیع شده باشند:

همان‌طور که مشاهده می‌کنید، توزیع داده به سمت راست کشیده شده است. تفسیر شکل این صورت است که تعدادی از راننده‌ها بوده‌اند که درآمدهای بالایی نسبت به عرف راننده‌ها (که همان بین ۴ تا ۶ میلیون است) داشته‌اند. اگر داده‌ها به این صورت پراکنده شده باشند، می‌گوییم توزیع داده به سمت راست (مثبت) چولگی دارد.

به صورت کلی می‌توان چولگی داده‌ها را نسبت به یک توزیع نرمالِ ایده‌آل به صورت زیر نمایش داد:

همان‌طور که می‌بینید در حالتی که داده‌های ما به سمت راست چولگی داشته باشند، میانگین (mean) از مُد (mode) بیشتر است و در حالتی که داده‌های ما به سمت چپ چولگی داشته باشند، میانگین از مُد کمتر است. میانه (median) هم که در هر دو حالت بین میانگین و مُد قرار می‌گیرد.

با استفاده از چارک‌ها (quartiles) نیز می‌توان چولگی داده‌ها را تشخیص داد. شکل زیر را در نظر بگیرید:

در قسمت اول از شکل بالا، داده‌ها نرمال هستند، چون چارک‌ها در حالت متوازن قرار دارند، ولی در قسمت دوم، مشخص می‌شود که داده‌ها به سمت راست چولگی دارد. در واقع اگر اختلاف Q3 و Q2 از اختلاف Q2 و Q1 بیشتر باشد، به این نتیجه می‌رسیم که داده‌ها به سمت راست (مثبت) چولگی دارند و اگر مانند قسمت سوم، برعکسِ این اتفاق بیوفتد به این نتیجه می‌رسیم که داده ها به سمت چپ (منفی) چولگی دارند.

البته اگر بخواهیم به صورت دقیق‌تر چولگی داده‌ها را بررسی کنیم، می‌توانیم از فرمول زیر استفاده کنیم:

در این فرمول هر کدام از اعداد را منهای میانگین کرده، به توان ۳ می‌رسانیم و همه‌ی نتایج را با هم جمع می‌کنیم. سپس این داده‌ها را تقسیم بر تعداد کل داده‌ها منهای یک ضرب در انحراف استاندارد داده‌ها می‌کنیم. عددی که به دست می‌آید و اگر مثبت باشد، یعنی چولگی به سمت راست داریم و اگر منفی باشد یعنی چولگی به سمت چپ داریم. اگر صفر باشد به این این معنی است که داده‌ها چولگی ندارند.

چولگی در داده‌ها (skewness) را به عنوان گشتاور سوم نیز می‌شناسند. وجود توان ۳ در فرمول همین موضوع را می‌رساند. همان‌طور که در فرمول واریانس توان ۲ وجود داشت و واریانس را به عنوان گشتاور دوم می‌شناسند. همچنین گشتاور اول همان میانگین است که توان ۱ در فرمول خود دارد.

چولگی داده‌ها به ما می‌گوید که داده‌های پرت در کدام سمت (راست یا چپ) نسبت به میانگین قرار دارند. همچنین در فرآیند‌های یادیگری ماشین نیز، داده‌هایی (ویژگی‌هایی) که چولگی داشته باشند، می‌توانند منجر به افزایش خطا شوند. برای همین می‌توان این داده‌ها با استفاده از تبدیل‌هایی مانند تبدیل توان (power transformation) به داده‌های نرمال ایده‌آل تبدیل کرد که در دوره‌ها و دروس آینده به این موضوع خواهیم پرداخت.

این درس از مجموعه دوره آمار مقدماتی و تحلیل اکتشافی داده (EDA) در علم داده است

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

8 دیدگاه دربارهٔ «چولگی (Skewness) در داده‌ها»

محسن گفت:

جولای 27, 2021 در 2:40 ب.ظ

عالی بود. چقدر مسلط و در عین حال ساده و مختصر!

پاسخ
مصطفی گفت:

فوریه 18, 2022 در 3:38 ب.ظ

خیلی عالی

پاسخ
حسن گفت:

مارس 3, 2022 در 7:54 ق.ظ

آیا توان واریانس در فرمول انتهایی نباید ۲ باشد ؟

پاسخ
1. رامین گفت:
  
  ژوئن 27, 2022 در 9:13 ب.ظ
  
  اون توان ِ ۳، واریانس نیست.
  مقدار انحراف معیار، به توان ۳ است.
  اگر بخوایم با واریانس بگیم، سخت میشه!
  میشه واریانس، به توانِ ۳دومم!! 😀
  
  پاسخ
رامین گفت:

ژوئن 27, 2022 در 9:14 ب.ظ

اون م آخری، اضافه است 😀😃

پاسخ
سعید گفت:

سپتامبر 2, 2022 در 8:38 ب.ظ

اگر چولگی مثبت باشد فراوانی داده ها بیشتر از میانگین است یا کمتر از میانگین ؟

پاسخ
1. مسعود کاویانی گفت:
  
  اکتبر 24, 2022 در 6:29 ب.ظ
  
  اگر منظورتون از فراوانی همان نما یا mode است، در صورت مثبت بودن چولگی، میانگین از نما یا همان mode بیشتر است
  
  پاسخ
مهدیه گفت:

نوامبر 19, 2022 در 4:30 ب.ظ

خیلی مفید بود ممنون:)))))

پاسخ

8 دیدگاه دربارهٔ «چولگی (Skewness) در داده‌ها»

دیدگاهتان را بنویسید لغو پاسخ