احتمالاً با توزیع نرمال آشنایی دارید. در مورد این توزیع و توزیعهای دیگر در این دوره صحبت کردهایم. اگر توزیع دادهها به سمت راست یا چپ کشیده شده باشد، میگوییم دادهها چولگی یا همان skewness دارند.
فرض کنید توزیعِ درآمد ماهیانه برای رانندههای مختلف یک تاکسی اینترنتی به صورت شکل زیر باشد:
نمودار بالا یک نمودار هیستوگرام (فراوانی) است. اگر نمیدانید این نمودار و توزیع چگونه ساخته شده است این درس را بخوانید. در شکل بالا مشاهده میکنید که توزیع دادهها به صورت نرمال (یا همان گوسین) پراکنده شده است. برای مثال تعداد ۶۰۰ رانندهی تاکسی، درآمدی بین ۴ تا ۶ میلیون تومان دارند. تعداد ۳۵۰ رانندهی تاکسی درآمدی بین ۶ تا ۸ میلیون دارند و تعداد ۳۴۰ راننده هستند که درآمدی بین ۲ تا ۴ میلیون تومان دارند و همینطور برای بقیهی دادهها…
نمودار بالا یک نمودار هیستوگرام برای نمایش توزیع دادههاست. این نمودار به صورت متقارن است. یعنی سمت چپ و راستِ دادهها، یکسان هستند. ولی فرض کنید هیستوگرام دادهها به جای اینکه به صورت بالا باشد، به صورت شکل زیر توزیع شده باشند:
همانطور که مشاهده میکنید، توزیع داده به سمت راست کشیده شده است. تفسیر شکل این صورت است که تعدادی از رانندهها بودهاند که درآمدهای بالایی نسبت به عرف رانندهها (که همان بین ۴ تا ۶ میلیون است) داشتهاند. اگر دادهها به این صورت پراکنده شده باشند، میگوییم توزیع داده به سمت راست (مثبت) چولگی دارد.
به صورت کلی میتوان چولگی دادهها را نسبت به یک توزیع نرمالِ ایدهآل به صورت زیر نمایش داد:
همانطور که میبینید در حالتی که دادههای ما به سمت راست چولگی داشته باشند، میانگین (mean) از مُد (mode) بیشتر است و در حالتی که دادههای ما به سمت چپ چولگی داشته باشند، میانگین از مُد کمتر است. میانه (median) هم که در هر دو حالت بین میانگین و مُد قرار میگیرد.
با استفاده از چارکها (quartiles) نیز میتوان چولگی دادهها را تشخیص داد. شکل زیر را در نظر بگیرید:
در قسمت اول از شکل بالا، دادهها نرمال هستند، چون چارکها در حالت متوازن قرار دارند، ولی در قسمت دوم، مشخص میشود که دادهها به سمت راست چولگی دارد. در واقع اگر اختلاف Q3 و Q2 از اختلاف Q2 و Q1 بیشتر باشد، به این نتیجه میرسیم که دادهها به سمت راست (مثبت) چولگی دارند و اگر مانند قسمت سوم، برعکسِ این اتفاق بیوفتد به این نتیجه میرسیم که داده ها به سمت چپ (منفی) چولگی دارند.
البته اگر بخواهیم به صورت دقیقتر چولگی دادهها را بررسی کنیم، میتوانیم از فرمول زیر استفاده کنیم:
در این فرمول هر کدام از اعداد را منهای میانگین کرده، به توان ۳ میرسانیم و همهی نتایج را با هم جمع میکنیم. سپس این دادهها را تقسیم بر تعداد کل دادهها منهای یک ضرب در انحراف استاندارد دادهها میکنیم. عددی که به دست میآید و اگر مثبت باشد، یعنی چولگی به سمت راست داریم و اگر منفی باشد یعنی چولگی به سمت چپ داریم. اگر صفر باشد به این این معنی است که دادهها چولگی ندارند.
چولگی در دادهها (skewness) را به عنوان گشتاور سوم نیز میشناسند. وجود توان ۳ در فرمول همین موضوع را میرساند. همانطور که در فرمول واریانس توان ۲ وجود داشت و واریانس را به عنوان گشتاور دوم میشناسند. همچنین گشتاور اول همان میانگین است که توان ۱ در فرمول خود دارد.
چولگی دادهها به ما میگوید که دادههای پرت در کدام سمت (راست یا چپ) نسبت به میانگین قرار دارند. همچنین در فرآیندهای یادیگری ماشین نیز، دادههایی (ویژگیهایی) که چولگی داشته باشند، میتوانند منجر به افزایش خطا شوند. برای همین میتوان این دادهها با استفاده از تبدیلهایی مانند تبدیل توان (power transformation) به دادههای نرمال ایدهآل تبدیل کرد که در دورهها و دروس آینده به این موضوع خواهیم پرداخت.
- ۱ » تحلیل اکتشافی دادهها (Exploratory Data Analysis) چیست؟
- ۲ » انواع مختلف دادهها در دادهکاوی کدامند؟
- ۳ » منظور از دادههای مستطیلی (Rectangular Data) چیست؟
- ۴ » داده پرت (Outlier) در دادهکاوی چیست؟
- ۵ » تخمین مکان دادهها (Estimation Of Location) چیست و انواع مختلف آن کدامند؟
- ۶ » تخمین تنوع و پراکندگی (Estimation Of Variability) و انواع مختلف آن
- ۷ » چارک (Quartile) و IQR در دادهها و کاربردهای آن
- ۸ » چولگی (Skewness) در دادهها
- ۹ » کشیدگی یا برجستگی (kurtosis) در دادهها
- ۱۰ » چگونه با EDA در دادهها اکتشاف کنیم؟
- ۱۱ » نمونهگیری آماری و محاسبهی حداقل تعداد نمونه (Min Sample Size)
- ۱۲ » توزیعهای آماری (Statistical Distributions)
- ۱۳ » فاصلهی آماری (Statistical Distance) و کاربردهای آن
- ۱۴ » واگرایی کولبک-لیبلر (Kullback-Leibler Divergence) و کاربرد آن در فاصلهی آماری
- ۱۵ » فاصلهی جنسون-شنون (Jenson-Shannon) برای مقایسهی توزیعهای آماری
عالی بود. چقدر مسلط و در عین حال ساده و مختصر!
خیلی عالی
آیا توان واریانس در فرمول انتهایی نباید ۲ باشد ؟
اون توان ِ ۳، واریانس نیست.
مقدار انحراف معیار، به توان ۳ است.
اگر بخوایم با واریانس بگیم، سخت میشه!
میشه واریانس، به توانِ ۳دومم!! 😀
اون م آخری، اضافه است 😀😃
اگر چولگی مثبت باشد فراوانی داده ها بیشتر از میانگین است یا کمتر از میانگین ؟
اگر منظورتون از فراوانی همان نما یا mode است، در صورت مثبت بودن چولگی، میانگین از نما یا همان mode بیشتر است
خیلی مفید بود ممنون:)))))