اگر در Google Translate واژه Outlier را (در زمان نوشتن این درس) ترجمه کنید، ترجمه به شدت درستی انجام میشود: دادههای خارج از محدوده! این همان تعریف برای دادههای پرت یا همان Outlierها هستند. دادههای پرت در بعضی مواقع میتوانند دردسر ساز باشند و در بعضی مواقع هم خود مسئله تشخیص دادههای پرت و به نوعی تشخیص ناهنجاری (Anomaly Detection) است که در آن ما به دنبال یافتن دادههایی هستیم که پرت هستند.
فرض کنید میگویند میانگین حقوق در یک شرکت ۴میلیون تومان است. آیا این بدان معنی است که اکثر افراد حاضر در آن شرکت ۴میلیون تومان (یا نزدیک به آن) حقوق میگیرند. در نگاه یک غیرمتخصص بلی ولی در نگاه یک متخصص آمار و دادهکاوی قطعا جواب خیر است. ممکن است ۹۵درصد افراد حاضر در آن شرکت حقوق ۱میلیون تومان بگیرند و ۵درصد بقیه حوقشان ۲۰میلیون تومان باشد. در واقع این ۵درصد نوعی داده پرت هستند که میانگین (Mean) را به نفع خود جا به جا کردهاند!
فرض کنید بگویند میانگین ثروت افراد حاضر در ماکروسافت ۱۰۰میلیون دلار است. طبیعتا شخصی مانند بیل گیتس که ثروت او به اندازه چندین کشور است، میانگین را به بسیار بالاتر از میانگین واقعی تبدیل کردهاست و یک متخصص دادهکاوی باید بتواند این این مسئله را تشخیص دهد. در واقع ثروت بیل گیتس یک داده پرت یا همان Outlier در میان ثروت کارکنان و مدیران ماکروسافت است.
در این درس دادههای پرت را تعریف کردیم تا در دروس آینده در بخش خلاصه سازی دادهها که کار اصلی دوره EDA بود، حواسمان به آن باشد!
- ۱ » تحلیل اکتشافی دادهها (Exploratory Data Analysis) چیست؟
- ۲ » انواع مختلف دادهها در دادهکاوی کدامند؟
- ۳ » منظور از دادههای مستطیلی (Rectangular Data) چیست؟
- ۴ » داده پرت (Outlier) در دادهکاوی چیست؟
- ۵ » تخمین مکان دادهها (Estimation Of Location) چیست و انواع مختلف آن کدامند؟
- ۶ » تخمین تنوع و پراکندگی (Estimation Of Variability) و انواع مختلف آن
- ۷ » چارک (Quartile) و IQR در دادهها و کاربردهای آن
- ۸ » چولگی (Skewness) در دادهها
- ۹ » کشیدگی یا برجستگی (kurtosis) در دادهها
- ۱۰ » چگونه با EDA در دادهها اکتشاف کنیم؟
- ۱۱ » نمونهگیری آماری و محاسبهی حداقل تعداد نمونه (Min Sample Size)
- ۱۲ » توزیعهای آماری (Statistical Distributions)
- ۱۳ » فاصلهی آماری (Statistical Distance) و کاربردهای آن
- ۱۴ » واگرایی کولبک-لیبلر (Kullback-Leibler Divergence) و کاربرد آن در فاصلهی آماری
- ۱۵ » فاصلهی جنسون-شنون (Jenson-Shannon) برای مقایسهی توزیعهای آماری