داده پرت (Outlier) در داده‌کاوی چیست؟

مدرس: مسعود کاویانی

اگر در Google Translate واژه Outlier را (در زمان نوشتن این درس) ترجمه کنید، ترجمه به شدت درستی انجام می‌شود: داده‌های خارج از محدوده! این همان تعریف برای داده‌های پرت یا همان Outlierها هستند. داده‌های پرت در بعضی مواقع می‌توانند دردسر ساز باشند و در بعضی مواقع هم خود مسئله تشخیص داده‌های پرت و به نوعی تشخیص ناهنجاری (Anomaly Detection) است که در آن ما به دنبال یافتن داده‌هایی هستیم که پرت هستند.

فرض کنید می‌گویند میانگین حقوق در یک شرکت ۴میلیون تومان است. آیا این بدان معنی است که اکثر افراد حاضر در آن شرکت ۴میلیون تومان (یا نزدیک به آن) حقوق می‌گیرند. در نگاه یک غیرمتخصص بلی ولی در نگاه یک متخصص آمار و داده‌کاوی قطعا جواب خیر است. ممکن است ۹۵درصد افراد حاضر در آن شرکت حقوق ۱میلیون تومان بگیرند و ۵درصد بقیه حوقشان ۲۰میلیون تومان باشد. در واقع این ۵درصد نوعی داده پرت هستند که میانگین (Mean) را به نفع خود جا به جا کرده‌اند!

فرض کنید بگویند میانگین ثروت افراد حاضر در ماکروسافت ۱۰۰میلیون دلار است. طبیعتا شخصی مانند بیل گیتس که ثروت او به اندازه چندین کشور است، میانگین را به بسیار بالاتر از میانگین واقعی تبدیل کرده‌است و یک متخصص داده‌کاوی باید بتواند این این مسئله را تشخیص دهد. در واقع ثروت بیل گیتس یک داده پرت یا همان Outlier در میان ثروت کارکنان و مدیران ماکروسافت است.

در این درس داده‌های پرت را تعریف کردیم تا در دروس آینده در بخش خلاصه سازی داده‌ها که کار اصلی دوره EDA بود، حواسمان به آن باشد!

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:
منابع این بحث و اطلاعات بیشتر

» فصل اول کتاب Practical Statistics For Data Scientists 

در صورت تمایل به یادگیری بیشتر، منابع بالا در نظر گرفته شده است. می توانید با خواندن این منابع، به یادگیری خود در این زمینه عمق ببخشید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *