داده‌های پَرت (Outliers) و الگوریتم‌های مختلف شناسایی داده‌های پرت

داده‌های پَرت همه‌جا هستند. آن‌ها به دلایل مختلفی تولید می‌شوند و معمولاً در میان انواع داده‌ها دیده می‌شوند. این نوع داده‌ها را که معمولاً غیرعادی هستند و از الگوهای عمومی در یک مجموعه‌ی داده پیروی نمی‌کنند، می‌توان توسط الگوریتم‌های مختلفِ تشخیصِ داده‌های پرت شناسایی کرد. با شناسایی داده‌های پَرت می‌توان آن‌ها را از مجموعه‌ی داده کنار گذاشت تا مجموعه‌ی داده، کمی تمیزتر و مناسب‌تر جهت تزریق به الگوریتم‌هایی مانند طبقه‌بندی و خوشه‌بندی باشد. البته در برخی از مواقع خودِ داده‌های پَرت هستند که صورت مسئله می‌باشند. مثلاً در بین بیماران و علائمِ آن‌ها ممکن است به دنبال بیمارانی بگردیم که علائمشان با دیگر بیماران همخوانی ندارد و به نوعی در آن مجموعه‌ی داده، غیر طبیعی هستند.

در درس شناسایی داده‌های پرت در دوره‌ی پیش‌پردازش داده‌ها، کمی با این مبحث آشنا شدید و در این دوره قصد داریم بحث تشخیصِ داده‌های پَرت را بیشتر گسترش داده و الگوریتم‌های مختلفِ شناسایی و کشفِ داده‌های پِرت را با هم بررسی کنیم. منبع اصلی را بر مبنای دو کتاب، Outlier Analysis از آقای آگراوال و Anomaly Detection Principle and Algorithms از آقای مروترا و همکارن می‌گذاریم و البته در خلال دروس، منابع دیگری را نیز معرفی خواهیم کرد.

ترتیب پیشنهادی خواندن دروس به صورت زیر است:

درس پیشنیاز ۱ داده پرت (Outlier) در داده‌کاوی چیست؟ (از دوره آنالیز اکتشافی داده (EDA) در داده‌کاوی)
درس پیشنیاز ۲  تشخیص داده‌های پرت و دارای نویز (Noise) و راه‌کار مقابله با آن‌ها (از دوره‌ی پیش‌پردازش داده‌ها)
درس ۱  کاربرد یافتن داده‌های پرت (Outlier Detection) در داده‌کاوی
درس ۲  تست‌های آماری (Statistical Test) جهت تشخیص داده‌های پرت
درس ۳  محاسبه‌ی داده‌های پَرت با استفاده از z-score
درس ۴ الگوریتم جنگل ایزوله (Isolation Forest) جهت تشخیص داده‌های پرت
درس ۵ کاربرد الگوریتم DBSCAN در تشخیص داده‌های پَرت (Outliers)
این دوره در حال تکمیل است…