دادههای پَرت همهجا هستند. آنها به دلایل مختلفی تولید میشوند و معمولاً در میان انواع دادهها دیده میشوند. این نوع دادهها را که معمولاً غیرعادی هستند و از الگوهای عمومی در یک مجموعهی داده پیروی نمیکنند، میتوان توسط الگوریتمهای مختلفِ تشخیصِ دادههای پرت شناسایی کرد. با شناسایی دادههای پَرت میتوان آنها را از مجموعهی داده کنار گذاشت تا مجموعهی داده، کمی تمیزتر و مناسبتر جهت تزریق به الگوریتمهایی مانند طبقهبندی و خوشهبندی باشد. البته در برخی از مواقع خودِ دادههای پَرت هستند که صورت مسئله میباشند. مثلاً در بین بیماران و علائمِ آنها ممکن است به دنبال بیمارانی بگردیم که علائمشان با دیگر بیماران همخوانی ندارد و به نوعی در آن مجموعهی داده، غیر طبیعی هستند.
در درس شناسایی دادههای پرت در دورهی پیشپردازش دادهها، کمی با این مبحث آشنا شدید و در این دوره قصد داریم بحث تشخیصِ دادههای پَرت را بیشتر گسترش داده و الگوریتمهای مختلفِ شناسایی و کشفِ دادههای پِرت را با هم بررسی کنیم. منبع اصلی را بر مبنای دو کتاب، Outlier Analysis از آقای آگراوال و Anomaly Detection Principle and Algorithms از آقای مروترا و همکارن میگذاریم و البته در خلال دروس، منابع دیگری را نیز معرفی خواهیم کرد.
ترتیب پیشنهادی خواندن دروس به صورت زیر است:
درس پیشنیاز ۱ | داده پرت (Outlier) در دادهکاوی چیست؟ (از دوره آنالیز اکتشافی داده (EDA) در دادهکاوی) |
درس پیشنیاز ۲ | تشخیص دادههای پرت و دارای نویز (Noise) و راهکار مقابله با آنها (از دورهی پیشپردازش دادهها) |
درس ۱ | کاربرد یافتن دادههای پرت (Outlier Detection) در دادهکاوی |
درس ۲ | تستهای آماری (Statistical Test) جهت تشخیص دادههای پرت |
درس ۳ | محاسبهی دادههای پَرت با استفاده از z-score |
درس ۴ | الگوریتم جنگل ایزوله (Isolation Forest) جهت تشخیص دادههای پرت |
درس ۵ | کاربرد الگوریتم DBSCAN در تشخیص دادههای پَرت (Outliers) |
این دوره در حال تکمیل است… |