دوره آشنایی با روش‌های پیش پردازش داده‌ها

همان‌طور که در دوره داده‌کاوی متوجه شدید، داده‌کاوی فرآیندِ استخراجِ دانش از میان انبوهی از داده‌ها است. مثال‌های متعددی که در دوره‌ی داده‌کاوی آوردیم، می‌تواند کمک کننده‌ی شما در فهم بهتر این رشته باشد. اگر مثال‌ها و دروس را دنبال کرده باشد، حتماً متوجه شده‌اید که در فرآیند‌های داده‌کاوی و استخراج دانش، این داده‌ها هستند که نقش بسیار مهم و حیاتی دارند. زیرا الگوریتم‌های مختلف بایستی بر روی این داده‌ها عملیاتِ خود را انجام دهند. در واقع هر چه داده‌های بهتر و مناسب‌تری داشته باشیم، الگوریتم، بهتر یادگیری را انجام می‌دهد. مانند یک دانش‌آموزی که منابعِ بهتری برای امتحانِ ریاضی دارد، پس ریاضی را بهتر اد می‌گیرد.

اهمیت پیش پردازش داده‌ها (data preprocessing) در فرآیندهای داده‌کاوی بسیار مهم و حیاتی است، به گونه‌ای که در بسیاری از مواقع، یک پیش پردازشِ خوب، می‌تواند باعثِ هموار شدنِ ادامه فرآیندهای داده‌کاوی شود.

در دوره‌ی جاری که با عنوان آشنایی با روش‌های پیش‌پردازش داده‌ها ارائه شده است، قصد داریم به انواع روش‌های مختلف و متفاوت و چالش‌هایی که با داده‌ها روبرو می‌شویم، بپردازیم. منبع اصلی دوره‌ی جاری را کتاب پیش پردازش داده‌ها در داده‌کاوی از آقای سالوادور گارسیا و همکاران و همچنین فصل سوم کتاب داده‌کاوی آقای هان و همکاران قرار می‌دهیم. البته منابع و مقالات دیگری را نیز در دروس مختلف استفاده خواهیم کرد.

ترتیب پیشنهادیِ ما برای خواندنِ دورسِ این دوره به صورت زیر است:

درس ۱ پیش پردازش داده‌ها (Data Preprocessing) چیست؟
درس ۲ بررسی یکپارچگی داده‌ها (Data Integrity)
درس ۳ نرمال کردن داده‌ها (Data Normalization) و انواع آن
درس ۴ تبدیل داده‌ها (Data Transformation) به فُرمت قالب فهم برای الگوریتم داده‌کاوی
درس ۵ داده‌های گم‌شده (Missing Values) و راهکارهای مقابله با آن‌ها
درس ۶ تشخیص داده‌های پرت و دارای نویز (Noise) و راه‌کار مقابله با آن‌ها
درس ۷ انتخاب ویژگی (Feature Section) و کاهش ابعاد
درس ۸ انتخاب نمونه (Instance Selection) در پیش پردازش داده‌ها
این دوره در حال تکمیل است…