همانطور که در دوره دادهکاوی متوجه شدید، دادهکاوی فرآیندِ استخراجِ دانش از میان انبوهی از دادهها است. مثالهای متعددی که در دورهی دادهکاوی آوردیم، میتواند کمک کنندهی شما در فهم بهتر این رشته باشد. اگر مثالها و دروس را دنبال کرده باشد، حتماً متوجه شدهاید که در فرآیندهای دادهکاوی و استخراج دانش، این دادهها هستند که نقش بسیار مهم و حیاتی دارند. زیرا الگوریتمهای مختلف بایستی بر روی این دادهها عملیاتِ خود را انجام دهند. در واقع هر چه دادههای بهتر و مناسبتری داشته باشیم، الگوریتم، بهتر یادگیری را انجام میدهد. مانند یک دانشآموزی که منابعِ بهتری برای امتحانِ ریاضی دارد، پس ریاضی را بهتر اد میگیرد.
اهمیت پیش پردازش دادهها (data preprocessing) در فرآیندهای دادهکاوی بسیار مهم و حیاتی است، به گونهای که در بسیاری از مواقع، یک پیش پردازشِ خوب، میتواند باعثِ هموار شدنِ ادامه فرآیندهای دادهکاوی شود.
در دورهی جاری که با عنوان آشنایی با روشهای پیشپردازش دادهها ارائه شده است، قصد داریم به انواع روشهای مختلف و متفاوت و چالشهایی که با دادهها روبرو میشویم، بپردازیم. منبع اصلی دورهی جاری را کتاب پیش پردازش دادهها در دادهکاوی از آقای سالوادور گارسیا و همکاران و همچنین فصل سوم کتاب دادهکاوی آقای هان و همکاران قرار میدهیم. البته منابع و مقالات دیگری را نیز در دروس مختلف استفاده خواهیم کرد.
ترتیب پیشنهادیِ ما برای خواندنِ دورسِ این دوره به صورت زیر است: