دوره آموزش مقدماتی داده‌کاوی (طبقه‌بندی) با Scikit Learn

در این دوره که از دوره های ویژه داده‌کاوی و یادگیری ماشین چیستو است، قصد داریم کسانی که به تازگی به جمع متخصصان علوم داده پیوسته اند را به صورت کاربردی با مباحث داده‌کاوی آشنا کنیم. از آن جایی که علم داده و داده‌کاوی بسیار گسترده است، در این درس تمرکز خود را بر روی یکی از اصلی ترین زیر شاخه ها داده‌کاوی یعنی طبقه‌بندی قرار میدهیم.

همان طور که میدانید یکی از زیر شاخه های اصلی و بسیار پرکاربرد داده‌کاوی، بحث طبقه‌بندی یا همان Classification است. با استفاده از طبقه‌بندی میتوان الگوهای مختلف موجود در داده ها را فراگرفت. مثلا میتوانید تصویر یک دست نوشته را به صورت خودکار تشخیص داده و یا به صورت خودکار محتواهای مختلف نظرات کاربران یک وب سایت را به دسته های مثبت و منفی (از روی نوشته) تقسیم بندی کنید (که به آن تحلیل احساس یا Sentiment Analyse نیز میگویند). کاربردهای طبقه‌بندی در بسیاری از کسب و کارها و استارت آپ های جهان مانند گوگل بر کسی پوشیده نیست.

این درس به صورت خط به خط با مثال عملی و کد زبان پایتون نوشته شده است. سعی کنید فایل های گفته شده در فرآیند آموزش را در یک برنامه ویرایشگر (مثلا Eclipse) باز کنید و سپس خط به خط توسط آموزش جلو بروید. یعنی هر خطی که توضیح داده شده است را نگاه کنید و سعی کنید با توجه به آموزشی که در این جا برای شما نوشته شده است، این خط را یاد بگیرید. همچنین میتوانید از Debugger به صورت اجرای خط به خط کدها استفاده کنید.

با دقت این درس را بخوانید و سعی کنید آرام آرام مباحث و کدها را یاد بگیرید. اگر سعی کنید سریع فرآیند آموزش این درس ها را طی کنید، احتمالا همان اندازه سریع هم، محتوای آموزشی از ذهن شما بیرون می رود.

دروس این دوره به ترتیب زیر پیشنهاد می شود:

درس ۱:
تفاوت طبقه‌بندی و رگرسیون همراه با مثال کاربردی
درس ۲:
اولین مثال کاربردی با Python و Scikit Learn
درس ۳:
ذخیره و بازیابی الگوریتم داده‌کاوی بر روی هارد دیسک
درس ۴:
نحوه کار کرد الگوریتم K نزدیک ترین همسایه (KNN)، بهینه سازی و پارامترها
درس ۵:   بررسی توابع مختلف و کاربرد آن ها در الگوریتم KNN در Scikit Learn