دوره خوشه‌بندی (Clustering) و الگوریتم های مختلف آن

یکی از دروسِ دوره‌ی آشنایی با داده‌کاوی، درسِ آشنایی با خوشه‌بندی بود. همان‌طور که در آن‌جا مشاهده کردید، تفاوت خوشه‌بندی و طبقه‌بندی در این است که داده‌های مورد نیاز برای فرآیند داده‌کاوی و یادگیری‌ماشین، در طبقه‌بندی دارای یک برچسب هستند، که این برچسب‌ها توسط یک شخصِ ناظر گذاشته شده است. مانندِ مثالِ مدیرِ بانک در درس طبقه‌بندی، یا مثال پراید و اتوبوس در درس شبکه های عصبی و یا مثال رئیس دانشکده در درس طبقه‌بند درخت تصمیم که همه‌ی اینها توسطِ ناظری در یک مجموعه داده برچسب‌گذاری شده بودند، این در حالی است که در خوشه‌بندی یا همان clustering داده‌های ما دارای برچسب نیستند و در واقع بایستی گروه‌بندیِ ذاتیِ داده‌ها را در میان آن ها پیدا کنیم. در واقع در خوشه‌بندی به دنبال ایجادِ یک الگو هستیم که بر اساس آن، الگوریتم بتواند تمایزِ ذاتیِ داده‌ها را از یکدیگر کشف کند. در واقع به جای اینکه به دنبال پیش‌بینی در داده‌ها باشیم به دنبالِ یافتنِ نظم‌های پنهان و الگوها در داده‌ها جهت گروه‌بندی آن‌ها می‌گردیم.

در این دوره قصد داریم با استفاده از منابع و مراجعِ مختلف، الگوریتم‌های متنوعِ خوشه‌بندی و کاربردهایی که در این الگوریتم‌ها وجود دارند را با یکدیگر یاد بگیریم. برخی از کتاب‌هایی که در ساختِ سرفصل و محتوا از آن ها کمک میگیریم و به عنوان منابع از آن ها استفاده می‌کنیم به شرح زیر است:

» کتاب مرجع داده‌کاوی آقای HAN
» کتاب Clustering آقای Xu
» کتاب Data Clustering آقای Aggrawal
» کتاب Data Clustering آقای Gab

سرفصل‌ها و ترتیب پیشنهادی برای مطالعه‌ی این دوره به صورت زیر است:

 درس پیش نیاز ۱ درس آشنایی با خوشه‌بندی (Clustering)  (از دوره‌ی داده‌کاوی و کاربردها)
درس پیش نیاز ۲ ویژگی (Feature) یا همان بُعد (Dimension) در داده‌کاوی چیست؟  (از دوره‌ی داده‌کاوی و کاربردها)
درس ۱ آشنایی با الگوریتم خوشه‌بندی KMeans
درس ۲ الگوریتم DBSCAN مبتنی بر غلظت
درس ۳ الگوریتم خوشه‌بندی MeanShift
درس ۴ الگوریتم خوشه‌بندی طیفی (Spectral Clustering)
درس ۵ الگوریتم خوشه‌بندی Gaussian Mixture Model و روش Expectation Maximization
درس ۶ الگوریتم خوشه‌بندی سلسله مراتبی
این دوره در حال تکمیل است…