رانش یا گذار در داده‌ها (Data Drift)

در زندگی تنها تغییر است که ثابت می‌ماند – change is the only constant in life

آیا محله‌ای که در کودکی در آن‌جا زندگی می‌کردید طی ۲۰ سال گذشته تغییر کرده است؟ پاسخ احتمالاً مثبت خواهد بود. جهان در حال تغییر است و داده‌ها نیز در همین جهان زندگی می‌کنند، پس داده‌ها ممکن است پس از گذشت مدت زمانی تغییر کنند. این تغییرات در داده‌ها منجر به تغییر در الگوها نیز شده و احتمالاً مدل‌هایی که قبلاً بر روی داده‌ها یادگیری یا داده‌کاوی را انجام می‌دادند، با گذشت زمان، دقتی به مراتب پایین‌تر خواهند داشت.

ادامه خواندن “رانش یا گذار در داده‌ها (Data Drift)”

فرآیند کریسپ (CRISP) جهت انجام پروژه‌های داده‌کاوی

پروژه‌های مختلف صنعتی، هر کدام روش‌ها و فرآیندهای خاص خود را دارند. برای مثال در فرآیند مهندسی ساخت و تولید یک نرم افزار، می‌توان از روش‌های گوناگونی مانند روش آبشاری، روش حلقوی یا روش چابک استفاده کرد. برای اجرای فرآیندهای داده‌کاوی نیز، روش‌های مختلفی تولید شده است که یکی از محبوب‌ترین آن‌ها روش «فرآیند استاندارد صنعتی متقاطع» است که مخفف شده و لاتینِ آن به CRISP معروف است.

ادامه خواندن “فرآیند کریسپ (CRISP) جهت انجام پروژه‌های داده‌کاوی”

مجموعه داده‌ی نامتوازن (Imbalance) چیست؟

اگر درس طبقه‌بندی (Classification) را خوانده باشید، می‌دانید که منظور ما از طبقه یا کلاس یا همان برچسب چیست. برای مثال در همان درسِ طبقه‌بندی دیدیم که مدیرِ یک بانک می‌خواست از روی ویژگی‌های مختلفِ مشتری‌ها، تصمیم بگیرد که به آن‌ها وام بدهد/یا خیر. پس مجموعه‌ی داده‌ای از مشتری‌های قبلی آماده می‌کرد و ویژگی‌های آن‌ها به همراه بازپرداخت وام را برای هر یک به دست می‌آورد و در مجموعه‌ی داده‌ی آموزشی قرار می‌داد. فرض کنید، از بین ۱۰هزار مشتری بانک، ۵هزار نفر آن‌ها توانسته باشند وام را پس دهند و ۵هزار نفر نتواسته باشند وام خود را پس دهند. پس در این‌جا یک مجموعه‌ی داده‌ی متوازن داریم به صورتی که هر کدام از طبقه‌ها به صورت تقریبی یک اندازه داده دارند و الگوریتمِ طبقه‌بندی می‌تواند الگوهای هر دسته را پیدا کرده و یادگیری خود را از روی این مجموعه‌ی داده انجام دهد. اما همه‌ی مجموعه‌ی داده‌ها به این صورت متوازن نیستند.

ادامه خواندن “مجموعه داده‌ی نامتوازن (Imbalance) چیست؟”

مجموعه داده‌هایی با ابعاد زیاد (High Dimensional)

در درسِ ویژگی یا همان بُعد چیست، به این نکته رسیدیم که در داده‌کاوی و یادگیری ماشین، بسیاری از مواقع، داده‌ها دارای ویژگی‌های مختلفی هستند که آن‌ها را ابعاد نیز می‌نامند. مثلاً در مثال همان درس دیدیم که برای تعیین نوع اتومبیل، دو ویژگیِ طول و ارتفاع را در نظر گرفتیم که هر کدام از این‌ها یک بُعد در فضا بودند. پس مسئله در آن درس ۲بُعدی بود. اما ممکن است یک مجموعه‌ی داده دارای ابعاد بیشتری نیز باشد که می‌خواهیم در مورد آن، در این درس صحبت کنیم.

ادامه خواندن “مجموعه داده‌هایی با ابعاد زیاد (High Dimensional)”

منظور از متغیر وابسته (Dependent) و مستقل (Independent)

در بسیاری از مراجعِ داده‌کاوی، مخصوصاً آن‌هایی که پایه‌ی آماریِ بیشتری داشته باشند، از عباراتی مانندِ متغیر وابسته و متغیرِ غیر وابسته استفاده می‌کنند. در این درس می‌خواهیم به این دو مفهوم بپردازیم، کاربرد و تفاوتِ این دو دسته متغیر را در حوزه‌ی علوم داده و یادگیری ماشین درک کنیم.

ادامه خواندن “منظور از متغیر وابسته (Dependent) و مستقل (Independent)”

تفاوت داده ساختاریافته (Structured) با غیرساختاریافته (Unstructured) چیست؟

در بسیاری از مباحثِ داده‌کاوی، یادگیری ماشین و کلان‌داده‌ها (big data)، داده‌ها را می‌توان به دو دسته تقسیم‌بندی کرد:

۱. داده‌های ساختاریافته (structured data)
۲. داده‌های غیرساختاریافته (unstructured data)

این دو نوع داده تفاوت‌های اساسی با هم دارند و معمولاً در عملیات داده‌کاوی و یادگیری ماشین سعی بر این است که داده‌های غیرساختاریافته را به داده‌های ساختاریافته تبدیل کنند تا برای ماشین (کامپیوتر) قابل فهم باشد.

ادامه خواندن “تفاوت داده ساختاریافته (Structured) با غیرساختاریافته (Unstructured) چیست؟”

انتخاب ویژگی (Feature Selection) چیست؟

در مواقعی که بحث کار عملی (و صنعتی) بر روی داده‌ها پیش میآید و از مباحث تئوری و آکادمیکِ دانشگاهی فاصله می‌گیریم، شاید مهم‌ترین بخش برای عملیاتِ داده‌کاویْ عملیاتِ انتخابِ ویژگی است. در مباحثِ آکادمیک معمولا ویژگی‌ها در مسئله در اختیار کاربران قرار دارند ولی در مباحث عملی یک متخصص علوم‌داده بایستی خود (البته با همکاری تیم‌های مختلف مانند تیم فروش و…) ویژگی‌های مورد نیاز را از میان دادگان استخراج کند. حتی برخی از موارد بایستی خود به دنبال ساخت دیتاستِ جدید بگردید و داده‌ها را جمع آوری کنید. در درس ویژگی و پس از آن در داده‌کاوی چیست، با این مبحث آشنایی اولیه پیدا کردید، در این درس می‌خواهیم بیشتر به عملیاتِ انتخاب ویژگی یا همان Feature Selection که به نظرْ مهمترین بخش عملیات داده‌کاوی و یادگیری‌ماشین است بپردازیم.

ادامه خواندن “انتخاب ویژگی (Feature Selection) چیست؟”

یادگیری فعال (Active Learning) در یادگیری ماشین

در درس قبل با مفهوم یادگیری برخط یا همان online learning آشنا شدید و تفاوت آن را با یادگیریِ دسته‌ای یا همان batch learning متوجه شدید. به طور خلاصه در یادگیریِ دسته‌ای، تمامی داده‌ها در هنگام یادگیری در اختیار الگوریتم قرار دارد ولی در یادگیری برخط، داده‌ها به صورت جریانی از داده از راه می‌رسند و تمامی داده‌ها در هنگام یادگیری در اختیار الگوریتم نیست. در این درس می‌خواهیم به مفهوم یادگیری فعال یا همان active learning در داده‌کاوی و یادگیری ماشین بپردازیم که در واقع نوعی یادگیری برخط (online learning) است.

ادامه خواندن “یادگیری فعال (Active Learning) در یادگیری ماشین”

یادگیری دسته‌ای (Batch Learning) و یادگیری برخط (Online Learning)

مبحثِ یادگیری (چه یادگیری‌ماشین و چه داده‌کاوی) را از ابعاد گوناگون می‌توان نگاه کرد. یکی از این ابعاد می‌تواند تفاوت بین یادگیریِ دسته‌ای یا همان batch Learning و در مقابلِ آن، یادگیریِ برخط یا همان online learning باشد. در واقع درک تفاوت این دو روش، می‌تواند به حل مسائلِ مختلفِ این حوزه کمک کند.

ادامه خواندن “یادگیری دسته‌ای (Batch Learning) و یادگیری برخط (Online Learning)”

بررسی چند الگوریتم یادگیری ماشین (Machine Learning)

همان‌طور که در دروسِ ابتدایی صحبت کردیم، روش‌های مختلفی جهت انجام عملیات یادگیری ماشین و داده‌کاوی وجود دارند. برخی از این روش‌ها قاعدتاً مشهورتر و محبوب‌تر از بقیه شده‌اند و نام‌های مختلفی توسط دانشمندان و طراحانِ الگوریتم گرفته‌اند. در این درس سعی داریم تا به معرفیِ چند روش و الگوریتم در حوزه‌ی یادگیری ماشین با تمرکز بر بخش طبقه‌بندی (classification) به صورت خلاصه بپردازیم تا کمی فضای ذهنی خود را با این اسامی آشنا کنیم. بررسیِ دقیق‌ترِ هر کدام از این الگوریتم‌ها، خود نیاز به دروس و دوره‌های جداگانه‌ای دارد. اگر به نحوه‌ی کارکرد آن‌ها علاقه دارید، می‌توانید دوره طبقه‌بندی و الگوریتم‌ها را دنبال کنید.

ادامه خواندن “بررسی چند الگوریتم یادگیری ماشین (Machine Learning)”