طبقه‌بندی (Classification) چیست؟ | چیستیو

این درس از مجموعه دوره مقدمات داده‌کاوی (Data Mining) و یادگیری ماشین (Machine Learning) است

پیش نیاز این درس:

بهتر است نگاهی به درس داده کاوی چیست؟ و درس یادگیری ماشین چیست؟ بیندازید

مدرس: مسعود کاویانی

مانند مثال قبل در درس داده‌کاوی چیست؟، فرض کنید مدیریتِ یک بانک را برعهده دارید که ۱۰۰ هزار مشتری دارد و می‌خواهید به یک سری از مشتریانِ خود وام دهید. طبیعتاً به افرادی وام را خواهید داد که شانسِ برگرداندن وام توسط آن‌ها بیشتر باشد. هر کدام از این افراد نیز، دارای خصوصیات مختلفی هستند (ویژگی‌های آن‌ها). برای مثال، آیا این شخص خانه دارد یا نه؟ این شخص دارای اتومبیل شخصی هست یا خیر؟ حقوق دریافتیِ این شخص چقدر است؟ و… .

حال فرض کنید این بانک دارای یک سابقه‌ی ۱۰ هزار تایی از مشتریانی است که وام گرفته‌اند که یا توانسته‌اند برگردانند یا خیر. این افراد به دو دسته (۲ کلاس) تقسیم شده اند، یا توانسته اند وام خود را بازگردانند (کلاسِ ۱) یا خیر (کلاسِ ۲). همان طور که گفتیم این افراد خصوصیات یا ویژگی‌های مختلفی داشته‌اند. پس نگاهی به جدول زیر بیندازید:

تفسیر این جدول که نوعی ماتریس نیز هست، ساده است. همان‌طور که مشاهده می‌کنید، شخصِ شماره‌ی ۱، دارای منزل است، تعداد ۲فرزند دارد، حقوق ماهیانه معادل ۸۰۰ هزار تومان دارد و یک اتومبیل از خود دارد. در ستون آخر (ستون برچسب یا lable) مشاهده میکنید که این شخص توانسته وام خود را برگرداند. شخص شماره ۲ و ۳ هم به همین ترتیب است یعنی توانسته‌اند وامِ خود را برگردانند. ولی شخصِ شماره‌ی ۴، با ویژگی‌هایی که دارد، نتوانسته وام دریافتیِ خود را بازگرداند. این سه مورد از ۱۰ هزار مشتریِ مختلفی است که در پایگاه داده‌ی بانک ذخیره شده‌اند.

همان‌طور که مشاهده می‌کنید، در جدولِ بالا (که در داده‌کاوی به ماتریس معروف است)، هر سطر نمایشگرِ یک فرد خاص است. به این فرد خاص، یک رکورد یا یک نمونه یا یک sample یا یک tuple گفته می‌شود. و هر ستون نمایشگرِ یک ویژگی یا همان feature است. به ویژگی‌ها در داده‌کاوی اصطلاحاً بٌعد (dimension) نیز گفته می‌شود. مثلاً داده‌های موجود در تصویرِ بالا، ۴بعدی است چون ۴ ویژگی (ستون) دارد. توجه کنید که ستونِ آخر، ستونِ برچسب‌ها یا همان lableهای ماست که مشخص میکند یک نمونه‌ی خاص، در هر سطر به کدام دسته (class) تعلق دارد. در این مثال ما ۲ دسته یا ۲ طبقه (class) داریم. کسانی که وام خود را پس داده‌اند، و کسانی که وام خود را پس نداده.اند.

به طور کلی به مسئله‌هایی که ستون طبقه یا class را داشته باشند، مسائل طبقه‌بندی یا classification گفته می‌شود. این دست از مسائل به یاگیریِ با ناظر (supervised learning) نیز معروف هستند، چون در واقع یک ناظر وجود دارد که ستون آخر را برای ما برچسب‌زنی کند (مثلاً در این‌جا مدیر بانک، تعدادی مشخصی از مشتریان را برای ما برچسب زده است).

الگوریتم‌های یادگیری ماشین و داده‌کاوی که عملِ طبقه‌بندی را انجام می‌دهند (مانند SVM، Random Forest، Naive Bayes و…) می‌توانند این جدول یا همان ماتریس را به عنوانِ ورودی قبول کنند و از این ماتریس و ویژگی‌های آن، الگوی موجود در هر طبقه یا class را یاد بگیرند. سپس اگر یک نمونه‌ی جدید (مثلاً یک مشتریِ جدید) – که طبقه‌ی آن را نمی‌دانیم – به الگوریتمی که یادگرفته است داده شود، این الگوریتم می‌تواند این نمونه‌ی جدید را به طبقه‌های احتمالاً درست (که قبلا دیده است) طبقه‌بندی یا classification کند. مثلاً یک مشتریِ جدید با ۴ ویژگی، به الگوریتم داده می‌شود، و الگوریتم می‌تواند با توجه به داده هایی که یادگرفته است پیش‌بینی کند که این مشتریِ جدید می‌تواند وام خود را پس دهد یا خیر؟

این درس از مجموعه دوره مقدمات داده‌کاوی (Data Mining) و یادگیری ماشین (Machine Learning) است

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

33 دیدگاه دربارهٔ «طبقه‌بندی (Classification) چیست؟»

عااااااالی بود .توضیحاتتون خیلی خوبه

33 دیدگاه دربارهٔ «طبقه‌بندی (Classification) چیست؟»

دیدگاهتان را بنویسید لغو پاسخ