طبقه بندی(Classification) چیست؟

مانند مثال قبل در درس داده کاوی چیست؟، فرض کنید مدیریت یک بانک را برعهده دارید که ۱۰۰هزار مشتری دارد و میخواهید به یک سری از مشتریان خود وام دهید. طبیعتا به افرادی وام را خواهید داد که شانس پس دادن بیشتری داشته باشند. هر کدام از این افراد نیز، دارای خصوصیات مختلفی هستند. برای مثال، آیا این شخص خانه دارد یا نه؟ این شخص دارای اتومبیل شخصی هست یا خیر؟ حقوق دریافتی این شخص چقدر است؟ و… .

از طرفی فرض کنید، این بانک دارای یک سابقه ۱۰هزار تایی از مشتریانی است که وام گرفته اند(یا پس داده اند یا خیر). این افراد به دو دسته(۲ کلاس) تقسیم شده اند، یا توانسته اند وام خود را بازگردانند یا خیر. همان طور که گفتیم این افراد خصوصیات یا ویژگی های مختلفی داشته اند. پس نگاهی به جدول زیر بیندازید:

تفسیر این جدول(ماتریس) ساده است. همان طور که مشاهده میکنید، شخص شماره ۱، دارای منزل است، تعداد ۲فرزند دارد، حقوق ماهیانه معادل ۸۰۰هزار تومان دارد و یک اتومبیل از خود دارد. در ستون آخر(ستون برچسب یا LABEL) مشاهده میکنید که این شخص توانسته وام خود را برگرداند. شخص شماره ۲ و ۳ هم به همین ترتیب است. ولی شخص شماره ۴، با ویژگی هایی که دارد، نتوانسته وام دریافتی خود را بازگرداند. این سه مورد از ۱۰هزار مشتری مختلفی است که در پایگاه داده بانک ذخیره شده است.

همان طور که مشاهده میکنید، در جدول بالا(که در داده کاوی به ماتریس معروف است)، هر سطر نمایشگر یک فرد خاص(یک نمونه یا sample)، و هر ستون نمایشگر یک ویژگی یا Feature است. به ویژگی ها در داده کاوی اصطلاحا بٌعد(Dimension) نیز گفته می شود. مثلا تصویر بالا، ۴بعدی است چون ۴ویژگی دارد. توجه کنید که ستون آخر، ستون برچسب ها یا LABELهای ماست که مشخص میکند یک نمونه خاص(در اینجا یک مشتری خاص) در هر سطر به کدام دسته (Class) تعلق دارد. در این مثال ما ۲دسته یا ۲طبقه(Class) داریم. کسانی که وام خود را پس داده اند، و کسانی که وام خود را پس نداده اند.

به طور کلی به مسئله هایی که ستون آخر(ستون طبقه یا Class) را داشته باشند، مسائل طبقه بندی یا Classification گفته می شود. این دسته از مسائل به یاگیری با ناظر(Supervised Learning) نیز معروف هستند، چون در واقع یک ناظر وجود دارد که ستون آخر را برای ما پر کند.

الگوریتم های یادگیری ماشین و داده کاوی که کار طبقه بندی را انجام میدهند(مانند SVM، Random Forest، Naive Bayes و…) میتوانند این جدول یا همان ماتریس را به عنوان ورودی قبول کنند و از این ماتریس و ویژگی های آن، طبقه یا Class موجود را یادبگیرند. سپس اگر یک نمونه جدید(مثلا یک مشتری جدید) – که طبقه آن را نمیدانیم – به الگوریتمی که یادگرفته است داده شود، این الگوریتم میتواند این نمونه را به طبقه های احتمالا درست(که قبلا دیده است) طبقه بندی یا Classification کند. مثلا یک مشتری جدید با ۴ویژگی جدید(۴ بعد مسئله)، به الگوریتم داده میشود، و الگوریتم میتواند حدس بزند(با توجه به داده هایی که یادگرفته است) که این مشتری میتواند وام خود را پس دهد یا خیر.

4 دیدگاه برای “طبقه بندی(Classification) چیست؟”

  1. خیلی ازتون ممنونم. معلومه این متن رو کسی نوشته که عمیقا داده کاوی و یادگیری ماشین رو بلده. همین باعث میشه هر فردی با هر تخصص غیر مرتبطی کاملا این مباحث رو بفهمه.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *