طبقه‌بندی (Classification) چیست؟

مدرس: مسعود کاویانی

مانند مثال قبل در درس داده‌کاوی چیست؟، فرض کنید مدیریتِ یک بانک را برعهده دارید که ۱۰۰ هزار مشتری دارد و می‌خواهید به یک سری از مشتریانِ خود وام دهید. طبیعتاً به افرادی وام را خواهید داد که شانسِ برگرداندن وام توسط آن‌ها بیشتر باشد. هر کدام از این افراد نیز، دارای خصوصیات مختلفی هستند (ویژگی‌های آن‌ها). برای مثال، آیا این شخص خانه دارد یا نه؟ این شخص دارای اتومبیل شخصی هست یا خیر؟ حقوق دریافتیِ این شخص چقدر است؟ و… .

حال فرض کنید این بانک دارای یک سابقه‌ی ۱۰ هزار تایی از مشتریانی است که وام گرفته‌اند که یا توانسته‌اند برگردانند یا خیر. این افراد به دو دسته (۲ کلاس) تقسیم شده اند، یا توانسته اند وام خود را بازگردانند (کلاسِ ۱) یا خیر (کلاسِ ۲). همان طور که گفتیم این افراد خصوصیات یا ویژگی‌های مختلفی داشته‌اند. پس نگاهی به جدول زیر بیندازید:

تفسیر این جدول که نوعی ماتریس نیز هست، ساده است. همان‌طور که مشاهده می‌کنید، شخصِ شماره‌ی ۱، دارای منزل است، تعداد ۲فرزند دارد، حقوق ماهیانه معادل ۸۰۰ هزار تومان دارد و یک اتومبیل از خود دارد. در ستون آخر (ستون برچسب یا lable) مشاهده میکنید که این شخص توانسته وام خود را برگرداند. شخص شماره ۲ و ۳ هم به همین ترتیب است یعنی توانسته‌اند وامِ خود را برگردانند. ولی شخصِ شماره‌ی ۴، با ویژگی‌هایی که دارد، نتوانسته وام دریافتیِ خود را بازگرداند. این سه مورد از ۱۰ هزار مشتریِ مختلفی است که در پایگاه داده‌ی بانک ذخیره شده‌اند.

همان‌طور که مشاهده می‌کنید، در جدولِ بالا (که در داده‌کاوی به ماتریس معروف است)، هر سطر نمایشگرِ یک فرد خاص است. به این فرد خاص، یک رکورد یا یک نمونه یا یک sample یا یک tuple گفته می‌شود. و هر ستون نمایشگرِ یک ویژگی یا همان feature است. به ویژگی‌ها در داده‌کاوی اصطلاحاً بٌعد (dimension) نیز گفته می‌شود. مثلاً داده‌های موجود در تصویرِ بالا، ۴بعدی است چون ۴ ویژگی (ستون) دارد. توجه کنید که ستونِ آخر، ستونِ برچسب‌ها یا همان lableهای ماست که مشخص میکند یک نمونه‌ی خاص، در هر سطر به کدام دسته (class) تعلق دارد. در این مثال ما ۲ دسته یا ۲ طبقه (class) داریم. کسانی که وام خود را پس داده‌اند، و کسانی که وام خود را پس نداده.اند.

به طور کلی به مسئله‌هایی که ستون طبقه یا class را داشته باشند، مسائل طبقه‌بندی یا classification گفته می‌شود. این دست از مسائل به یاگیریِ با ناظر (supervised learning) نیز معروف هستند، چون در واقع یک ناظر وجود دارد که ستون آخر را برای ما برچسب‌زنی کند (مثلاً در این‌جا مدیر بانک، تعدادی مشخصی از مشتریان را برای ما برچسب زده است).

الگوریتم‌های یادگیری ماشین و داده‌کاوی که عملِ طبقه‌بندی را انجام می‌دهند (مانند SVM، Random Forest، Naive Bayes و…) می‌توانند این جدول یا همان ماتریس را به عنوانِ ورودی قبول کنند و از این ماتریس و ویژگی‌های آن، الگوی موجود در هر طبقه یا class را یاد بگیرند. سپس اگر یک نمونه‌ی جدید (مثلاً یک مشتریِ جدید) – که طبقه‌ی آن را نمی‌دانیم – به الگوریتمی که یادگرفته است داده شود، این الگوریتم می‌تواند این نمونه‌ی جدید را به طبقه‌های احتمالاً درست (که قبلا دیده است) طبقه‌بندی یا classification کند. مثلاً یک مشتریِ جدید با ۴ ویژگی، به الگوریتم داده می‌شود، و الگوریتم می‌تواند با توجه به داده هایی که یادگرفته است پیش‌بینی کند که این مشتریِ جدید می‌تواند وام خود را پس دهد یا خیر؟

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

33 دیدگاه دربارهٔ «طبقه‌بندی (Classification) چیست؟»

  1. سلام
    من دانشجوی ترم اول ارشد نرم افزارم و دنبال یه منبع میگشتم تا با مفاهیم مختلف داده کاوی آشنا بشم و …. و شما خیلی عالی و آکادمیک توضیح دادید. ممنونم 🌹🌹🌹🌹
    از خدای بزرگ برای شما عزیزان خیر دنیا و آخرت رو خواستارم‌

  2. سلام. جناب کاویانی سپاسگذارم بابت توضیحات ساده و فوق الاده روانتون. یعنی بهتر ازین نمیشه این بحثا رو توضیح داد. حرف ندارید.

  3. با سلام و تشکر از اطلاعات خوبتون
    ببخشید میشه راهنمایی کنید از داده کاوی چطور میشه در تحلیل محتوای اخبار(موضوعی مثلا خاص) در یک روزنامه استفاده کرد؟

  4. سلام جناب کاویانی
    از همه مطالب عالی سایتتون کمال امتنان را دارم. هر صفحه از مطالب رو میخونم کلی مطلب رو درک میکنم با اینکه رشتم مرتبط نیست. سپاسگزاری من قطعا در کلمات نمیگنجه اما از صمیم قلبم واقعا از خدا براتون بهتر از بهترینها رو میخوام. پله های موفقیت رو هر روز محکمتر از قبل بپیمایید که واقعا شایسته شماست.

  5. سلام من دانشجوی دکتری مواد هستم،
    مطالبتان قابل فهم است. فقط برای آوردن مطالب در پایان‌ نامه به رفرنس و کتاب و… نیاز هست!!!!!
    امکانش هست رفرنس هایی را به ما معرفي کنید که با این روال فکری شما همخوانی داشته باشه.
    خیلی ممنونم

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *