طبقه‌بندی (Classification) چیست؟ | چیستیو

این درس از مجموعه دوره مقدمات داده‌کاوی (Data Mining) و یادگیری ماشین (Machine Learning) است

پیش نیاز این درس:

بهتر است نگاهی به درس داده کاوی چیست؟ و درس یادگیری ماشین چیست؟ بیندازید

مدرس: مسعود کاویانی

مانند مثال قبل در درس داده‌کاوی چیست؟، فرض کنید مدیریتِ یک بانک را برعهده دارید که ۱۰۰ هزار مشتری دارد و می‌خواهید به یک سری از مشتریانِ خود وام دهید. طبیعتاً به افرادی وام را خواهید داد که شانسِ برگرداندن وام توسط آن‌ها بیشتر باشد. هر کدام از این افراد نیز، دارای خصوصیات مختلفی هستند (ویژگی‌های آن‌ها). برای مثال، آیا این شخص خانه دارد یا نه؟ این شخص دارای اتومبیل شخصی هست یا خیر؟ حقوق دریافتیِ این شخص چقدر است؟ و… .

حال فرض کنید این بانک دارای یک سابقه‌ی ۱۰ هزار تایی از مشتریانی است که وام گرفته‌اند که یا توانسته‌اند برگردانند یا خیر. این افراد به دو دسته (۲ کلاس) تقسیم شده اند، یا توانسته اند وام خود را بازگردانند (کلاسِ ۱) یا خیر (کلاسِ ۲). همان طور که گفتیم این افراد خصوصیات یا ویژگی‌های مختلفی داشته‌اند. پس نگاهی به جدول زیر بیندازید:

تفسیر این جدول که نوعی ماتریس نیز هست، ساده است. همان‌طور که مشاهده می‌کنید، شخصِ شماره‌ی ۱، دارای منزل است، تعداد ۲فرزند دارد، حقوق ماهیانه معادل ۸۰۰ هزار تومان دارد و یک اتومبیل از خود دارد. در ستون آخر (ستون برچسب یا lable) مشاهده میکنید که این شخص توانسته وام خود را برگرداند. شخص شماره ۲ و ۳ هم به همین ترتیب است یعنی توانسته‌اند وامِ خود را برگردانند. ولی شخصِ شماره‌ی ۴، با ویژگی‌هایی که دارد، نتوانسته وام دریافتیِ خود را بازگرداند. این سه مورد از ۱۰ هزار مشتریِ مختلفی است که در پایگاه داده‌ی بانک ذخیره شده‌اند.

همان‌طور که مشاهده می‌کنید، در جدولِ بالا (که در داده‌کاوی به ماتریس معروف است)، هر سطر نمایشگرِ یک فرد خاص است. به این فرد خاص، یک رکورد یا یک نمونه یا یک sample یا یک tuple گفته می‌شود. و هر ستون نمایشگرِ یک ویژگی یا همان feature است. به ویژگی‌ها در داده‌کاوی اصطلاحاً بٌعد (dimension) نیز گفته می‌شود. مثلاً داده‌های موجود در تصویرِ بالا، ۴بعدی است چون ۴ ویژگی (ستون) دارد. توجه کنید که ستونِ آخر، ستونِ برچسب‌ها یا همان lableهای ماست که مشخص میکند یک نمونه‌ی خاص، در هر سطر به کدام دسته (class) تعلق دارد. در این مثال ما ۲ دسته یا ۲ طبقه (class) داریم. کسانی که وام خود را پس داده‌اند، و کسانی که وام خود را پس نداده.اند.

به طور کلی به مسئله‌هایی که ستون طبقه یا class را داشته باشند، مسائل طبقه‌بندی یا classification گفته می‌شود. این دست از مسائل به یاگیریِ با ناظر (supervised learning) نیز معروف هستند، چون در واقع یک ناظر وجود دارد که ستون آخر را برای ما برچسب‌زنی کند (مثلاً در این‌جا مدیر بانک، تعدادی مشخصی از مشتریان را برای ما برچسب زده است).

الگوریتم‌های یادگیری ماشین و داده‌کاوی که عملِ طبقه‌بندی را انجام می‌دهند (مانند SVM، Random Forest، Naive Bayes و…) می‌توانند این جدول یا همان ماتریس را به عنوانِ ورودی قبول کنند و از این ماتریس و ویژگی‌های آن، الگوی موجود در هر طبقه یا class را یاد بگیرند. سپس اگر یک نمونه‌ی جدید (مثلاً یک مشتریِ جدید) – که طبقه‌ی آن را نمی‌دانیم – به الگوریتمی که یادگرفته است داده شود، این الگوریتم می‌تواند این نمونه‌ی جدید را به طبقه‌های احتمالاً درست (که قبلا دیده است) طبقه‌بندی یا classification کند. مثلاً یک مشتریِ جدید با ۴ ویژگی، به الگوریتم داده می‌شود، و الگوریتم می‌تواند با توجه به داده هایی که یادگرفته است پیش‌بینی کند که این مشتریِ جدید می‌تواند وام خود را پس دهد یا خیر؟

این درس از مجموعه دوره مقدمات داده‌کاوی (Data Mining) و یادگیری ماشین (Machine Learning) است

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

33 دیدگاه دربارهٔ «طبقه‌بندی (Classification) چیست؟»

زهره گفت:

اکتبر 18, 2019 در 2:02 ق.ظ

سلام
من دانشجوی ترم اول ارشد نرم افزارم و دنبال یه منبع میگشتم تا با مفاهیم مختلف داده کاوی آشنا بشم و …. و شما خیلی عالی و آکادمیک توضیح دادید. ممنونم 🌹🌹🌹🌹
از خدای بزرگ برای شما عزیزان خیر دنیا و آخرت رو خواستارم‌

پاسخ
ali گفت:

نوامبر 14, 2019 در 1:02 ب.ظ

سلام. جناب کاویانی سپاسگذارم بابت توضیحات ساده و فوق الاده روانتون. یعنی بهتر ازین نمیشه این بحثا رو توضیح داد. حرف ندارید.

پاسخ
بهاره سعادت گفت:

آوریل 10, 2020 در 11:04 ق.ظ

با سلام و تشکر از اطلاعات خوبتون
ببخشید میشه راهنمایی کنید از داده کاوی چطور میشه در تحلیل محتوای اخبار(موضوعی مثلا خاص) در یک روزنامه استفاده کرد؟

پاسخ
خانوم حسینی گفت:

می 5, 2020 در 10:58 ق.ظ

بسیار پرثمر بود. با ارزوی بهترینا برای شما

پاسخ
bme گفت:

سپتامبر 12, 2020 در 6:39 ب.ظ

با سلام
ممنون میشم لطفا اگر امکان دارد در مورد الگوریتم WEML هم توضیح بفرمایید.
با سپاس از لطف شما

پاسخ
الناز گفت:

آوریل 23, 2021 در 2:25 ب.ظ

سلام جناب کاویانی
از همه مطالب عالی سایتتون کمال امتنان را دارم. هر صفحه از مطالب رو میخونم کلی مطلب رو درک میکنم با اینکه رشتم مرتبط نیست. سپاسگزاری من قطعا در کلمات نمیگنجه اما از صمیم قلبم واقعا از خدا براتون بهتر از بهترینها رو میخوام. پله های موفقیت رو هر روز محکمتر از قبل بپیمایید که واقعا شایسته شماست.

پاسخ
مریم قهرمانی گفت:

جولای 12, 2021 در 2:30 ب.ظ

امکان نداره وارد این سایت بشم و با لذت فراوان از یادگیری اون رو ترک نکنم.
ممنون از این تولید محتوای قوی

پاسخ
محمدرضا بیات گفت:

مارس 21, 2022 در 11:06 ب.ظ

سلام من دانشجوی دکتری مواد هستم،
مطالبتان قابل فهم است. فقط برای آوردن مطالب در پایان‌ نامه به رفرنس و کتاب و… نیاز هست!!!!!
امکانش هست رفرنس هایی را به ما معرفي کنید که با این روال فکری شما همخوانی داشته باشه.
خیلی ممنونم

پاسخ
فاطمه گفت:

آوریل 24, 2022 در 10:48 ب.ظ

ممنون توضیحاتتون خیلی عالی بود

پاسخ
سمیرا گفت:

مارس 26, 2023 در 8:37 ق.ظ

بسیار روان و قابل فهم بیان کردید
سپاس فراوان

پاسخ

33 دیدگاه دربارهٔ «طبقه‌بندی (Classification) چیست؟»

دیدگاهتان را بنویسید لغو پاسخ