مدل‌های احتمالی در مقابل مدل‌های قطعی در طبقه‌بندی داده‌ها

مدرس: مسعود کاویانی

همان‌طور که در دروس قبلی در مورد الگوریتم‌های طبقه‌بندی خواندیم، الگوریتم‌های طبقه‌بندی می‌توانستند از روی داده‌ها یادگیری را انجام داده و بعد از آن، نمونه‌های جدید را طبقه‌بندی کرده و به یکی از برچسب‌های موجودِ قبلی، برچسب‌گذاری نمایند. بسیاری از این الگوریتم‌ها، می‌توانند به جای برچسب‌زنیِ قطعی، احتمال هر کدام از برچسب‌های (طبقه‌های) موجود را برای نمونه‌ی جدید بیان کنند و در این درس به بررسی این روش خواهیم پرداخت.

فرض کنید الگوریتمی دارید که با یادگیری از مجموعه‌ی داده‌ی مشتریانِ یک بانک، می‌تواند پیش‌بینی کند که کدام یک از متقاضیانِ دریافت وام، می‌توانند وامِ خود را بازگردانند و کدام یک از آن‌ها نمی‌توانند. در واقع الگوریتم بعد از یادگیری، یک مشتری جدیدِ متقاضی وام را به طبقه‌ی بلی یا خیر، طبقه‌بندی می‌کند که نشان می‌دهد این شخص می‌تواند وام خود را بازگرداند یا خیر.

حال فرض کنید الگوریتم به جای اینکه به صورت قطعی بگوید که شخصِ متقاضیِ وام، می‌تواند وام خود را پس دهد یا خیر، این کار را به صورت احتمالی (Probabilistic) انجام دهد. یعنی بگوید این مشتری به احتمالِ ۷۰ درصد می‌تواند وام را پس دهد و به احتمال ۳۰ درصد نمی‌تواند وام خود را بازگرداند. به این گونه مدل‌ها، مدل‌های احتمالی در طبقه‌بندی می‌گویند که قابلیت انعطاف بیشتری برای تصمیم‌گیری را به انسان می‌دهد. برای نمونه در همین مثال بالا، اگر حد آستانه (Threshold) را برابر ۵۰ درصد بگذاریم و بگوییم که اگر احتمالِ رخدادِ طبقه‌ی بلی، بیشتر از ۵۰ درصد بود، می‌تواند وام را برگرداند و در غیر این صورت خیر. این حد آستانه می‌تواند توسط شخصِ تصمیم‌گیر و متخصص علم داده تغییر پیدا کند که باعث تغییر در سخت‌گیری نسبت به یک طبقه می‌شود.

بسیار از الگوریتم‌ها، قابلیت مدل‌سازی و پیش‌بینیِ احتمالی را دارند. اگر درسِ «الگوریتم KNN» را خوانده باشید، به سادگی متوجه می‌شوید که این الگوریتم توانایی ساختِ مدل احتمالی را دارد. برای مثال اگر در این الگوریتم K را برابر ۱۰ قرار دهیم و در هنگام پیش‌بینی ۶ همسایه از همسایه‌های یک نمونه، وام را بازگردانده باشند و ۴ همسایه، افرادی باشند که نتوانسته‌اند وام را بازگردانند، این مدل می‌تواند بگوید که این نمونه‌ی جدید، به احتمال ۶۰ درصد توانایی بازگرداندن وام را دارد.

این مدل‌های احتمالی قابلیت انعطاف‌پذیری به شخصِ تصمیم‌گیر یا متخصص علم داده می‌دهد. برای نمونه در همان مثال بالا، اگر حد آستانه را برابر با ۷۰ درصد بگذاریم، نوعی سخت‌گیری انجام داده‌ایم. یعنی یک شخص بایستی احتمالی بالاتر از ۷۰ درصد برای بازگرداندن وام داشته باشند تا مشمول دریافت وام گردد. در واقع شخصِ تصمیم‌گیر، می‌تواند با تغییر این حد آستانه، سخت‌گیری را برای قبول یا ردِ یک طبقه تغییر دهد.

همان‌طور که حدس می‌زنید این مدل‌های احتمالی قابلیت اجرا بر روی مسائل چند کلاسه را نیز دارا هستند و می‌توان از آن‌ها در این دست از مسائل با طبقه‌های بیشتر از ۲ نیز، استفاده کرد. الگوریتم‌هایی مانند درخت‌ها و جنگل تصادفی و بسیاری از الگوریتم‌های طبقه‌بندیِ دیگر نیز، می‌توانند پیش‌بینی خود را به جای پیش‌بینیِ قطعی، به صورت پیش‌بینیِ احتمالی ارائه دهند.

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

8 دیدگاه دربارهٔ «مدل‌های احتمالی در مقابل مدل‌های قطعی در طبقه‌بندی داده‌ها»

  1. شما فوق العاده این. اینقدر مطالب ملموس و قابل فهمه آدم باورش نمیشه بین این همه منابع آموزشی فارسی که همشون ترجمه ی تحت اللفظی متون خارجی و غیرقابل فهم هستند, چنین آموزشی وجود داشته باشه.خسته نباشین واقعا. مطالب سایتتون هربار یه گرهی از کارم باز میکنه و حالمو خوب میکنه. موفق باشید

  2. عرض سلام و خسته نباشید خدمت آقای کاویانی عزیز.
    واقعا جای تشکر داره، بسیار قابل درک و مفهومی ارائه میدید مطالب رو، تمام سرفصل های درسی این سایت رو با اشتیاق خوندم.

  3. با سلام، من خودم عضو هیات علمی دانشگاه هستم و با این مطالب آشنا. مطالب خیلی روان ارائه شدند و درک بسیار خوبی به خواننده می دهند. همه اینها گویای فهم عمیق مدرسان از موضوع و هنرمندی آنها در ارائه است. برایتان آرزوی استمرار موفقیت در مسیری که پیش گرفته اید دارم.

  4. سلام . به خاطر مطالب پرمحتوایی که قرار میدید خیلی سپاسگزارم ازتون . خیلی عالی هستن و کمک خیلی زیادی به من کردن تا اینجا .میخواستم ازتون خواهش کنم راجع به طبقه بندی جریان داده ها با پیش بینی کلاس جدید ، هم اگه ممکنه صحبت کنید .
    بازم ممنون

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *