همانطور که در دروس قبلی در مورد الگوریتمهای طبقهبندی خواندیم، الگوریتمهای طبقهبندی میتوانستند از روی دادهها یادگیری را انجام داده و بعد از آن، نمونههای جدید را طبقهبندی کرده و به یکی از برچسبهای موجودِ قبلی، برچسبگذاری نمایند. بسیاری از این الگوریتمها، میتوانند به جای برچسبزنیِ قطعی، احتمال هر کدام از برچسبهای (طبقههای) موجود را برای نمونهی جدید بیان کنند و در این درس به بررسی این روش خواهیم پرداخت.
فرض کنید الگوریتمی دارید که با یادگیری از مجموعهی دادهی مشتریانِ یک بانک، میتواند پیشبینی کند که کدام یک از متقاضیانِ دریافت وام، میتوانند وامِ خود را بازگردانند و کدام یک از آنها نمیتوانند. در واقع الگوریتم بعد از یادگیری، یک مشتری جدیدِ متقاضی وام را به طبقهی بلی یا خیر، طبقهبندی میکند که نشان میدهد این شخص میتواند وام خود را بازگرداند یا خیر.
حال فرض کنید الگوریتم به جای اینکه به صورت قطعی بگوید که شخصِ متقاضیِ وام، میتواند وام خود را پس دهد یا خیر، این کار را به صورت احتمالی (Probabilistic) انجام دهد. یعنی بگوید این مشتری به احتمالِ ۷۰ درصد میتواند وام را پس دهد و به احتمال ۳۰ درصد نمیتواند وام خود را بازگرداند. به این گونه مدلها، مدلهای احتمالی در طبقهبندی میگویند که قابلیت انعطاف بیشتری برای تصمیمگیری را به انسان میدهد. برای نمونه در همین مثال بالا، اگر حد آستانه (Threshold) را برابر ۵۰ درصد بگذاریم و بگوییم که اگر احتمالِ رخدادِ طبقهی بلی، بیشتر از ۵۰ درصد بود، میتواند وام را برگرداند و در غیر این صورت خیر. این حد آستانه میتواند توسط شخصِ تصمیمگیر و متخصص علم داده تغییر پیدا کند که باعث تغییر در سختگیری نسبت به یک طبقه میشود.
بسیار از الگوریتمها، قابلیت مدلسازی و پیشبینیِ احتمالی را دارند. اگر درسِ «الگوریتم KNN» را خوانده باشید، به سادگی متوجه میشوید که این الگوریتم توانایی ساختِ مدل احتمالی را دارد. برای مثال اگر در این الگوریتم K را برابر ۱۰ قرار دهیم و در هنگام پیشبینی ۶ همسایه از همسایههای یک نمونه، وام را بازگردانده باشند و ۴ همسایه، افرادی باشند که نتوانستهاند وام را بازگردانند، این مدل میتواند بگوید که این نمونهی جدید، به احتمال ۶۰ درصد توانایی بازگرداندن وام را دارد.
این مدلهای احتمالی قابلیت انعطافپذیری به شخصِ تصمیمگیر یا متخصص علم داده میدهد. برای نمونه در همان مثال بالا، اگر حد آستانه را برابر با ۷۰ درصد بگذاریم، نوعی سختگیری انجام دادهایم. یعنی یک شخص بایستی احتمالی بالاتر از ۷۰ درصد برای بازگرداندن وام داشته باشند تا مشمول دریافت وام گردد. در واقع شخصِ تصمیمگیر، میتواند با تغییر این حد آستانه، سختگیری را برای قبول یا ردِ یک طبقه تغییر دهد.
همانطور که حدس میزنید این مدلهای احتمالی قابلیت اجرا بر روی مسائل چند کلاسه را نیز دارا هستند و میتوان از آنها در این دست از مسائل با طبقههای بیشتر از ۲ نیز، استفاده کرد. الگوریتمهایی مانند درختها و جنگل تصادفی و بسیاری از الگوریتمهای طبقهبندیِ دیگر نیز، میتوانند پیشبینی خود را به جای پیشبینیِ قطعی، به صورت پیشبینیِ احتمالی ارائه دهند.
- ۱ » الگوریتم K نزدیک ترین همسایه (KNN)
- ۲ » درخت های تصمیم جهت طبقهبندی (Decision Trees)
- ۳ » الگوریتم درخت تصمیم ID3 و ساختار Entropy و Gain
- ۴ » آشنایی با مفهوم Overfitting و Underfitting در طبقهبندی
- ۵ » آشنایی با مفهوم Bias و Variance در طبقهبندی
- ۶ » الگوریتم طبقهبندی درخت تصمیم C4.5
- ۷ » الگوریتم طبقه بند درخت تصمیم CART
- ۸ » طبقه بند ترکیبی (Ensemble Classifier) و مبحث Bagging و Boosting
- ۹ » الگوریتم جنگل تصادفی (Random Forest)
- ۱۰ » رگرسیون لجستیک (Logistic Regression)
- ۱۱ » مسائل طبقهبندی دودویی (binary)، چند کلاسه (Multi Class)، چند برچسبه (Multi Label) و تفاوت آنها
- ۱۲ » روش «یک در مقابل همه (One vs. All)» برای طبقهبندی دادههای چند کلاسه
- ۱۳ » روش «یک در مقابل یک (One vs. One)» در طبقهبندی
- ۱۴ » مدلهای احتمالی در مقابل مدلهای قطعی در طبقهبندی دادهها
- ۱۵ » ماتریس اغتشاش (Confusion Matrix) و معیار دقت (Accuracy)
- ۱۶ » معیار صحت (Precision)، پوشش (Recall) و معیار F
- ۱۷ » معیار کاپا (Kappa) برای ارزیابی طبقهبندیهای چندکلاسه
شما فوق العاده این. اینقدر مطالب ملموس و قابل فهمه آدم باورش نمیشه بین این همه منابع آموزشی فارسی که همشون ترجمه ی تحت اللفظی متون خارجی و غیرقابل فهم هستند, چنین آموزشی وجود داشته باشه.خسته نباشین واقعا. مطالب سایتتون هربار یه گرهی از کارم باز میکنه و حالمو خوب میکنه. موفق باشید
علاوه بر هنرمندی در ساده سازی مطالب، سایت سبک ux قابل قبولی دارید
عرض سلام و خسته نباشید خدمت آقای کاویانی عزیز.
واقعا جای تشکر داره، بسیار قابل درک و مفهومی ارائه میدید مطالب رو، تمام سرفصل های درسی این سایت رو با اشتیاق خوندم.
با سلام، من خودم عضو هیات علمی دانشگاه هستم و با این مطالب آشنا. مطالب خیلی روان ارائه شدند و درک بسیار خوبی به خواننده می دهند. همه اینها گویای فهم عمیق مدرسان از موضوع و هنرمندی آنها در ارائه است. برایتان آرزوی استمرار موفقیت در مسیری که پیش گرفته اید دارم.
لطف دارید جناب دانیالی عزیز
به نظر منم نقطه قوت این سایت در تولید محتوای آموزشی ساده و قابل فهمه.
دست مریزاد
سلام . به خاطر مطالب پرمحتوایی که قرار میدید خیلی سپاسگزارم ازتون . خیلی عالی هستن و کمک خیلی زیادی به من کردن تا اینجا .میخواستم ازتون خواهش کنم راجع به طبقه بندی جریان داده ها با پیش بینی کلاس جدید ، هم اگه ممکنه صحبت کنید .
بازم ممنون
واقعا عالیه. خییییلی ممنونم ازتون