درخت های تصمیم جهت طبقه‌بندی (Decision Trees) | چیستیو

این درس از مجموعه دوره طبقه‌بندی (Classification) و الگوریتم های مختلف آن است

پیش نیاز این درس:

حتما درس طبقه بندی چیست؟ را خوانده باشید. بهتر است دروس اولیه دوره آشنایی با داده کاوی را نیز مروری کرده باشید.

مدرس: مسعود کاویانی

درخت‌ها کاربردِ فراوانی در علومِ کامپیوتر و مهندسی نرم‌افزار دارند. از ساختمان داده و طراحیِ الگوریتم تا سیستم‌های عامل و سیستم‌های توزیع شده، همه به نوعی و در قسمت‌های مختلف از درخت‌های تصمیم استفاده کرده‌اند. در داده‌کاوی و طبقه‌بندی نیز این درخت‌ها جایگاهِ ویژه‌ای دارند و بسیاری از الگوریتم‌های طبقه‌بندی بر پایه‌ی این درخت‌ها ساخته شده‌اند. به آن‌ها درخت‌های تصمیم می‌گویند زیرا می‌توانند یک تصمیمِ خاص (مثلاً اینکه به یک شخص وام بدهیم یا نه) را بر اساسِ اطلاعاتِ گذشته اتخاذ کنند. اجازه بدهید مانند دروس قبلی، با یک مثال بحث را آغاز کنیم.

فرض کنید شما مدیر یک دانشکده هستید و میخواهید یک طبقه بند (classifier) بسازید تا با کمک این طبقه‌بند مشخص کنید کدام یک از دانشجوهای این دانشکده می‌توانند در آزمون دکتری، قبول شوند (در واقع می‌خواهید یک پیش‌بینی انجام دهید). این پیش‌بینی می‌تواند باعثِ این شود که شما از این به بعد دانشجویان با پتاسیلِ بالا را پیدا کرده و روی آن‌ها سرمایه‌گذاری کنید. مثلاً به آن‌ها وام‌هایی دهید تا بتوانند مقالات بهتری را در نشریات معتبرتر صادر کنند. در واقع می‌خواهید یک مدلِ طبقه‌بندی ایجاد کنید تا بتواند توسط داده‌های گذشته، یک مدل ساخته و از این به بعد، هر بار که یک دانشجوی جدید را به مدلِ یادگرفته شده دادیم، این مدل بتواند بفهمد که این دانشجو با چه احتمالی می‌تواند در آزمونِ دکتری قبول شود. همان طور که از دروس گذشته به یاد دارید، باید یک مجموعه داده (dataset) از دانشجویانِ گذشته که در آزمونِ دکتری قبول شدند یا نشدند ایجاد کنیم تا بتوانیم آن را به الگوریتمِ داده‌کاوی بدهیم و این الگوریتم یاد بگیرد. فرض کنید مجموعه داده را به این صورت می‌سازیم:

همان طور که میبیند در این‌جا دانشجویان قبلیِ ما که مورد بررسی قرار گرفته‌اند، ۷دانشجو هستند که هر کدام ۴ ویژگی دارند. ۱. معدل کل (عدد) ۲. تعداد مقالات (عدد) ۳. مدرک IELTS زبان دارند (۰ یا ۱)؟ ۴. سنوات تحصیلی (عدد). و همچنین یک ستونِ برچسب که اگر دانشجو در در مقطع دکتری قبول شده بود، بلی و اگر قبول نشده بود، خیر است. در واقع این داده‌ها مربوط به داده‌های مختلفِ دانشجوهای قبلی هستند که قبلاً در آزمون دکتری شرکت کرده‌اند.

جدول بالا نوعی داده‌های آموزشی است که الگوریتم می‌تواند از روی آن یاد بگیرد. مثلاً موردِ شماره‌ی ۱# را نگاه کنید. این دانشجو معدل ۱۹/۵ دارد، تعداد ۳ مقاله ارائه کرده است و مدرک زبان IELTS دارد، همچنین سنوات تحصیلی او ۳ سال بوده است. این دانشجو در مقطع دکتری قبول شده است.

درخت های تصمیم با توجه به داده‌ها مبادرت به ایجادِ یک ساختارِ درختی می‌کنند که مانندِ قانون‌های IF و ELSE عمل کرده و در نهایت به برچسب‌های دلخواهِ ما که از داده‌های آموزشی یاد گرفته شدند، می‌رسند. فرض کنیدمی‌خواهیم داده‌های بالا را به صورت یک درخت بسازیم. شکلِ زیر در واقع یک نمونه درخت تصمیم از روی داده‌های بالا است:

درخت تصمیم داده‌کاوی

تفسیر شکلِ بالا بسیار ساده است، این شکل می‌تواند در یک زبان برنامه‌نویسی به وسیله‌ی دستورات IF و Else پیاده‌سازی شود. ریشه این درخت (سطح اول)، این است که آیا شخص مدرک IELTS زبان دارد یا خیر؟ اگر مدرک IELTS داشته باشد به زیر درختِ سمت چپ می‌رویم و اگر مدرک IELTS زبان نداشته باشد به زیر درختِ سمت راست می‌رویم. فرض کنید به زیر درخت سمت چپ رفته‌ایم، حال باید بررسی کنیم که آیا شخص تعداد مقالاتی که ارائه کرده است بیشتر یا مساوی ۲ بوده یا خیر؟ اگر بیشتر یا مساوی ۲ بوده، این شخص احتمالاً می‌تواند در آزمون دکتری قبول شود. در واقع درخت تصمیم به این نتیجه رسیده است که اگر یک شخص، مدرکِ IELTS زبان داشته باشد و تعداد مقالاتش بیشتر یا مساوی ۲ باشد، این شخص می‌تواند در آزمون دکتری قبول شود. برای مثالِ دیگر، اگر شخصی، مدرک IELTS زبان داشته باشد (سطح اول درخت) و تعداد کمتر از ۲ مقاله ارائه کرده باشد (سطح دوم در زیر درخت چپ)، الگوریتم تشخیص می‌دهد که این شخص نمی‌تواند آزمون دکتری قبول شود. پس وظیفه اصلی یک درخت تصمیم که الگوریتم‌های آن را در درس های بعدی خواهیم دید، ساخت این درخت به صورت پویا (بدون کد نویسیِ صریح) است به گونه‌ای که خودِ درخت بتواند از روی داده‌های آموزشیِ موجود، شاخه‌ها و برگ‌های خود را پیدا کند. همان طور که می‌بینید، برگ‌های این درخت، همان برچسب‌های داده‌های آموزشی هستند (مثلاً اینجا دکتری قبول شده است یا خیر).

حال فرض کنید این درخت توسط یکی از الگوریتم‌های درخت‌های تصمیم (decision trees) ساخته شده است. در واقع عملیاتِ یادگیری در درختِ تصمیم، همان ساخت عناصر و برگ‌های یک درخت است. شما به عنوان رئیسِ دانشکده می‌خواهید یک دانشجو با مشخصات زیر را بررسی کنید که با توجه به داده‌های موجود و درختِ یادگرفته شده، می‌تواند دکتری قبول شود یا خیر. این کار را به مدل درخت تصمیم که از داده‌های گذشته یاد گرفته است، واگذار می‌کنیم:

این دانشجوی جدید معدل ۱۵.۵ دارد، تعداد ۵ مقاله ارائه کرده است ولی مدرک IELTS زبان ندارد. همچنین ۳ سال سنوات تحصیلی دارد. می‌خواهیم بدانیم آیا این شخص در آزمون دکتری قبول می‌شود یا خیر؟

اگر بخواهیم با توجه به درخت ساخته شده در شکل بالا، این دانشجو را ارزیابی کنیم مانند شکل زیر مسیر را ادامه می‌دهیم تا به یکی از برگ‌ها برسیم (مسیر حاشور خورده قرمز):

درخت تصمیمِ ساخته شده به ما می‌گوید که این دانشجو احتمالاً نمی‌تواند در آزمون دکتری قبول شود. این طبقه‌بندی با استفاده از درختی که توسط داده‌های گذشته ساخته بود، انجام شد.

این یک مثال ساده برای فهمِ نحوه‌ی کارکردِ یک درخت تصمیم بود. در دنیای واقعی، ابعاد (یعنی همان ویژگی ها) و تعداد نمونه‌ها – در اینجا تعداد دانشجویان در مجموعه داده‌ی آموزشی – معمولاً خیلی بیشتر از این‌ها است و کارِ ساختِ درختِ تصمیم بر عهده‌ی الگوریتم و کامپیوتر است. در دروس بعدی به نحوه ساخت و چینش شاخه‌ها و برگ‌ها در الگوریتم‌های مختلفِ درخت تصمیم خواهیم پرداخت.

این درس از مجموعه دوره طبقه‌بندی (Classification) و الگوریتم های مختلف آن است

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

31 دیدگاه دربارهٔ «درخت های تصمیم جهت طبقه‌بندی (Decision Trees)»

سعید گفت:

آوریل 17, 2018 در 9:29 ب.ظ

با سلام
دوست عزیز واقعا مطالب سایتتون عالی و مفیده.
موفق باشید

پاسخ
دارا گفت:

می 31, 2018 در 4:35 ب.ظ

با سلام فوق العاده خوب درس دادید واقعا بی نظیره سپاسگزارم

پاسخ
یاسین گفت:

اکتبر 7, 2018 در 5:50 ب.ظ

با سلام، ممنون خیلی عالی بود
امیدوارم که همین گونه به مباحث خوبتون ادامه بدید.

پاسخ
تارا گفت:

نوامبر 13, 2018 در 11:07 ب.ظ

مثالهاتون بی نظیره من کلی سایتا رو گشتم فقط با توضیحات و مثال های شما فهمیدم موضوع از چه قراره . مرسی

پاسخ
علی گفت:

نوامبر 25, 2018 در 11:06 ب.ظ

باسلام .خیلی عالی بود.

پاسخ
fateme گفت:

ژانویه 13, 2019 در 3:46 ق.ظ

سلام خیلی ممنونم از مطلب مفیدتون خیلیییییی به دردم خورد

پاسخ
حامد گفت:

ژانویه 25, 2019 در 10:27 ب.ظ

سلام خیلی روان توضیح دادین جناب مهندس. من سه روز دگ جلسه دفاع دارم الگوریتمم جنگل تصادفیه ولی به صورت کدنویسی بلدم و اگه بخوام برای کسی توضیح بدم نمیفهمه اصلا. ولی برای اطلاعات بیشتر اومدم مطالب شمارو از اول میخونم چقداطلاعاتم رفت بالا واقعا ممنونم ازتون.

پاسخ
سید مسعود هاشمی فومنی گفت:

فوریه 9, 2019 در 8:15 ب.ظ

با سلام و احترام
مطالب بسیار ساده فهم و روان ارائه شده، البته موضوع پایان نامه من در مورد “مدل سازی بیماری آنفلوآنزای فوق حاد پرندگان در استان گیلان با استفاده از GIS” است و در این خصوص برای تعیین وزن متغیر های مورد نظر از روش مدل سازی Boosted Regresion Tree استفاده میشه. اگر لطف کنید در این خصوص هم مطالبی به اشتراک بگذارید بسیار سپاس گزار خواهم شد.

پاسخ
سارا گفت:

آوریل 28, 2019 در 12:34 ب.ظ

سلام خسته نباشید
برای رسم درخت از کجا میفهمیم که از کجا شروع کنیم؟و ترتیبش رو چطور متوجه میشیم؟

پاسخ
1. مسعود کاویانی گفت:
  
  آوریل 30, 2019 در 11:11 ب.ظ
  
  سلام
  دروس بعدی رو بخونید، اون‌جا توضیح دادم به چه ترتیبی می‌تونه شروع بشه
  
  پاسخ
سارا گفت:

جولای 29, 2019 در 1:45 ق.ظ

بسیار بسیار عالی
واقعا ممنون

پاسخ
محمد گفت:

آگوست 5, 2019 در 6:59 ب.ظ

با سلام
الگوریتم Decision Tree که در نرم افزار رپیدماینر وجود دارد از چه نوعی هستش؟
مثلا نوع های id3 و cart و c4.5 داریم ولی تو رپیدماینر مشخص نکردن چه نوعی هستش.
اگر شما می دانید لطفا پاسخ دهید
با تشکر

پاسخ
سحر گفت:

آگوست 12, 2019 در 11:24 ق.ظ

عالی بود ،ممنون

پاسخ
مریم سادات گفت:

نوامبر 15, 2019 در 7:23 ب.ظ

مرسی عالی بود

پاسخ
شبنم گفت:

دسامبر 11, 2019 در 9:18 ب.ظ

عالی بود. مرسی

پاسخ
فهیمه گفت:

دسامبر 18, 2019 در 2:07 ق.ظ

سلام
ممنون از مطالب مفیدتون

پاسخ
مهدی گفت:

فوریه 21, 2020 در 6:35 ب.ظ

سلام مطالبتون واقعا عالیه
امکانش هست درمورد الگوریتم های درختان تصمیم ارتقای گرادیانی (XGBoost) هم مطلب بزارید

پاسخ
مهندس گفت:

آوریل 5, 2020 در 10:28 ق.ظ

اگر فایل پی دی اف هر درس رو هم قرار بدید خیلی خوب میشه
سپاس از تدریس خوبتون

پاسخ
مهندس گفت:

آوریل 8, 2020 در 10:01 ق.ظ

سلام
میشه بفرمایید منظور از کد نویسی صریح چیست؟

پاسخ
1. محمدمجتبی روشنی گفت:
  
  ژوئن 5, 2022 در 10:44 ب.ظ
  
  یعنی صراحتا در کد بگوییم که در سطح اول درخت براساس کدام صفت (تعداد مقلات و…) دیتاست را تقسیم کنیم و همینطور در سطح دوم و الی آخر در صورتی که میتوان الگوریتمی داینامیک داشت باشیم که خود الگوریتم این صفات را مشخص کند و هر سطح درخت تصمیم را بر اساس صفتی که بیشتر برای ما gain دارد تشکیل دهد.
  
  پاسخ
سینا گفت:

آوریل 11, 2020 در 4:10 ب.ظ

خیلی عالی بود

پاسخ
shiva گفت:

دسامبر 5, 2020 در 6:52 ب.ظ

واقعا همین که ساده توضیح میدید باعث مفهومی یادگرفتن میشه

پاسخ

31 دیدگاه دربارهٔ «درخت های تصمیم جهت طبقه‌بندی (Decision Trees)»

دیدگاهتان را بنویسید لغو پاسخ