داده‌کاوی (Data mining) چیست؟

مدرس: مسعود کاویانی

داده‌کاوی فرآیندِ تبدیلِ یک سری داده، به یک سری دانش، توسط فرآیندهای مختلف است.

با یک مثال شروع می‌کنیم. فرض کنید شما مدیرِ یک بانک هستید. و میخواهید از بینِ ۱۰۰۰۰۰مشتری که متقاضی وام هستند، به ۱۰۰۰نفر وام دهید. پس لازم است که از بین این ۱۰۰۰۰۰نفر، ۱۰۰۰نفری را انتخاب کنید که اطمینانِ بیشتری برای برگرداندنِ وام دارند. ولی این مدیر بانک فرصت ندارد که تمامیِ ۱۰۰۰۰۰ نفر را یکی یکی ارزیابی کند. علاوه بر این هر روز افراد جدیدی از راه می‌رسند و بایستی یکی یکی آن‌ها را هم ارزیابی کند. این مدیر، تصمیم می‌گیرد به جای فرآیندهای سنتی، از روش‌های داده‌کاوی برای حل این مسئله استفاده کند.

در فرآیند داده‌کاوی، ابتدا مدیر بانک بایستی یک تعدادِ کمی از افراد مثلاً ۲۰۰ فرد را به عنوان افرادِ مطمئن و ۲۰۰ نفر دیگر را به عنوان افرادِ غیر مطمئن برای سیستم مشخص کند. این کار توسط هوشِ طبیعیِ مدیر بانک قابل انجام است.

اینجاست که داده‌کاوی وارد عمل میشود و ۲۰۰ فرد مورد اطمینان و ۲۰۰ فرد غیرمطمئن که مدیر بانک برچسب زده بود را مشاهده کرده و الگوهای رفتاریِ این افراد را مورد بررسی قرار می‌دهد. در واقع سیستم متوجه می شود که کدام الگوی رفتاری، منجر به اطمینان و کدام الگو منجر به عدم اطمینان می‌شود. در اینجاست که سیستم، یاد میگیرد (learn) و می‌تواند بین افرادِ مطمئن و غیرمطمئن، تمایُز قائل شود. البته برای تشخیص این الگو، مدیر بانک بایستی ویژگی‌های مشتریان را در اختیار الگوریتم بگذارد.

حال این سیستم که فرآیند را یادگرفته است، می‌تواند هر مشتری دیگری علاوه بر این ۴۰۰ نفر که در موردِ یادگیری قرار گرفته‌اند را نیز، در دسته مطمئن‌ها و غیرمطمئن‌ها، تقسیم کند. اینجاست، که تمامی ۱۰۰۰۰۰ نفر را به سیستم وارد می‌کنیم و خروجی این سیستم، می‌تواند افرادی را مشخص کند که مطمئن هستند و می‌توان به آن‌ها وام داد.

این یک مثال، از داده‌کاوی بود، که به یادگیریِ نظارت‌شده نیز معروف است. در این جا، ناظر (همان مدیر بانک) یک مجموعه‌ی کم از داده‌ها را برای سیستم، به اصطلاح برچسب (label) زد. یعنی مشخص کرد که کدام مشتری مطمئن و کدام مشتری نامطمئن است، سپس سیستم از روی این داده‌های برچسب زده شده و ویژگی‌های آن‌ها، یادگیری را انجام داد.

همان طور که مشاهده می‌کنید، از یک مجموعه‌ی داده (مشتری‌های بانک)، به یک سری دانش (به چه شخصی وام بدهیم به چه شخصی وام ندهیم) رسیدیم.

علم داده‌کاوی، بسیار گسترده تر از بحثِ مثالِ اینجاست. به جز یادگیری نظارت‌شده که در مثال بالا گفته شد (یادگیری با مجموعه آموزشی داده)، یادگیریِ غیرنظارت‌شده (خوشه‌بندی) یا همان clustering، قواعد وابستگی، یادگیری تقویت شده و… نیز از زیر حوزه‌های علم داده‌کاوی هستند.

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

16 دیدگاه دربارهٔ «داده‌کاوی (Data mining) چیست؟»

  1. اندازه گیری میزان موفقیت و کارایی الگوریتم های خوشه بندی پیچیده تر است یا الگوریتم های طبقه بندی ؟ چرا ؟
    اگه میشه با ذکر یک مثال توضیح بدید

    1. با سلام و تشکر بابت توجهتون
      طبیعتا در الگوریتم های خوشه بندی این کار سخت تر است زیرا تعیین معیار مشخص برای خوب بودن خوشه دشوار است، و در حال تدوین دو دوره جداگانه اندازه گیری دقت در طبفه بندها و خوشه بندها هستیم

  2. با سلام در مورد مثال بالا بهتر بود به جای اینکه بگوییم مدیر بانک ۲۰۰ نفر قابل اعتماد و ۲۰۰ نفر غیرقابل اعتماد را مشخص می کند بگوییم از سوابق قبلی کسانی که وام دریافت کرده اند ۲۰۰ نفر وام را به موقع پس داده اند و ۲۰۰ نفر که وام را پس نداده اند (چون در این صورت واسه من تازه کار این سوال پیش می آید که خوب همون مدیر بانک اون ۱۰۰۰ نفر دیگه رو هم انتخاب می کنه و انتخابشم مطمین تره، البته جواب شما هم میتونه این باشه که می خوایم به یک الگوریتم برسیم یا به جای ۱۰۰۰ نفر ۱۰۰۰۰ نفر را انتخاب کنیم که دیگه مدیر بانک نمیتونه همه را بررسی کند ولی در هر صورت بهتره اون داده هایی را که برای یادگیری سیستم میدهیم از سوابق قبلی باشه)

    1. دوست عزیز در صورتی حرف شما درسته که کل شرکت کننده ها قبلا وام دریافت کرده باشن.
      درصورتی که شاید از کل متقاضیای وام تنها چند درصد وام دریافت کرده باشند.
      در این صورت الگوریتم توانایی تشخیص صلاحیت یا عدم صلاحیت افرادی که هیچ وقت هیچ وامی دریافت نکردن رو نداره
      و الگوریتم زمانی درسته که با دریافت هر ورودی بتونه به شما خروجی مربوطه رو تحویل بده .
      موفق و پیروز باشید.

  3. با سلام
    بسیار عامل بود و من واقعا جذاب شدم
    لطفا بفرمائید اگر بخواهم به صورت حرفه ای این مطالب را پیاده سازی کنم سورس کد منابعی که جهت
    کار وجود دارند را راهنمای بفرمائید در بازار کار کدام کتابخانه ها بیشتر استفاده می شوند
    ممنون و سپاس

  4. ممنون از سایت بسیار خوبتون یه خواهش داشتم امکان داره مطالب سایت در هر کدام ازدوره ها بصورت pdf امکان دانلودش بزارین با تشکر

  5. استاد سلام
    ممنون از سایت پر محتوا و منظمتون. مطالب گنجانده شده در سایت بسیار عالی هستند. اگر امکان داشته باشد کمی عمیقتر با پایه های ریاضی ذکر گردند بسیار مثمر ثمرتر خواهد بود. خدا قوت من به وجود افراد و مجموعه های فرهیخته کشورمان افتخار میکنم.

  6. ممنونم بابت محتوای خوبی که تهیه میکنید.
    حوزه داده برای من جذاب هست و میخواستم بدونم میشه توی همه زیر حوزه هاش متخصص شد؟ (متن کاوی، پردازش تصویر و …)
    و اینکه بین داده کاوی و مدیریت پروژه چه اشتراکاتی وجود داره و آیا میشه از داده کاوی در مدیریت پروژه هم استفاده کرد؟

  7. به من اراعه درس ساختمان داده با موضوع داده کاوی داده شد و شروع به جمع اوری اطلاعات از منابع داخلی و خارجی کردم و به قطعیت میتونم بگم اولین و بهترین سایت در کل منابع داده در اینترنت هستید که مطالب رو خیلیی ساده و با اراعه مثال های متعدد بیان میکنید . واقعا ممنونم که این اطلاعات ارزشمند رو این قدر عالی به صورت رایگان در اختیار دانشجو ها قرار میدید
    مشتاقانه منتظر دیدن بقیه مطالبتون هستم
    ارادتمند
    پاینده و پیروز باشید.

  8. سلام . ببخشید تفاوت خوشه بندی و طبقه بندی چیست ؟ می شه گفت خوشه بندی همان غیرنظارت‌شده و طبقه بندی نظارت‌شده است ؟

  9. سلام:

    مطالبی که در چیستیو روی آنها کار می شود بسیار عالی و مفهومی می باشد، مطالب مقدماتی خوبی است اما اگر این مطالب مقدماتی را گام به گام با همین روش تدریس تخصصی‌تر شود بسیار عالی‌تر خواهد شد.خدا قوت.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *