دادهکاوی فرآیندِ تبدیلِ یک سری داده، به یک سری دانش، توسط فرآیندهای مختلف است.
با یک مثال شروع میکنیم. فرض کنید شما مدیرِ یک بانک هستید. و میخواهید از بینِ ۱۰۰۰۰۰مشتری که متقاضی وام هستند، به ۱۰۰۰نفر وام دهید. پس لازم است که از بین این ۱۰۰۰۰۰نفر، ۱۰۰۰نفری را انتخاب کنید که اطمینانِ بیشتری برای برگرداندنِ وام دارند. ولی این مدیر بانک فرصت ندارد که تمامیِ ۱۰۰۰۰۰ نفر را یکی یکی ارزیابی کند. علاوه بر این هر روز افراد جدیدی از راه میرسند و بایستی یکی یکی آنها را هم ارزیابی کند. این مدیر، تصمیم میگیرد به جای فرآیندهای سنتی، از روشهای دادهکاوی برای حل این مسئله استفاده کند.
در فرآیند دادهکاوی، ابتدا مدیر بانک بایستی یک تعدادِ کمی از افراد مثلاً ۲۰۰ فرد را به عنوان افرادِ مطمئن و ۲۰۰ نفر دیگر را به عنوان افرادِ غیر مطمئن برای سیستم مشخص کند. این کار توسط هوشِ طبیعیِ مدیر بانک قابل انجام است.
اینجاست که دادهکاوی وارد عمل میشود و ۲۰۰ فرد مورد اطمینان و ۲۰۰ فرد غیرمطمئن که مدیر بانک برچسب زده بود را مشاهده کرده و الگوهای رفتاریِ این افراد را مورد بررسی قرار میدهد. در واقع سیستم متوجه می شود که کدام الگوی رفتاری، منجر به اطمینان و کدام الگو منجر به عدم اطمینان میشود. در اینجاست که سیستم، یاد میگیرد (learn) و میتواند بین افرادِ مطمئن و غیرمطمئن، تمایُز قائل شود. البته برای تشخیص این الگو، مدیر بانک بایستی ویژگیهای مشتریان را در اختیار الگوریتم بگذارد.
حال این سیستم که فرآیند را یادگرفته است، میتواند هر مشتری دیگری علاوه بر این ۴۰۰ نفر که در موردِ یادگیری قرار گرفتهاند را نیز، در دسته مطمئنها و غیرمطمئنها، تقسیم کند. اینجاست، که تمامی ۱۰۰۰۰۰ نفر را به سیستم وارد میکنیم و خروجی این سیستم، میتواند افرادی را مشخص کند که مطمئن هستند و میتوان به آنها وام داد.
این یک مثال، از دادهکاوی بود، که به یادگیریِ نظارتشده نیز معروف است. در این جا، ناظر (همان مدیر بانک) یک مجموعهی کم از دادهها را برای سیستم، به اصطلاح برچسب (label) زد. یعنی مشخص کرد که کدام مشتری مطمئن و کدام مشتری نامطمئن است، سپس سیستم از روی این دادههای برچسب زده شده و ویژگیهای آنها، یادگیری را انجام داد.
همان طور که مشاهده میکنید، از یک مجموعهی داده (مشتریهای بانک)، به یک سری دانش (به چه شخصی وام بدهیم به چه شخصی وام ندهیم) رسیدیم.
علم دادهکاوی، بسیار گسترده تر از بحثِ مثالِ اینجاست. به جز یادگیری نظارتشده که در مثال بالا گفته شد (یادگیری با مجموعه آموزشی داده)، یادگیریِ غیرنظارتشده (خوشهبندی) یا همان clustering، قواعد وابستگی، یادگیری تقویت شده و… نیز از زیر حوزههای علم دادهکاوی هستند.
- ۱ » دادهکاوی (Data mining) چیست؟
- ۲ » یادگیری ماشین (Machine Learning) چیست؟
- ۳ » تفاوت هوش مصنوعی، یادگیری ماشین، دادهکاوی، یادگیری عمیق و علم داده
- ۴ » طبقهبندی (Classification) چیست؟
- ۵ » خوشهبندی (Clustering) چیست؟
- ۶ » تفاوت طبقهبندی (Classification) و خوشهبندی (Clustering)
- ۷ » منظور از دادههای آموزشی (Training Sets) در طبقهبندی چیست؟
- ۸ » سیستم توصیه گر (Recommendation System) چیست؟
- ۹ » کاربرد دادهکاوی و یادگیری ماشین در پردازش متن (Text Processing)
- ۱۰ » معرفی چند نرم افزار کاربردی برای عملیات دادهکاوی
- ۱۱ » ویژگی (Feature) یا همان بُعد (Dimension) در دادهکاوی چیست؟
- ۱۲ » بررسی چند الگوریتم یادگیری ماشین (Machine Learning)
- ۱۳ » یادگیری دستهای (Batch Learning) و یادگیری برخط (Online Learning)
- ۱۴ » یادگیری فعال (Active Learning) در یادگیری ماشین
- ۱۵ » انتخاب ویژگی (Feature Selection) چیست؟
- ۱۶ » تفاوت داده ساختاریافته (Structured) با غیرساختاریافته (Unstructured) چیست؟
- ۱۷ » منظور از متغیر وابسته (Dependent) و مستقل (Independent)
- ۱۸ » مجموعه دادههایی با ابعاد زیاد (High Dimensional)
- ۱۹ » مجموعه دادهی نامتوازن (Imbalance) چیست؟
- ۲۰ » فرآیند کریسپ (CRISP) جهت انجام پروژههای دادهکاوی
- ۲۱ » رانش یا گذار در دادهها (Data Drift)
سایت بسیار عالی. با سپاس
اندازه گیری میزان موفقیت و کارایی الگوریتم های خوشه بندی پیچیده تر است یا الگوریتم های طبقه بندی ؟ چرا ؟
اگه میشه با ذکر یک مثال توضیح بدید
با سلام و تشکر بابت توجهتون
طبیعتا در الگوریتم های خوشه بندی این کار سخت تر است زیرا تعیین معیار مشخص برای خوب بودن خوشه دشوار است، و در حال تدوین دو دوره جداگانه اندازه گیری دقت در طبفه بندها و خوشه بندها هستیم
👍
سلام توضیح و مثال بسیار قابل درک بود واقعا ممنونم.
با سلام در مورد مثال بالا بهتر بود به جای اینکه بگوییم مدیر بانک ۲۰۰ نفر قابل اعتماد و ۲۰۰ نفر غیرقابل اعتماد را مشخص می کند بگوییم از سوابق قبلی کسانی که وام دریافت کرده اند ۲۰۰ نفر وام را به موقع پس داده اند و ۲۰۰ نفر که وام را پس نداده اند (چون در این صورت واسه من تازه کار این سوال پیش می آید که خوب همون مدیر بانک اون ۱۰۰۰ نفر دیگه رو هم انتخاب می کنه و انتخابشم مطمین تره، البته جواب شما هم میتونه این باشه که می خوایم به یک الگوریتم برسیم یا به جای ۱۰۰۰ نفر ۱۰۰۰۰ نفر را انتخاب کنیم که دیگه مدیر بانک نمیتونه همه را بررسی کند ولی در هر صورت بهتره اون داده هایی را که برای یادگیری سیستم میدهیم از سوابق قبلی باشه)
دوست عزیز در صورتی حرف شما درسته که کل شرکت کننده ها قبلا وام دریافت کرده باشن.
درصورتی که شاید از کل متقاضیای وام تنها چند درصد وام دریافت کرده باشند.
در این صورت الگوریتم توانایی تشخیص صلاحیت یا عدم صلاحیت افرادی که هیچ وقت هیچ وامی دریافت نکردن رو نداره
و الگوریتم زمانی درسته که با دریافت هر ورودی بتونه به شما خروجی مربوطه رو تحویل بده .
موفق و پیروز باشید.
سلام
بله دقیقا، این مفروضم بوده که به تمامی متقاضیان قبلی وام دادهاند
سلام واقعا ممنون خیلی به دردم خورد
با سلام
بسیار عامل بود و من واقعا جذاب شدم
لطفا بفرمائید اگر بخواهم به صورت حرفه ای این مطالب را پیاده سازی کنم سورس کد منابعی که جهت
کار وجود دارند را راهنمای بفرمائید در بازار کار کدام کتابخانه ها بیشتر استفاده می شوند
ممنون و سپاس
ممنون از سایت بسیار خوبتون یه خواهش داشتم امکان داره مطالب سایت در هر کدام ازدوره ها بصورت pdf امکان دانلودش بزارین با تشکر
استاد سلام
ممنون از سایت پر محتوا و منظمتون. مطالب گنجانده شده در سایت بسیار عالی هستند. اگر امکان داشته باشد کمی عمیقتر با پایه های ریاضی ذکر گردند بسیار مثمر ثمرتر خواهد بود. خدا قوت من به وجود افراد و مجموعه های فرهیخته کشورمان افتخار میکنم.
ممنونم بابت محتوای خوبی که تهیه میکنید.
حوزه داده برای من جذاب هست و میخواستم بدونم میشه توی همه زیر حوزه هاش متخصص شد؟ (متن کاوی، پردازش تصویر و …)
و اینکه بین داده کاوی و مدیریت پروژه چه اشتراکاتی وجود داره و آیا میشه از داده کاوی در مدیریت پروژه هم استفاده کرد؟
به من اراعه درس ساختمان داده با موضوع داده کاوی داده شد و شروع به جمع اوری اطلاعات از منابع داخلی و خارجی کردم و به قطعیت میتونم بگم اولین و بهترین سایت در کل منابع داده در اینترنت هستید که مطالب رو خیلیی ساده و با اراعه مثال های متعدد بیان میکنید . واقعا ممنونم که این اطلاعات ارزشمند رو این قدر عالی به صورت رایگان در اختیار دانشجو ها قرار میدید
مشتاقانه منتظر دیدن بقیه مطالبتون هستم
ارادتمند
پاینده و پیروز باشید.
سلام . ببخشید تفاوت خوشه بندی و طبقه بندی چیست ؟ می شه گفت خوشه بندی همان غیرنظارتشده و طبقه بندی نظارتشده است ؟
سلام:
مطالبی که در چیستیو روی آنها کار می شود بسیار عالی و مفهومی می باشد، مطالب مقدماتی خوبی است اما اگر این مطالب مقدماتی را گام به گام با همین روش تدریس تخصصیتر شود بسیار عالیتر خواهد شد.خدا قوت.