دادهکاوی فرآیندِ تبدیلِ یک سری داده، به یک سری دانش، توسط فرآیندهای مختلف است.
با یک مثال شروع میکنیم. فرض کنید شما مدیرِ یک بانک هستید. و میخواهید از بینِ ۱۰۰۰۰۰مشتری که متقاضی وام هستند، به ۱۰۰۰نفر وام دهید. پس لازم است که از بین این ۱۰۰۰۰۰نفر، ۱۰۰۰نفری را انتخاب کنید که اطمینانِ بیشتری برای برگرداندنِ وام دارند. ولی این مدیر بانک فرصت ندارد که تمامیِ ۱۰۰۰۰۰ نفر را یکی یکی ارزیابی کند. علاوه بر این هر روز افراد جدیدی از راه میرسند و بایستی یکی یکی آنها را هم ارزیابی کند. این مدیر، تصمیم میگیرد به جای فرآیندهای سنتی، از روشهای دادهکاوی برای حل این مسئله استفاده کند.
در فرآیند دادهکاوی، ابتدا مدیر بانک بایستی یک تعدادِ کمی از افراد مثلاً ۲۰۰ فرد را به عنوان افرادِ مطمئن و ۲۰۰ نفر دیگر را به عنوان افرادِ غیر مطمئن برای سیستم مشخص کند. این کار توسط هوشِ طبیعیِ مدیر بانک قابل انجام است.
اینجاست که دادهکاوی وارد عمل میشود و ۲۰۰ فرد مورد اطمینان و ۲۰۰ فرد غیرمطمئن که مدیر بانک برچسب زده بود را مشاهده کرده و الگوهای رفتاریِ این افراد را مورد بررسی قرار میدهد. در واقع سیستم متوجه می شود که کدام الگوی رفتاری، منجر به اطمینان و کدام الگو منجر به عدم اطمینان میشود. در اینجاست که سیستم، یاد میگیرد (learn) و میتواند بین افرادِ مطمئن و غیرمطمئن، تمایُز قائل شود. البته برای تشخیص این الگو، مدیر بانک بایستی ویژگیهای مشتریان را در اختیار الگوریتم بگذارد.
حال این سیستم که فرآیند را یادگرفته است، میتواند هر مشتری دیگری علاوه بر این ۴۰۰ نفر که در موردِ یادگیری قرار گرفتهاند را نیز، در دسته مطمئنها و غیرمطمئنها، تقسیم کند. اینجاست، که تمامی ۱۰۰۰۰۰ نفر را به سیستم وارد میکنیم و خروجی این سیستم، میتواند افرادی را مشخص کند که مطمئن هستند و میتوان به آنها وام داد.
این یک مثال، از دادهکاوی بود، که به یادگیریِ نظارتشده نیز معروف است. در این جا، ناظر (همان مدیر بانک) یک مجموعهی کم از دادهها را برای سیستم، به اصطلاح برچسب (label) زد. یعنی مشخص کرد که کدام مشتری مطمئن و کدام مشتری نامطمئن است، سپس سیستم از روی این دادههای برچسب زده شده و ویژگیهای آنها، یادگیری را انجام داد.
همان طور که مشاهده میکنید، از یک مجموعهی داده (مشتریهای بانک)، به یک سری دانش (به چه شخصی وام بدهیم به چه شخصی وام ندهیم) رسیدیم.
علم دادهکاوی، بسیار گسترده تر از بحثِ مثالِ اینجاست. به جز یادگیری نظارتشده که در مثال بالا گفته شد (یادگیری با مجموعه آموزشی داده)، یادگیریِ غیرنظارتشده (خوشهبندی) یا همان clustering، قواعد وابستگی، یادگیری تقویت شده و… نیز از زیر حوزههای علم دادهکاوی هستند.