مانند مثال قبل در درس دادهکاوی چیست؟، فرض کنید مدیریتِ یک بانک را برعهده دارید که ۱۰۰ هزار مشتری دارد و میخواهید به یک سری از مشتریانِ خود وام دهید. طبیعتاً به افرادی وام را خواهید داد که شانسِ برگرداندن وام توسط آنها بیشتر باشد. هر کدام از این افراد نیز، دارای خصوصیات مختلفی هستند (ویژگیهای آنها). برای مثال، آیا این شخص خانه دارد یا نه؟ این شخص دارای اتومبیل شخصی هست یا خیر؟ حقوق دریافتیِ این شخص چقدر است؟ و… .
حال فرض کنید این بانک دارای یک سابقهی ۱۰ هزار تایی از مشتریانی است که وام گرفتهاند که یا توانستهاند برگردانند یا خیر. این افراد به دو دسته (۲ کلاس) تقسیم شده اند، یا توانسته اند وام خود را بازگردانند (کلاسِ ۱) یا خیر (کلاسِ ۲). همان طور که گفتیم این افراد خصوصیات یا ویژگیهای مختلفی داشتهاند. پس نگاهی به جدول زیر بیندازید:
تفسیر این جدول که نوعی ماتریس نیز هست، ساده است. همانطور که مشاهده میکنید، شخصِ شمارهی ۱، دارای منزل است، تعداد ۲فرزند دارد، حقوق ماهیانه معادل ۸۰۰ هزار تومان دارد و یک اتومبیل از خود دارد. در ستون آخر (ستون برچسب یا lable) مشاهده میکنید که این شخص توانسته وام خود را برگرداند. شخص شماره ۲ و ۳ هم به همین ترتیب است یعنی توانستهاند وامِ خود را برگردانند. ولی شخصِ شمارهی ۴، با ویژگیهایی که دارد، نتوانسته وام دریافتیِ خود را بازگرداند. این سه مورد از ۱۰ هزار مشتریِ مختلفی است که در پایگاه دادهی بانک ذخیره شدهاند.
همانطور که مشاهده میکنید، در جدولِ بالا (که در دادهکاوی به ماتریس معروف است)، هر سطر نمایشگرِ یک فرد خاص است. به این فرد خاص، یک رکورد یا یک نمونه یا یک sample یا یک tuple گفته میشود. و هر ستون نمایشگرِ یک ویژگی یا همان feature است. به ویژگیها در دادهکاوی اصطلاحاً بٌعد (dimension) نیز گفته میشود. مثلاً دادههای موجود در تصویرِ بالا، ۴بعدی است چون ۴ ویژگی (ستون) دارد. توجه کنید که ستونِ آخر، ستونِ برچسبها یا همان lableهای ماست که مشخص میکند یک نمونهی خاص، در هر سطر به کدام دسته (class) تعلق دارد. در این مثال ما ۲ دسته یا ۲ طبقه (class) داریم. کسانی که وام خود را پس دادهاند، و کسانی که وام خود را پس نداده.اند.
به طور کلی به مسئلههایی که ستون طبقه یا class را داشته باشند، مسائل طبقهبندی یا classification گفته میشود. این دست از مسائل به یاگیریِ با ناظر (supervised learning) نیز معروف هستند، چون در واقع یک ناظر وجود دارد که ستون آخر را برای ما برچسبزنی کند (مثلاً در اینجا مدیر بانک، تعدادی مشخصی از مشتریان را برای ما برچسب زده است).
الگوریتمهای یادگیری ماشین و دادهکاوی که عملِ طبقهبندی را انجام میدهند (مانند SVM، Random Forest، Naive Bayes و…) میتوانند این جدول یا همان ماتریس را به عنوانِ ورودی قبول کنند و از این ماتریس و ویژگیهای آن، الگوی موجود در هر طبقه یا class را یاد بگیرند. سپس اگر یک نمونهی جدید (مثلاً یک مشتریِ جدید) – که طبقهی آن را نمیدانیم – به الگوریتمی که یادگرفته است داده شود، این الگوریتم میتواند این نمونهی جدید را به طبقههای احتمالاً درست (که قبلا دیده است) طبقهبندی یا classification کند. مثلاً یک مشتریِ جدید با ۴ ویژگی، به الگوریتم داده میشود، و الگوریتم میتواند با توجه به داده هایی که یادگرفته است پیشبینی کند که این مشتریِ جدید میتواند وام خود را پس دهد یا خیر؟
- ۱ » دادهکاوی (Data mining) چیست؟
- ۲ » یادگیری ماشین (Machine Learning) چیست؟
- ۳ » تفاوت هوش مصنوعی، یادگیری ماشین، دادهکاوی، یادگیری عمیق و علم داده
- ۴ » طبقهبندی (Classification) چیست؟
- ۵ » خوشهبندی (Clustering) چیست؟
- ۶ » تفاوت طبقهبندی (Classification) و خوشهبندی (Clustering)
- ۷ » منظور از دادههای آموزشی (Training Sets) در طبقهبندی چیست؟
- ۸ » سیستم توصیه گر (Recommendation System) چیست؟
- ۹ » کاربرد دادهکاوی و یادگیری ماشین در پردازش متن (Text Processing)
- ۱۰ » معرفی چند نرم افزار کاربردی برای عملیات دادهکاوی
- ۱۱ » ویژگی (Feature) یا همان بُعد (Dimension) در دادهکاوی چیست؟
- ۱۲ » بررسی چند الگوریتم یادگیری ماشین (Machine Learning)
- ۱۳ » یادگیری دستهای (Batch Learning) و یادگیری برخط (Online Learning)
- ۱۴ » یادگیری فعال (Active Learning) در یادگیری ماشین
- ۱۵ » انتخاب ویژگی (Feature Selection) چیست؟
- ۱۶ » تفاوت داده ساختاریافته (Structured) با غیرساختاریافته (Unstructured) چیست؟
- ۱۷ » منظور از متغیر وابسته (Dependent) و مستقل (Independent)
- ۱۸ » مجموعه دادههایی با ابعاد زیاد (High Dimensional)
- ۱۹ » مجموعه دادهی نامتوازن (Imbalance) چیست؟
- ۲۰ » فرآیند کریسپ (CRISP) جهت انجام پروژههای دادهکاوی
- ۲۱ » رانش یا گذار در دادهها (Data Drift)
سلام
من دانشجوی ترم اول ارشد نرم افزارم و دنبال یه منبع میگشتم تا با مفاهیم مختلف داده کاوی آشنا بشم و …. و شما خیلی عالی و آکادمیک توضیح دادید. ممنونم 🌹🌹🌹🌹
از خدای بزرگ برای شما عزیزان خیر دنیا و آخرت رو خواستارم
سلام. جناب کاویانی سپاسگذارم بابت توضیحات ساده و فوق الاده روانتون. یعنی بهتر ازین نمیشه این بحثا رو توضیح داد. حرف ندارید.
با سلام و تشکر از اطلاعات خوبتون
ببخشید میشه راهنمایی کنید از داده کاوی چطور میشه در تحلیل محتوای اخبار(موضوعی مثلا خاص) در یک روزنامه استفاده کرد؟
بسیار پرثمر بود. با ارزوی بهترینا برای شما
با سلام
ممنون میشم لطفا اگر امکان دارد در مورد الگوریتم WEML هم توضیح بفرمایید.
با سپاس از لطف شما
سلام جناب کاویانی
از همه مطالب عالی سایتتون کمال امتنان را دارم. هر صفحه از مطالب رو میخونم کلی مطلب رو درک میکنم با اینکه رشتم مرتبط نیست. سپاسگزاری من قطعا در کلمات نمیگنجه اما از صمیم قلبم واقعا از خدا براتون بهتر از بهترینها رو میخوام. پله های موفقیت رو هر روز محکمتر از قبل بپیمایید که واقعا شایسته شماست.
امکان نداره وارد این سایت بشم و با لذت فراوان از یادگیری اون رو ترک نکنم.
ممنون از این تولید محتوای قوی
سلام من دانشجوی دکتری مواد هستم،
مطالبتان قابل فهم است. فقط برای آوردن مطالب در پایان نامه به رفرنس و کتاب و… نیاز هست!!!!!
امکانش هست رفرنس هایی را به ما معرفي کنید که با این روال فکری شما همخوانی داشته باشه.
خیلی ممنونم
ممنون توضیحاتتون خیلی عالی بود
بسیار روان و قابل فهم بیان کردید
سپاس فراوان