معرفی چند نرم افزار کاربردی جهت داده کاوی

با مطالعه دروس گذشته، یاد گرفته ایم که داده کاوی چیست. در این درس، میخواهیم چند نرم افزار کاربردی حوزه داده کاوی را مروری داشته باشیم. در میان نرم افزار های موجود، تمرکز را بر نرم افزارهایی گذاشتیم که نیاز به دانش برنامه نویسی ندارند. یعنی کسانی که به حوزه برنامه نویسی علاقه ندارند یا فعلا ترجیح میدهند از نرم افزارهای آماده(بدون طراحی نرم افزار و برنامه نویسی) استفاده کنند، میتوانند یادگیری این نرم افزارها را در دستور کار خود قرار دهند.

ادامه خواندن “معرفی چند نرم افزار کاربردی جهت داده کاوی”

کاربرد داده کاوی و یادگیری ماشین در پردازش متن(Text Processing)

با خواندن دروس قبلی متوجه شدید که داده کاوی و یادگیری ماشین بیشتر در دو دسته نظارت شده(مانند طبقه بندها) و غیر نظارت شده(مانند خوشه بندها) قرار دارند. امروز میخواهیم برای هر کدام از این دسته ها، کاربردهایی در دنیای واقعی ارائه دهیم. این کاربردها میتوانند در پروژه های مختلف متن کاوی و پردازش زبان طبیعی(Natural Language Processing) استفاده شوند.

ادامه خواندن “کاربرد داده کاوی و یادگیری ماشین در پردازش متن(Text Processing)”

سیستم توصیه گر(Recommendation System) چیست؟

اگر درس یادگیری ماشین چیست؟ را خوانده باشید، متوجه شده اید که مثال آن درس یک مثال سیستم توصیه گر بود. در آن مثال ما میخواستیم به مشتری جدید که در سبد خرید خود چند محصول داشت، یک محصول جدید را پیشنهاد دهیم. اجازه بدهید یک مثال کاربردی دیگر از سیستم های توصیه گر را برایتان شرح دهیم.

ادامه خواندن “سیستم توصیه گر(Recommendation System) چیست؟”

خوشه بندی(Clustering) چیست؟

فرض کنید، شما یک فروشگاه بزرگ مواد غذایی دارید و مشتریان این فروشگاه که بالغ بر ۱۰۰هزار نفر هستند ویژگی های مختلفی دارند. اجازه دهید، سه ویژگی زیر را برای یک مشتری خاص از مشتریان این فروشگاه بزرگ مواد غذایی در نظر بگیریم:

۱. این مشتری آخرین خرید خود را چند روز پیش انجام داده است(که با R نام گذاری میکنیم)

۲. این مشتری در یک سال گذشته، به طور میانگین چند روز یک بار از فروشگاه ما خرید کرده است(که با F نام گذاری میکنیم)

۳. این مشتری در یکسال گذشته به طور میانگین در هر بار خرید، چه مبلغی از فروشگاه خرید کرده است(که با M نام گذاری میکنیم)

ادامه خواندن “خوشه بندی(Clustering) چیست؟”

طبقه بندی(Classification) چیست؟

مانند مثال قبل در درس داده کاوی چیست؟، فرض کنید مدیریت یک بانک را برعهده دارید که ۱۰۰هزار مشتری دارد و میخواهید به یک سری از مشتریان خود وام دهید. طبیعتا به افرادی وام را خواهید داد که شانس پس دادن بیشتری داشته باشند. هر کدام از این افراد نیز، دارای خصوصیات مختلفی هستند. برای مثال، آیا این شخص خانه دارد یا نه؟ این شخص دارای اتومبیل شخصی هست یا خیر؟ حقوق دریافتی این شخص چقدر است؟ و… .

ادامه خواندن “طبقه بندی(Classification) چیست؟”

یادگیری ماشین(Machine Learning) چیست؟

یادگیری ماشین، یک زیر مجموعه از هوش مصنوعی است. با استفاده از تکنیک های یادگیری ماشین، کامپیوتر، الگوهای موجود در داده ها(اطلاعات پردازش شده) را یادگرفته و میتواند از آن استفاده کند. توجه داشته باشید که در این تکنیک ها، یادگیری در یک سیستم کامپیوتری بدون برنامه نویسی صریح(Explicit Programming) صورت میپزید. حال اینکه برنامه نویسی صریح چیست و یادگیری ماشین چطور کار میکند را در ادامه میاوریم.

ادامه خواندن “یادگیری ماشین(Machine Learning) چیست؟”

داده کاوی(Data mining) چیست؟

تعریف تئوری: داده کاوی فرآیند تبدیل یک سری داده به یک سری دانش توسط فرآیندهای مختلف است.

تعریف تجربی:

با یک مثال شروع میکنیم. فرض کنید شما مدیر یک بانک هستید. و میخواهید از بین ۱۰۰۰۰۰مشتری که متقاضی وام هستند، به ۱۰۰۰نفر وام دهید. پس لازم است که از بین این ۱۰۰۰۰۰نفر، ۱۰۰۰نفری را انتخاب کنید که اطمینان بیشتری برای برگرداندن وام دارند.

در فرآیند داده کاوی، ابتدا مدیر بانک بایستی یک تعداد کمی از افراد(مثلا ۲۰۰نفر) را به عنوان افراد مطمئن و ۲۰۰ نفر دیگر را به عنوان افراد غیر مطمئن برای سیستم مشخص کند.(این کار توسط هوش طبیعی مدیر بانک قابل انجام است)

اینجاست که داده کاوی وارد عمل میشود، و ۲۰۰فرد مورد اطمینان و ۲۰۰فرد غیر مطمئن که مدیر بانک برچسب زده بود، را مشاهده کرده و الگوهای رفتاری این افراد را مورد بررسی قرار می دهد. در واقع سیستم متوجه می شود که چه الگوی رفتاری ای، منجر به اطمینان و چه الگویی منجر به عدم اطمینان می شود. در اینجاست که سیستم، یاد میگیرد(learn) و میتواند بین افراد مطمئن و غیرمطمئن تمیز قائل شود.

حال این سیستم که فرآیند را یادگرفته است، میتواند هر مشتری دیگری را نیز، در دسته مطمئن ها و غیر مطمئن ها، تقسیم کند. اینجاست، که تمامی ۱۰۰۰۰۰نفر را به سیستم وارد میکنیم و خروجی این سیستم، میتواند تعداد افرادی را مشخص کند که مطمئن هستند و میتوان به آن ها وام داد.

این یک مثال، از داده کاوی بود، که به یادگیری نظارت شده نیز معروف است. در این جا، ناظر(همان مدیر بانک) یک مجموعه ی کم از داده ها را برای سیستم، به اصطلاح برچسب زد. یعنی مشخص کرد که کدام مشتری مطمئن و کدام مشتری نامطمئن است.

همان طور که مشاهده میکنید، یک از یک مجموعه داده(مشتری های بانک)، به یک سری دانش(به چه شخصی وام بدهیم به چه شخصی خیر) رسیدیم.

علم داده کاوی، بسیار گسترده تر از بحث مثال اینجاست. یادگیری غیرنظارت شده(خوشه بندی) یا clustering، قواعد وابستگی و… نیز زیر دسته های علم داده کاوی هستند، که از فرآیند های داده کاوی استفاده می کنند.