کاربرد داده کاوی و یادگیری ماشین در پردازش متن(Text Processing)

با خواندن دروس قبلی متوجه شدید که داده کاوی و یادگیری ماشین بیشتر در دو دسته نظارت شده(مانند طبقه بندها) و غیر نظارت شده(مانند خوشه بندها) قرار دارند. امروز میخواهیم برای هر کدام از این دسته ها، کاربردهایی در دنیای واقعی ارائه دهیم. این کاربردها میتوانند در پروژه های مختلف متن کاوی و پردازش زبان طبیعی(Natural Language Processing) استفاده شوند.

ابتدا اجازه دهید با طبقه بندی اخبار شروع کنیم. وب سایت هایی مانند Google News اخبار موجود در خبرگزاری های مختلف را جمع آوری میکنند. این اخبار در دسته های مختلفی مانند ورزشی، سیاست، نفت و… میتوانند قرار بگیرند. اگر یک سازمان که کار جمع آوری خبر را نجام می دهد بخواهد هر خبر را به صورت دستی(توسط یک فرد اپراتور) به دسته موجود اتصال دهد، زمان بسیار زیادی صرف خواهد شد(فرض کنید در هر ساعت در حدود ۱۰۰هزار خبر داشته باشیم). برای حل این مشکل میتوان از طبقه بندی(Classification) استفاده کرد. به صورتی که ابتدا برای هر دسته(ورزشی، سیاست، نفت و…) تعدادی خبر را به صورت دستی(توسط انسان) برچسب(Labeling) بزنیم، سپس این دسته ها را به الگوریتم یادگیری ماشین و داده کاوی بدهیم. این الگوریتم ها از داده هایی که برایشان برچسب زده ایم، یادگرفته و میتوانند اخبار جدید را به صورت خودکار(احتمالا با کمی خطا) برچسب بزنند.

بحث تحلیل احساس(Sentiment Analysis) در متن نیز بسیار پرکاربرد است. فرض کنید یک فروشگاه اینترنتی دارید و کاربران هر روز در زیر محصولات مختلف، نظرات(Comments) مختلفی را قرار میدهد. ممکن است این توضیح، نقد یک کالا باشد و یا ممکن است در تایید این کالا توضیحاتی نوشته باشد. یکی از کاربردهای داده کاوی در اینجا، میتواند تشخیص خودکار مثبت یا منفی بودن یک نظر باشد. برای این کار، میتوانید یک دیتاست از نظرات مثبت و منفی را ایجاد کرده و به صورت دستی(توسط انسان) هر نظری را خوانده و برای آن نظر برچسب ۱(مثبت) یا -۱(منفی) بگذارید. همچنین اگر توضیح به صورت خنثی بود(یعنی نه تعریفی کرده بود و نه نقدی) میتوان از عدد ۰ استفاده کرد. سپس این دیتاست را به الگوریتم طبقه بند(Classifier) تزریق کرده تا الگوریتم یاد بگیرد. میتوانید مدل یادگرفته شده را در جایی بر روی حافظه ذخیره کنید. سپس الگوریتم میتواند احساس نظرات جدیدی که کاربران پایین هر محصول قرار می دهند را(احتمالا با کمی خطا) برچسب بزند. مثلا اگر نقدی انجام شده است، الگوریتم برچسب -۱ را(طبق آن چیزی که در بخش یادگیری دیده است) برای این نظردر انتخاب میکند. با این کار به صورت خودکار میتوانید بفهمید که از میان ۷۰نظر(Comment) به صورت کلی کاربران و مشتریان چه دیدگاهی داشته اند.

[sc name=”tbl_ea”]

متن کاوی همچنین در ساخت ربات های چت(Chat Bots) کاربردهایی دارد. به صورتی که یک فرد معمولی میتواند سوالهای مختلفی را از سرور بپرسد و سرور به صورت خودکار پاسخ را به صورت متن برگرداند. البته پیاده سازی chat botها معمولا نیاز به تحقیق و عملیات گسترده و خاصی دارند.

متن کاوی همچنین می تواند در تبلیغات در شبکه های اجتماعی بسیار کارا باشد. با تحلیل متون مختلفی که یک شخص درج میکند(یا like میکند) میتوان به این نتیجه رسید که این شخص به چه دسته ای علاقه دارد. مثلا شخصی بیشتر postهای مربوط به ورزش را like میکند. سیستم به صورت خودکار میتواند بفهمد که این postخاص در مورد ورزش است و شخصی این postرا like کرده. پس میتواند تبلیغات مرتبط با ورزش را به اون نمایش دهد.

البته که شاید بزرگ ترین استفاده در حال حاضر از پردازش متن، ساخت موتورهای جستجو مانند Google باشد. این موتورها با روش های مختلف و پیشرفته پردازش متن، قادر هستند کاربران نهایی سیستم را در سریع ترین زمان ممکن به خواسته صفحه مورد نظر خود برسانند.

پاسخ دهید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *