ما هر روزه با زبانِ فارسی با هم گفتوگو میکنیم. انگلیسیها هم با زبانِ انگلیسی با یکدیگر صحبت میکنند. به این صورت است که زبان، ابزاری برای ارتباط با همنوعان درآمده است. به این زبان، زبانِ طبیعی (Natural Language) میگویند و مشکلِ اصلیِ آن (از نگاهِ کامپیوتر) این است که کامپیوتر به صورت پیشفرض فقط ۰ها و ۱ها را میفهمد. یعنی یک کامپیوتر نمیتواند زبانِ طبیعیِ محاورهایِ ما را متوجه شود. برای همین نیاز است تا یک مجموعه عملیات (Processes) بر روی این زبان طبیعی انجام شود (Natural Language Processing یا همان NLP) تا بتوان آن را برای کامپیوتر قابل فهم کرد. بعد از آن میتوان از قدرتِ کامیپوتر در محاسبات و یادگیری ماشین استفاده کنیم تا اطلاعاتِ ارزشمندی را از میان این دادهها استخراج کنیم.
برای درکِ بهتر، وبسایت اخبار گوگل را ببینید. در این وبسایت، اخبارِ روزانه که از منابعِ خبریِ مختلف جمعآوری و به صورت دستهبندی شده بر اساس اولویت و اهمیت ردهبندی میشوند. برای مثال برخی از اخبار، ورزشی هستند و برخی دیگر سیاسی. گوگل برای اینکه بتواند این دستهبندی همراه با اهمیتِ هر خبر را تشخیص دهد، میتوانست چند صد اپراتور (انسان) را استخدام نماید و این کار را به صورت دستی انجام دهد. اما با کمک الگوریتمهای مبتنی بر متن و متنکاوی، گوگل متنهای خبری را به کامپیوتر میدهد و کامپیوتر بعد از انجام عملیاتِ پردازش و آنالیزِ متن، برای مثال میتواند بفهمد که یک خبر ورزشی است یا سیاسی یا اقتصادی! و بعد با کمکِ همین درک از متن، دستهبندیِ مختلفی بر روی این اخبار انجام دهد. همچنین با کمک الگوریتمهای آنالیز متن و آنالیز گراف، میتواند اهمیتِ این یک خیر را درک کرده و اخبار با اهمیت بیشتر را بالاتر نمایش دهد.
مثالِ بالا یک نمونه از کاربردهای پردازشِ متن بود. پردازشِ متن و متنکاوی (Text Mining) در کنار الگوریتمهای یادگیریِ ماشین و دادهکاوی میتواند منجر به خروجیهای مفیدی شود. برای مثال ترجمهی خودکار متون، ساختن ربات خودکار جهت تعامل با کاربر، تشخیص تقلب در پایاننامهها و… از کاربردهای مختلف حوزهی متنکاوی و آنالیز متن میباشد. در ادامهی این دوره با مراحل و روشهای مختلفِ آنها آشنا خواهیم شد.
- ۱ » متن کاوی (Text Mining) و پردازش زبان طبیعی (NLP) چیست؟
- ۲ » ساخت کولهی کلمات (Bag of Words) در پیشپردازش متون
- ۳ » روش TF-IDF برای ساختاردهی به دادههای متنی
- ۴ » تحلیل احساسات (Sentiment Analysis) در متنکاوی
- ۵ » n-gram و کاربرد آن در متنکاوی
- ۶ » مدلسازی موضوعات (Topic Modeling) و کاربرد آن در متنکاوی
- ۷ » یافتن ریشه کلمات با Stemming و Lemmatization
- ۸ » تشخیص شباهت متون (Text Similarity) با استفاده از الگوریتم Jaccard
- ۹ » خوشهبندی متون (Text Clustering) و کاربردهای آن
یعنی این دو اصطلاح ، مترادف هم هستند ؟ یا اینکه تکست ماینینگ زیر مجموعه ای از پردازش زبان طبیعی هست؟
سلام
بله تقریبا، البته هر کدوم اهداف مختلفی دارند
برای شناسایی و اصلاح کلماتی که غلط املایی دارند دنبال ابزار هستم. ممکنه اطلاعاتتون در این زمینه رو که قطعا میتونن مفید باشند، برام ایمیل کنید؟ کمکی هر چند کوچیک میتونه سرنخی باشه برای حل مساله. پیشاپیش متشکرم
اضافه میکنم؛ روی متن فارسی
سلام
ممنون مختصر و مفید بود
سلام ممنون میشم پاسخ بدید، متن کاوی زیر شاخه داده کاوی است درسته؟
اما حالا nlp زیر شاخه متن کاوی است یا نه هر کدام شاخه ای هستند؟
چگونه با هم تعامل دارند؟
مگه متن کاوی به nlp برای درک متن نیاز نداره؟؟
سلام
این مقاله رو بخونید به نظر کمک میکنه:
https://sloboda-studio.com/blog/natural-language-processing-vs-text-mining/#:~:text=NLP%20provides%20the%20understanding%20of,word%20frequencies%20and%20patterns%20used.