آشنایی با روش‌های متن‌کاوی (Text Mining) و پردازش زبان طبیعی (NLP) | چیستیو

زبانی که هر روز با آن صحبت می‌کنیم همان زبانِ طبیعیِ ماست. زبانی مشترک به برای انسان‌ها قابل فهم است و ما آدم‌ها از آن برای ارتباط با یکدیگر و انتقال مفاهیم استفاده می‌کنیم. اما این زبان، برای کامپیوتر که با ۰ و ۱ و محاسبات سر و کار دارد، بی‌معنا و گُنگ است. پس نیاز داریم تا این زبانِ طبیعی را برای کامپیوتر قابل فهم کنیم. اگر کامپیوتر بتواند زبانِ ما انسان‌ها را بفهمد، آن‌وقت است که می‌توانیم از مزیت‌های محاسباتِ سریع توسط کامپیوتر بر روی زبانِ طبیعی استفاده کنیم. برای مثال می‌توانیم یه صورت خودکار یک متن را با کامپیوتر به زبان دیگر ترجمه کنیم.

کاربردها و استفاده‌های فراوان حوزه‌ی زبان در کامپیوتر ما را بر آن داشت که یک دوره‌ی مستقل در این‌باره ایجاد کنیم تا بتوانیم با یکدیگر به یک فهمِ عمومی از این حوزه دست پیدا کرده و از آن در پروژه‌های خود استفاده ببریم.

مراجعِ اصلیِ این دوره کتاب Text Mining: Application and Theory از آقای بری و کاگان و همچنین کتاب An Introduction to Text Mining: Research Design, Data Collection, and Analysis می‌باشد. البته سعی بر این داریم که منابع دیگر را نیز در بین دروس وارد کرده تا به درکِ بهترِ مطلب کمک کرده باشیم.

ترتیب پیشنهادی مطالعه‌ی این دوره به صورت زیر است:

درس ۱	متن کاوی (Text Mining) و پردازش زبان طبیعی (NLP) چیست؟
درس ۲	ساخت کوله‌ی کلمات (Bag of Words) در پیش‌پردازش متون
درس ۳	روش TF-IDF برای ساختاردهی به داده‌های متنی
درس ۴	تحلیل احساسات (Sentiment Analysis) در متن‌کاوی
درس ۵	n-gram و کاربرد آن در متن‌کاوی
درس ۶	مدل‌سازی موضوعات (Topic Modeling) و کاربرد آن در متن‌کاوی
درس ۷	یافتن ریشه کلمات با Stemming و Lemmatization
درس ۸	تشخیص شباهت متون (Text Similarity) با استفاده از الگوریتم Jaccard
درس ۹	خوشه‌بندی متون (Text Clustering) و کاربردهای آن
این دوره در حال تکمیل است…