مجموعه داده‌ی تحلیل احساس (Sentiment Analysis) کامنت‌های دیجی‌کالا

در این مجموعه‌ی داده که به همت دکتر تهرانی‌پور عزیز تهیه شده است، شامل ۳۲۶۱ نمونه داده است. هر سطر یک کامنت جمع‌آوری شده از وب‌سایت دیجی‌کالا را نمایش می‌دهد که شامل سه ستون (ویژگی) به شرح زیر است:

ادامه خواندن “مجموعه داده‌ی تحلیل احساس (Sentiment Analysis) کامنت‌های دیجی‌کالا”

پادکست دیتاکست – قسمت سوم | گفت‌وگو با بهنام ثابتی، مدیر تیم هوش مصنوعی صباایده

در این قسمت از دیتاکست، با بهنام ثابتی مدیر تیم هوش مصنوعی هولدینگ صباایده (فیلیمو/آپارات، سینماتیکت و صباویژن) درباره روند کارآفرینی و مسیر راه در حوزه یادگیری ماشین و هوش مصنوعی را در این چند سال با بهنام، مرور کردیم و درباره‌ی تفاوت‌های دانشگاه و صنعت نیز صحبت کردیم.

ادامه خواندن “پادکست دیتاکست – قسمت سوم | گفت‌وگو با بهنام ثابتی، مدیر تیم هوش مصنوعی صباایده”

شبکه‌های عصبی عمیق توالی به توالی (Seq2Seq)

شبکه‌های عصبی توالی به توالی یا همان sequence to sequence که به اختصار Seq2Seq نیز نامیده می‌شود ابتدا توسط گوگل جهت انجام عملیات ترجمه‌ی ماشینی (machine translation) ارائه شد. این شبکه‌ها که به نوعی همان شبکه‌های عصبی بازگشتی (RNN) هستند، توانایی دریافت توالی از ورودی‌ها و تبدیل آن‌ها به توالی از خروجی‌ها را دارند.

ادامه خواندن “شبکه‌های عصبی عمیق توالی به توالی (Seq2Seq)”

کتاب یادگیری ماشین و یادگیری عمیق با زبان‌های پایتون و R

کتاب یادگیری ماشین و یادگیری عمیق با زبان‌های پایتون و R کتابی مبتنی بر کاربرد در حوزه‌ی هوش مصنوعی و یادگیری ماشین است. در این کتاب سعی بر حل مسائل دنیای واقعی با استفاده از مثال‌ها و مجموعه‌ی داده‌هایی در حوزه‌های مختلف (پزشکی، صنعت، آموزشی و…) شده است.

ادامه خواندن “کتاب یادگیری ماشین و یادگیری عمیق با زبان‌های پایتون و R”

معیار کاپا (Kappa) برای ارزیابی طبقه‌بندی‌های چندکلاسه

در دروس گذشته یادگرفتیم که چگونه با استفاده از ماتریس اغتشاش (Confusion Matrix) و معیارهایی مانند دقت (Accuracy)، صحت (Precision) و معیار F1، کیفیت یک الگوریتمِ طبقه‌بندی را مشخص کنیم. در این درس به یکی دیگر از این معیارها به نام امتیاز کاپا (Kappa Score) که به معیار Cohen’s Kappa نیز معروف است می‌پردازیم. خواهیم دید که این معیار یک معیار مناسب، برای ارزیابی کیفیت الگوریتم‌های طبقه‌بندی چند کلاسه است.

ادامه خواندن “معیار کاپا (Kappa) برای ارزیابی طبقه‌بندی‌های چندکلاسه”

معیار صحت (Precision)، پوشش (Recall) و معیار F

در درس گذشته با ماتریس اغتشاش (Confusion Matrix) و معیار دقت (Accuracy) آشنا شدیم. دیدیم که با استفاده از یک مجموعه‌ی آزمون، می‌توانیم دقتِ الگوریتم را از روی ماتریس اغتشاش، به سادگی محاسبه کنیم. اما آیا این دقت، معیاری خوبی برای ارزیابی یک الگوریتم بود؟

ادامه خواندن “معیار صحت (Precision)، پوشش (Recall) و معیار F”

ماتریس اغتشاش (Confusion Matrix) و معیار دقت (Accuracy)

همان‌طور که تا اینجا در دوره طبقه‌بندی داده‌ها مشاهده کردید، ما به دنبال الگوریتمی هستیم با استفاده از داده‌های آموزشی، یادگیری را انجام دهد، و بتواند داده‌های جدید را حتی‌المکان به درستی پیش‌بینی یا همان طبقه‌بندی نماید. مشکل هنگامی پدیدار می‌شود که الگوریتم معمولاً نمی‌تواند دقتِ ۱۰۰درصدی داشته باشد. یعنی معمولاً کمی خطا در پیش‌بینیِ خود دارد.

ادامه خواندن “ماتریس اغتشاش (Confusion Matrix) و معیار دقت (Accuracy)”

فاصله‌ی جنسون-شنون (Jenson-Shannon) برای مقایسه‌ی توزیع‌های آماری

در درس گذشته در مورد واگرایی کولبک-لیبلر صحبت کردیم و گفتیم که این معیار واگرایی می‌تواند شباهت دو توزیع آماری را نمایش دهد. فاصله‌ی جنسون-شنون (Jenson-Shannon) نیز مانند کولبک-لیبلر رفتار می‌کند با این تفاوت که این فاصله بین دو توزیع آماری، تقارن دارد. یعنی فاصله‌ی توزیعِ اول و دوم برابر با فاصله‌ی توزیع دوم و اول است در حالی که در واگرایی کولبک-لیبلر این خاصیت برقرار نیست.

ادامه خواندن “فاصله‌ی جنسون-شنون (Jenson-Shannon) برای مقایسه‌ی توزیع‌های آماری”

واگرایی کولبک-لیبلر (Kullback-Leibler Divergence) و کاربرد آن در فاصله‌ی آماری

در چند درس گذشته به توزیع‌های آماری و فاصله‌ی آماری اشاره کردیم. در این درس می‌خواهیم یکی از معیارهای فاصله‌ی آماری به نام واگرایی کولبک-لیبلر که به صورت مخفف واگراییِ KL نیز خوانده می‌شود بپردازیم و ببینم که چگونه می‌توان با استفاده از این معیار، فاصله‌ی بین دو مجموعه‌ی داده را به صورت آماری محاسبه کرد.

ادامه خواندن “واگرایی کولبک-لیبلر (Kullback-Leibler Divergence) و کاربرد آن در فاصله‌ی آماری”

فاصله‌ی آماری (Statistical Distance) و کاربردهای آن

روش‌های متعددی برای مقایسه‌ی دو مجموعه‌ی داده با یکدیگر است. مثلاً می‌توان میانگین آن‌ها را با یکدیگر مقایسه کرد و یا پراکندگی (واریانس) آن‌ها را مورد مقایسه قرار داد. اما هر کدام از این مقایسه‌ها قسمتی از حقیقت را پنهان می‌کنند. به همین دلیل معیارهایی با نام فاصله‌ی آماری به وجود آمده است که با استفاده از آن‌ها بتوان مجموعه داده‌های مختلف و یا متغیرهای متفاوت را با یکدیگر مقایسه کرد.

ادامه خواندن “فاصله‌ی آماری (Statistical Distance) و کاربردهای آن”