مجموعه داده‌ی تحلیل احساس (Sentiment Analysis) کامنت‌های دیجی‌کالا

در این مجموعه‌ی داده که به همت دکتر تهرانی‌پور عزیز تهیه شده است، شامل ۳۲۶۱ نمونه داده است. هر سطر یک کامنت جمع‌آوری شده از وب‌سایت دیجی‌کالا را نمایش می‌دهد که شامل سه ستون (ویژگی) به شرح زیر است:

ادامه خواندن “مجموعه داده‌ی تحلیل احساس (Sentiment Analysis) کامنت‌های دیجی‌کالا”

مجموعه داده تشخیص وضعیت‌های مختلف انسان با استفاده از سنسورهای حرکتی

ساعت‌های هوشمند و یا وسائل پوشیدنی (مچ‌بند) مراقبت از سلامت در حال فراگیر شدن هستند. این وسائل می‌توانند حالات و وضعیت‌های مختلفِ یک شخص را تشخیص داده و از آن برای مقاصدی مانندِ محاسبه‌ی کالری مصرف شده یا میزان خواب و یا مراقبت از سلامتِ شخص استفاده کرد. در این نوشته به یکی از مجموعه داده‌هایی که از سنسورهای حرکتیِ دست و پا به دست آمده است، می‌پردازیم و نشان می‌دهیم چگونه می‌توان از با استفاده از داده‌کاوی و یادگیری ماشین از آن‌ها استفاده کرد.

ادامه خواندن “مجموعه داده تشخیص وضعیت‌های مختلف انسان با استفاده از سنسورهای حرکتی”

مجموعه داده‌ی سرقت بیتکوین با استفاده از باج افزار

بیکوین یک ارز مجازی است که به دلیل سختی در رهگیری، یکی از ارزهای مورد علاقه‌ی سارقان است. مشکل باج‌گیری با استفاده از بیتکوین یکی از معضلات جامعه‌ی نرم‌افزاری در جهان است. برای مثال، سارق با نصب نرم‌افزاری بر روی سیستم شما، عکس‌های شما را قفل کرده و به شما پیام می‌دهد که اگر عکس‌هایتان را می‌خواهید، بایستی مبلغی پول بیت‌کوین به حساب او واریز کنید (اطلاعات بیشتر در مورد باج‌افزار). این مشکل، دانشمندان حوزه‌ی علم داده را به این فکر فرو برد که شاید بتوانند با استفاده از روش‌های هوشمند داده‌کاوی، تراکنش‌هایی را که مشکوک به سو استفاده سارقان هستند را شناسایی کنند.

ادامه خواندن “مجموعه داده‌ی سرقت بیتکوین با استفاده از باج افزار”

مجموعه داده‌ی تشخیص ریسک دیابت در مراحل اولیه (Early Stage Diabetes)

دیابت یکی از بیماری‌هایی است که با سرعت زیادی در جهان در حال افزایش بوده و سالیانه باعث مرگ و میر افراد زیادی می‌شود. سازمان بهداشت جهانی، در سال ۲۰۱۸، تعداد ۴۲۲ میلیون نفر را دارای دیابت می‌داند. این بیماری دارای مرحله‌ی طولانیِ بدون نشانه است و به همین دلیل تشخیص زودهنگام دیابت می‌تواند کمکی بزرگ به بیماران باشد. نزدیک نیمی از افراد دیابتی، به دلیلِ همین طولانی بودنِ مرحله‌ی بدون نشانه، بدون تشخیص می‌مانند. به همین دلیل، مجموعه‌ی داده‌ای آماده شده است تا با استفاده از یک سری ویژگیِ ساده و عمومی، بتوان بیماری را در مراحل اولیه تشخیص داد و اقدام به درمان بیماران کرد.

ادامه خواندن “مجموعه داده‌ی تشخیص ریسک دیابت در مراحل اولیه (Early Stage Diabetes)”

مجموعه داده‌ی Abalone (پیش‌بینی سن صدف‌های دریایی)

آبالون‌ها (Abalones) به صورت عمومی به صدف‌ها یا حلزون‌های دریایی گفته می‌شود. از گوشت آن‌ها به عنوان خوراک و از پوسته‌ی آن‌ها به عنوان وسائل زینتی استفاده می‌شود. برای به دست آوردن سن این موجودات (که از اهمیتی فراوانی در بخش‌های مختلف تجارت برخوردار است)، بایستی ابتدا پوسته‌ی صدف را برش دهند، با وسائل خاصی رنگ‌آمیزی کنند و سپس تعداد حلقه‌های موجود در آن را توسط میکروسکوپ به صورت دقیق بشمارند. این فرآیند بسیار طولانی و وقت‌گیر است. برای همین دانشمندان به فکر استفاده از علم داده برای تشخیص سن آبالون‌ها افتادند.

ادامه خواندن “مجموعه داده‌ی Abalone (پیش‌بینی سن صدف‌های دریایی)”