پادکست دیتاکست – قسمت اول | گفت‌وگو با مهدی رسولی با تجربه‌ی کار در «نشان» و «شاپی سنگاپور»

در اولین قسمت پادکست دیتاکست با مهدس رسولی که در شبکه‌های اجتماعی با عنوان مینیمال معمولاً فعالیت می‌کند، صحبت خواهیم داشت و در مورد تجربه‌ی کاری او در اپلیکیشن مسیریاب نشان و اپلیکیشن خرده فروشی شاپی سنگاپور از زبان خودش خواهیم شنید.

ادامه خواندن “پادکست دیتاکست – قسمت اول | گفت‌وگو با مهدی رسولی با تجربه‌ی کار در «نشان» و «شاپی سنگاپور»”

استخدام کارشناس هوش مصنوعی و داده‌کاوی در موسسه فام

شرکت تجارت الکترونیک و فناوری اطلاعات ملل (fam724.ir) جهت تکمیل و گسترش پروژه‌های خود در حوزه‌ی هوش‌مصنوعی اقدام به جذب نیروی متخصص می‌کند

ادامه خواندن “استخدام کارشناس هوش مصنوعی و داده‌کاوی در موسسه فام”

مدل‌های احتمالی در مقابل مدل‌های قطعی در طبقه‌بندی داده‌ها

همان‌طور که در دروس قبلی در مورد الگوریتم‌های طبقه‌بندی خواندیم، الگوریتم‌های طبقه‌بندی می‌توانستند از روی داده‌ها یادگیری را انجام داده و بعد از آن، نمونه‌های جدید را طبقه‌بندی کرده و به یکی از برچسب‌های موجودِ قبلی، برچسب‌گذاری نمایند. بسیاری از این الگوریتم‌ها، می‌توانند به جای برچسب‌زنیِ قطعی، احتمال هر کدام از برچسب‌های (طبقه‌های) موجود را برای نمونه‌ی جدید بیان کنند و در این درس به بررسی این روش خواهیم پرداخت.

ادامه خواندن “مدل‌های احتمالی در مقابل مدل‌های قطعی در طبقه‌بندی داده‌ها”

مجموعه داده تشخیص وضعیت‌های مختلف انسان با استفاده از سنسورهای حرکتی

ساعت‌های هوشمند و یا وسائل پوشیدنی (مچ‌بند) مراقبت از سلامت در حال فراگیر شدن هستند. این وسائل می‌توانند حالات و وضعیت‌های مختلفِ یک شخص را تشخیص داده و از آن برای مقاصدی مانندِ محاسبه‌ی کالری مصرف شده یا میزان خواب و یا مراقبت از سلامتِ شخص استفاده کرد. در این نوشته به یکی از مجموعه داده‌هایی که از سنسورهای حرکتیِ دست و پا به دست آمده است، می‌پردازیم و نشان می‌دهیم چگونه می‌توان از با استفاده از داده‌کاوی و یادگیری ماشین از آن‌ها استفاده کرد.

ادامه خواندن “مجموعه داده تشخیص وضعیت‌های مختلف انسان با استفاده از سنسورهای حرکتی”

مجموعه داده‌ی سرقت بیتکوین با استفاده از باج افزار

بیکوین یک ارز مجازی است که به دلیل سختی در رهگیری، یکی از ارزهای مورد علاقه‌ی سارقان است. مشکل باج‌گیری با استفاده از بیتکوین یکی از معضلات جامعه‌ی نرم‌افزاری در جهان است. برای مثال، سارق با نصب نرم‌افزاری بر روی سیستم شما، عکس‌های شما را قفل کرده و به شما پیام می‌دهد که اگر عکس‌هایتان را می‌خواهید، بایستی مبلغی پول بیت‌کوین به حساب او واریز کنید (اطلاعات بیشتر در مورد باج‌افزار). این مشکل، دانشمندان حوزه‌ی علم داده را به این فکر فرو برد که شاید بتوانند با استفاده از روش‌های هوشمند داده‌کاوی، تراکنش‌هایی را که مشکوک به سو استفاده سارقان هستند را شناسایی کنند.

ادامه خواندن “مجموعه داده‌ی سرقت بیتکوین با استفاده از باج افزار”

فرآیند کریسپ (CRISP) جهت انجام پروژه‌های داده‌کاوی

پروژه‌های مختلف صنعتی، هر کدام روش‌ها و فرآیندهای خاص خود را دارند. برای مثال در فرآیند مهندسی ساخت و تولید یک نرم افزار، می‌توان از روش‌های گوناگونی مانند روش آبشاری، روش حلقوی یا روش چابک استفاده کرد. برای اجرای فرآیندهای داده‌کاوی نیز، روش‌های مختلفی تولید شده است که یکی از محبوب‌ترین آن‌ها روش «فرآیند استاندارد صنعتی متقاطع» است که مخفف شده و لاتینِ آن به CRISP معروف است.

ادامه خواندن “فرآیند کریسپ (CRISP) جهت انجام پروژه‌های داده‌کاوی”

مجموعه داده‌ی تشخیص ریسک دیابت در مراحل اولیه (Early Stage Diabetes)

دیابت یکی از بیماری‌هایی است که با سرعت زیادی در جهان در حال افزایش بوده و سالیانه باعث مرگ و میر افراد زیادی می‌شود. سازمان بهداشت جهانی، در سال ۲۰۱۸، تعداد ۴۲۲ میلیون نفر را دارای دیابت می‌داند. این بیماری دارای مرحله‌ی طولانیِ بدون نشانه است و به همین دلیل تشخیص زودهنگام دیابت می‌تواند کمکی بزرگ به بیماران باشد. نزدیک نیمی از افراد دیابتی، به دلیلِ همین طولانی بودنِ مرحله‌ی بدون نشانه، بدون تشخیص می‌مانند. به همین دلیل، مجموعه‌ی داده‌ای آماده شده است تا با استفاده از یک سری ویژگیِ ساده و عمومی، بتوان بیماری را در مراحل اولیه تشخیص داد و اقدام به درمان بیماران کرد.

ادامه خواندن “مجموعه داده‌ی تشخیص ریسک دیابت در مراحل اولیه (Early Stage Diabetes)”

مجموعه داده‌ی Abalone (پیش‌بینی سن صدف‌های دریایی)

آبالون‌ها (Abalones) به صورت عمومی به صدف‌ها یا حلزون‌های دریایی گفته می‌شود. از گوشت آن‌ها به عنوان خوراک و از پوسته‌ی آن‌ها به عنوان وسائل زینتی استفاده می‌شود. برای به دست آوردن سن این موجودات (که از اهمیتی فراوانی در بخش‌های مختلف تجارت برخوردار است)، بایستی ابتدا پوسته‌ی صدف را برش دهند، با وسائل خاصی رنگ‌آمیزی کنند و سپس تعداد حلقه‌های موجود در آن را توسط میکروسکوپ به صورت دقیق بشمارند. این فرآیند بسیار طولانی و وقت‌گیر است. برای همین دانشمندان به فکر استفاده از علم داده برای تشخیص سن آبالون‌ها افتادند.

ادامه خواندن “مجموعه داده‌ی Abalone (پیش‌بینی سن صدف‌های دریایی)”

مجموعه داده‌ی نامتوازن (Imbalance) چیست؟

اگر درس طبقه‌بندی (Classification) را خوانده باشید، می‌دانید که منظور ما از طبقه یا کلاس یا همان برچسب چیست. برای مثال در همان درسِ طبقه‌بندی دیدیم که مدیرِ یک بانک می‌خواست از روی ویژگی‌های مختلفِ مشتری‌ها، تصمیم بگیرد که به آن‌ها وام بدهد/یا خیر. پس مجموعه‌ی داده‌ای از مشتری‌های قبلی آماده می‌کرد و ویژگی‌های آن‌ها به همراه بازپرداخت وام را برای هر یک به دست می‌آورد و در مجموعه‌ی داده‌ی آموزشی قرار می‌داد. فرض کنید، از بین ۱۰هزار مشتری بانک، ۵هزار نفر آن‌ها توانسته باشند وام را پس دهند و ۵هزار نفر نتواسته باشند وام خود را پس دهند. پس در این‌جا یک مجموعه‌ی داده‌ی متوازن داریم به صورتی که هر کدام از طبقه‌ها به صورت تقریبی یک اندازه داده دارند و الگوریتمِ طبقه‌بندی می‌تواند الگوهای هر دسته را پیدا کرده و یادگیری خود را از روی این مجموعه‌ی داده انجام دهد. اما همه‌ی مجموعه‌ی داده‌ها به این صورت متوازن نیستند.

ادامه خواندن “مجموعه داده‌ی نامتوازن (Imbalance) چیست؟”

روش «یک در مقابل یک (One vs. One)» در طبقه‌بندی

اگر درس قبل را خوانده باشید، می‌دانید که یکی از روش‌های طبقه‌بندی (Classification) داده‌های چند کلاسه، استفاده از روشِ «یک در مقابل همه» یا همان One vs. All است. اما این روش، در برخی از مواقع ضعف‌هایی نیز دارد. به همین دلیل روش «یک در مقابل یک» یا همان One vs. One به وجود آمد که در بسیاری از مواقع، کیفیتِ به مراتب بهتری، نسبت به روش قبلی (One vs. All) ارائه می‌دهد.

ادامه خواندن “روش «یک در مقابل یک (One vs. One)» در طبقه‌بندی”