در اولین قسمت پادکست دیتاکست با مهدس رسولی که در شبکههای اجتماعی با عنوان مینیمال معمولاً فعالیت میکند، صحبت خواهیم داشت و در مورد تجربهی کاری او در اپلیکیشن مسیریاب نشان و اپلیکیشن خرده فروشی شاپی سنگاپور از زبان خودش خواهیم شنید.
ادامه خواندن “پادکست دیتاکست – قسمت اول | گفتوگو با مهدی رسولی با تجربهی کار در «نشان» و «شاپی سنگاپور»”استخدام کارشناس هوش مصنوعی و دادهکاوی در موسسه فام
شرکت تجارت الکترونیک و فناوری اطلاعات ملل (fam724.ir) جهت تکمیل و گسترش پروژههای خود در حوزهی هوشمصنوعی اقدام به جذب نیروی متخصص میکند
ادامه خواندن “استخدام کارشناس هوش مصنوعی و دادهکاوی در موسسه فام”مدلهای احتمالی در مقابل مدلهای قطعی در طبقهبندی دادهها
همانطور که در دروس قبلی در مورد الگوریتمهای طبقهبندی خواندیم، الگوریتمهای طبقهبندی میتوانستند از روی دادهها یادگیری را انجام داده و بعد از آن، نمونههای جدید را طبقهبندی کرده و به یکی از برچسبهای موجودِ قبلی، برچسبگذاری نمایند. بسیاری از این الگوریتمها، میتوانند به جای برچسبزنیِ قطعی، احتمال هر کدام از برچسبهای (طبقههای) موجود را برای نمونهی جدید بیان کنند و در این درس به بررسی این روش خواهیم پرداخت.
ادامه خواندن “مدلهای احتمالی در مقابل مدلهای قطعی در طبقهبندی دادهها”مجموعه داده تشخیص وضعیتهای مختلف انسان با استفاده از سنسورهای حرکتی
ساعتهای هوشمند و یا وسائل پوشیدنی (مچبند) مراقبت از سلامت در حال فراگیر شدن هستند. این وسائل میتوانند حالات و وضعیتهای مختلفِ یک شخص را تشخیص داده و از آن برای مقاصدی مانندِ محاسبهی کالری مصرف شده یا میزان خواب و یا مراقبت از سلامتِ شخص استفاده کرد. در این نوشته به یکی از مجموعه دادههایی که از سنسورهای حرکتیِ دست و پا به دست آمده است، میپردازیم و نشان میدهیم چگونه میتوان از با استفاده از دادهکاوی و یادگیری ماشین از آنها استفاده کرد.
ادامه خواندن “مجموعه داده تشخیص وضعیتهای مختلف انسان با استفاده از سنسورهای حرکتی”مجموعه دادهی سرقت بیتکوین با استفاده از باج افزار
بیکوین یک ارز مجازی است که به دلیل سختی در رهگیری، یکی از ارزهای مورد علاقهی سارقان است. مشکل باجگیری با استفاده از بیتکوین یکی از معضلات جامعهی نرمافزاری در جهان است. برای مثال، سارق با نصب نرمافزاری بر روی سیستم شما، عکسهای شما را قفل کرده و به شما پیام میدهد که اگر عکسهایتان را میخواهید، بایستی مبلغی پول بیتکوین به حساب او واریز کنید (اطلاعات بیشتر در مورد باجافزار). این مشکل، دانشمندان حوزهی علم داده را به این فکر فرو برد که شاید بتوانند با استفاده از روشهای هوشمند دادهکاوی، تراکنشهایی را که مشکوک به سو استفاده سارقان هستند را شناسایی کنند.
ادامه خواندن “مجموعه دادهی سرقت بیتکوین با استفاده از باج افزار”فرآیند کریسپ (CRISP) جهت انجام پروژههای دادهکاوی
پروژههای مختلف صنعتی، هر کدام روشها و فرآیندهای خاص خود را دارند. برای مثال در فرآیند مهندسی ساخت و تولید یک نرم افزار، میتوان از روشهای گوناگونی مانند روش آبشاری، روش حلقوی یا روش چابک استفاده کرد. برای اجرای فرآیندهای دادهکاوی نیز، روشهای مختلفی تولید شده است که یکی از محبوبترین آنها روش «فرآیند استاندارد صنعتی متقاطع» است که مخفف شده و لاتینِ آن به CRISP معروف است.
ادامه خواندن “فرآیند کریسپ (CRISP) جهت انجام پروژههای دادهکاوی”مجموعه دادهی تشخیص ریسک دیابت در مراحل اولیه (Early Stage Diabetes)
دیابت یکی از بیماریهایی است که با سرعت زیادی در جهان در حال افزایش بوده و سالیانه باعث مرگ و میر افراد زیادی میشود. سازمان بهداشت جهانی، در سال ۲۰۱۸، تعداد ۴۲۲ میلیون نفر را دارای دیابت میداند. این بیماری دارای مرحلهی طولانیِ بدون نشانه است و به همین دلیل تشخیص زودهنگام دیابت میتواند کمکی بزرگ به بیماران باشد. نزدیک نیمی از افراد دیابتی، به دلیلِ همین طولانی بودنِ مرحلهی بدون نشانه، بدون تشخیص میمانند. به همین دلیل، مجموعهی دادهای آماده شده است تا با استفاده از یک سری ویژگیِ ساده و عمومی، بتوان بیماری را در مراحل اولیه تشخیص داد و اقدام به درمان بیماران کرد.
ادامه خواندن “مجموعه دادهی تشخیص ریسک دیابت در مراحل اولیه (Early Stage Diabetes)”مجموعه دادهی Abalone (پیشبینی سن صدفهای دریایی)
آبالونها (Abalones) به صورت عمومی به صدفها یا حلزونهای دریایی گفته میشود. از گوشت آنها به عنوان خوراک و از پوستهی آنها به عنوان وسائل زینتی استفاده میشود. برای به دست آوردن سن این موجودات (که از اهمیتی فراوانی در بخشهای مختلف تجارت برخوردار است)، بایستی ابتدا پوستهی صدف را برش دهند، با وسائل خاصی رنگآمیزی کنند و سپس تعداد حلقههای موجود در آن را توسط میکروسکوپ به صورت دقیق بشمارند. این فرآیند بسیار طولانی و وقتگیر است. برای همین دانشمندان به فکر استفاده از علم داده برای تشخیص سن آبالونها افتادند.
ادامه خواندن “مجموعه دادهی Abalone (پیشبینی سن صدفهای دریایی)”مجموعه دادهی نامتوازن (Imbalance) چیست؟
اگر درس طبقهبندی (Classification) را خوانده باشید، میدانید که منظور ما از طبقه یا کلاس یا همان برچسب چیست. برای مثال در همان درسِ طبقهبندی دیدیم که مدیرِ یک بانک میخواست از روی ویژگیهای مختلفِ مشتریها، تصمیم بگیرد که به آنها وام بدهد/یا خیر. پس مجموعهی دادهای از مشتریهای قبلی آماده میکرد و ویژگیهای آنها به همراه بازپرداخت وام را برای هر یک به دست میآورد و در مجموعهی دادهی آموزشی قرار میداد. فرض کنید، از بین ۱۰هزار مشتری بانک، ۵هزار نفر آنها توانسته باشند وام را پس دهند و ۵هزار نفر نتواسته باشند وام خود را پس دهند. پس در اینجا یک مجموعهی دادهی متوازن داریم به صورتی که هر کدام از طبقهها به صورت تقریبی یک اندازه داده دارند و الگوریتمِ طبقهبندی میتواند الگوهای هر دسته را پیدا کرده و یادگیری خود را از روی این مجموعهی داده انجام دهد. اما همهی مجموعهی دادهها به این صورت متوازن نیستند.
ادامه خواندن “مجموعه دادهی نامتوازن (Imbalance) چیست؟”روش «یک در مقابل یک (One vs. One)» در طبقهبندی
اگر درس قبل را خوانده باشید، میدانید که یکی از روشهای طبقهبندی (Classification) دادههای چند کلاسه، استفاده از روشِ «یک در مقابل همه» یا همان One vs. All است. اما این روش، در برخی از مواقع ضعفهایی نیز دارد. به همین دلیل روش «یک در مقابل یک» یا همان One vs. One به وجود آمد که در بسیاری از مواقع، کیفیتِ به مراتب بهتری، نسبت به روش قبلی (One vs. All) ارائه میدهد.
ادامه خواندن “روش «یک در مقابل یک (One vs. One)» در طبقهبندی”