چیستیو | علوم داده و نرم افزار | صفحه 5 از 24 | محلی برای یادگیریِ علوم‌داده و مهندسیِ نرم‌افزار

اکتبر 4, 2020اکتبر 4, 2020

روش «یک در مقابل یک (One vs. One)» در طبقه‌بندی

اگر درس قبل را خوانده باشید، می‌دانید که یکی از روش‌های طبقه‌بندی (Classification) داده‌های چند کلاسه، استفاده از روشِ «یک در مقابل همه» یا همان One vs. All است. اما این روش، در برخی از مواقع ضعف‌هایی نیز دارد. به همین دلیل روش «یک در مقابل یک» یا همان One vs. One به وجود آمد که در بسیاری از مواقع، کیفیتِ به مراتب بهتری، نسبت به روش قبلی (One vs. All) ارائه می‌دهد.

ادامه خواندن

اکتبر 2, 2020اکتبر 2, 2020

روش «یک در مقابل همه (One vs. All)» برای طبقه‌بندی داده‌های چند کلاسه

بسیاری از مسائل حوزه‌ی طبقه‌بندی (Classification) فقط دو کلاس (دو نوع برچسب) دارند. به این مسائل، طبقه‌بندی دودویی می‌گویند. برای مثال، مانند درس گذشته، فرض کنید می‌خواهیم سیستمی بسازیم که بتواند تفاوت ایمیل‌های اسپم و عادی را بر اساس یک سری ویژگی (بُعد)، تشخیص دهد. این کار توسط الگوریتم‌های طبقه‌بندی به سادگی قابل انجام است. اما هنگامی که تعداد این طبقه‌ها (انواع برچسب‌ها) بالا و بالاتر می‌رود، کار برای الگوریتم سخت شده نیاز به الگوریتم‌های پیچیده‌تری هست.

ادامه خواندن

اکتبر 2, 2020اکتبر 2, 2020

مسائل طبقه‌بندی دودویی (binary)، چند کلاسه (Multi Class)، چند برچسبه (Multi Label) و تفاوت آن‌ها

در بحث طبقه‌بندی داده‌ها یا همان Classification، ممکن است برخی از اصطلاحات به اشتباه به جای یکدیگر به کار روند و یا برخی از مفاهیم به جای برخی دیگر به کار گرفته شوند. در این درس به بررسی سه اصطلاح مهم و اصلی در طبقه‌بندی داده‌ها و تفاوت آن‌ها با یکدیگر می‌پردازیم.

ادامه خواندن

اکتبر 2, 2020اکتبر 2, 2020

رگرسیون لجستیک (Logistic Regression)

در درس‌های قبل این دوره، با انواع الگوریتم‌های طبقه‌بندی آشنا شدیم و دیدیم که چگونه می‌توان با استفاده از این الگوریتم‌ها، الگوهای مختلف و طبقه‌های متناظر آن‌ها را در یک مجموعه‌ی داده، شناسایی کرد. در این درس به سراغ یکی دیگر از الگوریتم‌های طبقه‌بندی (Classification) می‌رویم که رگرسیون لجستیک یا همان Logistic Regression نام دارد. این الگوریتم بر خلاف اسمش، جزو الگوریتم‌های طبقه‌بندی قرار می‌گیرد و معمولاً آن را یک الگوریتم رگرسیون نمی‌دانند.

ادامه خواندن

جولای 23, 2020جولای 23, 2020

نقشه‌ی راه تبدیل شدن به یک متخصص علم داده (فیلم)

با توجه به کاربردهای مختلف علم داده در رشته‌ها و صنایع گوناگون، طیف وسیعی از دانشجویان و علاقه‌مندان نیاز به راهنمایی دارند تا بتوانند از صفر، نقشه‌ی راهی داشته باشند و به وسیله‌ی آن شروع به یادگیریِ بخش‌های مختلف علم داده کنند.

ادامه خواندن

جولای 23, 2020جولای 23, 2020

مجموعه‌ی فیلم آموزش مقدماتی برنامه نویسی پایتون

همان‌طور که می‌دانید زبان پایتون یکی از زبان‌های مطرح در حوزه‌ی پیاده‌سازی پروژه‌های داده‌کاوی و یادگیری ماشین است. پایتون به دلیل سرعت بالا، کتابخانه‌های بسیار زیاد و همچنین استفاده کنندگانِ مطرح آن، به عنوان یکی از زبان‌های پرکاربرد در حوزه‌ی علم داده شناخته شده است.

ادامه خواندن

اکتبر 7, 2019آوریل 3, 2023

دانلود رایگان کتاب داده‌کاوی برای برنامه نویسان

کتاب داده‌کاوی برای برنامه نویسان با نام اصلیِ A Programmer’s Guide to Data Mining توسط ران زاچارسکی در وب‌سایت guidetodatamining.com به صورت رایگان انتشار یافته است. این کتاب در ۸ فصل نگارش شده که در فصل اول به بررسی مقدماتی در مورد داده‌کاوی و جنبه‌های کاربردیِ آن پرداخته شده است.

ادامه خواندن

اکتبر 1, 2019اکتبر 1, 2019

توزیع گاما (Gamma Distribution)

تا به این‌جا در دوره‌ی جاری، با انواع مختلفی از توابع توزیع احتمالی آشنا شدیم. تابع توزیع برنولی، دوجمله‌ای، پواسون، نمایی و توزیع نرمال از جمله این دست از توزیع‌ها بودند. در درس جاری به توزیع پیچیده‌تری با اسم توزیع گاما یا همان gamma distribution خواهیم پرداخت و کاربرد این توزیع را با هم مرور خواهیم کرد. توجه داشته باشید که توزیع گاما از کاربردی‌ترین توزیع‌های احتمالی در صنعت است.

ادامه خواندن

سپتامبر 30, 2019

آزمون برازش Chi-Square برای توزیع‌های احتمال

در دوره‌ی جاری، به بررسیِ انواع تابع توزیع احتمال و کاربردهای آن پرداختیم. اما سوال این‌جاست که چگونه بفهمیم فرآیندهایمان از یک توزیع خاص (مثلاً توزیع پواسون یا توزیع نرمال) پیروی می‌کنند یا خیر؟ در درس «چگونگیِ ارزیابی داده‌ها با توجه به توزیع نرمال»، فهمیدیم که چگونه می‌توانیم ببینیم که آیا داده‌های ما از توزیع نرمال پیروی می‌کنند یا خیر. در درس جاری می‌خواهیم به روش chi-square که یکی از روش‌های معروف و شناخته شده برای ارزیابی توزیعِ فرآیند‌ها هست، اشاره‌ی کوچکی کنیم. توسط این روش می‌توانیم توزیع‌های احتمالیِ دیگری را نیز بر روی داده‌هایمان ارزیابی کنیم. مثلاً ببینیم که آیا مجموعه‌ی داده‌ی ما از توزیع پواسون پیروی می‌کند یا خیر؟

ادامه خواندن

سپتامبر 28, 2019می 12, 2020

توزیع نمایی (Exponential Distribution)

در دروس قبلی، به توزیع‌های مختلف مانند توزیع نرمال، توزیع دو جمله‌ای یا توزیع پواسون اشاره کردیم. این درس را با معرفی توزیع نمایی یا همان exponential distribution ادامه می‌دهیم. یکی از کاربردهای توزیع نمایی، پاسخ به این سوال است که تا موقع رخ دادنِ یک رویداد، چقدر زمان باقی مانده است؟ برای مثال شما به دفتر کار خود می‌رسید و می‌بینید که مدیرتان با تلفن صحبت می‌کند. با خود این سوال را می‌پرسید که تلفنِ او چند دقیقه‌ی دیگر تمام می‌شود؟ یا پلیسی که وسط یک نزاع خیابانی سر می‌رسد و با خود می‌گوید چند ثانیه دیگر این درگیری تمام می‌شود؟ یا حتی پاسخ به این سوال که چند وقت دیگر در فلان منطقه زلزله می‌شود؟ چون این فرآیندها و بسیاری از فرآیند‌های دیگر، توسط تابع نمایی مدل‌سازی می‌شوند، پاسخ به این سوالات نیز توسط توزیع نمایی انجام می‌شود.

ادامه خواندن

ترم اول » دوره ریاضیات پایه و جبر خطی برای یادگیری‌ماشین

ترم دوم » دوره آمار مقدماتی و تحلیل اکتشافی داده

ترم سوم » دوره مقدمات داده کاوی و یادگیری ماشین

ترم چهارم » دوره آشنایی با روش‌های پیش‌پردازش داده‌ها

ترم پنجم » دوره الگوریتم‌های طبقه بندی (Classification)

ترم ششم » دوره الگوریتم‌های خوشه بندی (Clustering)

ترم هفتم » دوره مقدمات شبکه‌های عصبی (Neural Networks)

ترم هشتم » دوره‌ی یادگیری عمیق (Deep Learning)

ترم نهم » دوره‌ متن‌کاوی (TEXT MINING) و پردازش زبان طبیعی (NLP)

ترم دهم » آشنایی با الگوریتم‌های فراابتکاری (META HEURISTIC)

ترم یازدهم » دوره توزیع احتمال (Probability Distributions) و کاربردها

ترم اول » تکنیک‌ها و ابزارهای کلان داده (Big Data)

ترم دوم » آشنایی با سبک برنامه نویسی Map Reduce و مدل محاسبات توزیع شده

ترم سوم » دوره آشنایی با انبار داده (Data Warehouse) و کاربردهای آن

ترم چهارم » آشنایی با پایگاه داده های NoSQL

ترم پنجم » دوره همروندی (Concurrency) و مدیریت ترمیم در پایگاه داده ها

ترم ششم » دوره آموزش برنامه نویسی و مهندسی نرم افزار مبتنی بر اصل SOLID

ترم هفتم » دوره آشنایی با ضد الگوها (Anti Patterns) در برنامه نویسی

ترم هشتم » دوره سیستم های توزیع شده (Distributed Systems)

ترم نهم » دوره توابع درهم ساز (Hash Functions)

روش «یک در مقابل یک (One vs. One)» در طبقه‌بندی

روش «یک در مقابل همه (One vs. All)» برای طبقه‌بندی داده‌های چند کلاسه

مسائل طبقه‌بندی دودویی (binary)، چند کلاسه (Multi Class)، چند برچسبه (Multi Label) و تفاوت آن‌ها

رگرسیون لجستیک (Logistic Regression)

نقشه‌ی راه تبدیل شدن به یک متخصص علم داده (فیلم)

مجموعه‌ی فیلم آموزش مقدماتی برنامه نویسی پایتون

دانلود رایگان کتاب داده‌کاوی برای برنامه نویسان

توزیع گاما (Gamma Distribution)

آزمون برازش Chi-Square برای توزیع‌های احتمال

توزیع نمایی (Exponential Distribution)