رانش یا گذار در داده‌ها (Data Drift)

در زندگی تنها تغییر است که ثابت می‌ماند – change is the only constant in life

آیا محله‌ای که در کودکی در آن‌جا زندگی می‌کردید طی ۲۰ سال گذشته تغییر کرده است؟ پاسخ احتمالاً مثبت خواهد بود. جهان در حال تغییر است و داده‌ها نیز در همین جهان زندگی می‌کنند، پس داده‌ها ممکن است پس از گذشت مدت زمانی تغییر کنند. این تغییرات در داده‌ها منجر به تغییر در الگوها نیز شده و احتمالاً مدل‌هایی که قبلاً بر روی داده‌ها یادگیری یا داده‌کاوی را انجام می‌دادند، با گذشت زمان، دقتی به مراتب پایین‌تر خواهند داشت.

ادامه خواندن “رانش یا گذار در داده‌ها (Data Drift)”

نمونه‌گیری آماری و محاسبه‌ی حداقل تعداد نمونه (Min Sample Size)

فرض کنید می‌خواهیم نظر مردم شهر اهواز را در مورد شهردار این شهر بدانیم. یک پرسشنامه طراحی می‌کنیم و آن را به تعدادی از شهروندان اهوازی داده تا به آن پاسخ دهند. اولین سوالی که احتمالاً ذهن ما را درگیر خود می‌کند، این است که از چه تعداد از شهروندان بخواهیم پرسشنامه را پاسخ دهند؟ پاسخ واضح است، هر چه بیشتر، بهتر. اما هر چقدر تعداد افرادی بیشتری در پاسخ به پرسشنامه درگیر باشند، زمان و هزینه‌ی بیشتری نیز بایستی صرف نظرخواهی از شهروندان شود. پس به دنبال راهی هستیم که حداقل تعداد نمونه‌ی مناسب که نظر آن‌ها بیان‌گر نظر کل مردم شهر باشد را پیدا کنیم. به این کار محاسبه‌ی حداقل تعداد نمونه (minimum sample size) می‌گویند که کاربردهای متعددی در پردازش داده‌ها دارد.

ادامه خواندن “نمونه‌گیری آماری و محاسبه‌ی حداقل تعداد نمونه (Min Sample Size)”

نقشه‌ی‌ راه‌ یادگیری‌ اکوسیستم داده‌کاوی و‌ یادگیری‌ ماشین‌ در‌ پایتون

جهت تبدیل شدن به یک متخصص داده‌کاوی و یادگیری ماشین در زبان برنامه نویسی پایتون، روش های گوناگوی وجود دارد
در این بین شناختِ اکوسیستم و برخی از کتابخانه‌های مهم و روش‌های متداول در حوزه‌ی داده‌کاوی و یادگیری ماشین جهت تبدیل شدن به یک متخصص در این حوزه ضروری است. به همین دلیل در این نوشته قصد داریم با برخی از مشهورترین و پرکاربردترین روش‌ها و کتابخانه‌های موجود با تمرکز بر زبان برنامه‌نویسی پایتون برای شروعِ راه در دنیای داده‌کاوی آشنا شویم. برخی به این نقشه‌ی راه، نقشه‌ی راه تبدیل شدن به دانشمند داده نیز می‌گویند.

ادامه خواندن “نقشه‌ی‌ راه‌ یادگیری‌ اکوسیستم داده‌کاوی و‌ یادگیری‌ ماشین‌ در‌ پایتون”

چگونه با EDA در داده‌ها اکتشاف کنیم؟

در دروس قبلیِ دوره‌ی جاری، با برخی مفاهیم اولیه آماری آشنا شدیم. آمار و احتمالات به ما اجازه می‌دهند که داده‌های حجیم را خلاصه‌سازی کرده و به صورت ساده و قابل درک، در ذهن‌مان جای دهیم. با این کار می‌توانیم داده‌ها را درک کرده و با استفاده از درکِ داده‌ها، به ارزشی که در داده‌ها نهفته شده است دست پیدا کنیم. همچنین اکتشاف و درک داده‌ها، برای پیاده‌سازی و استفاده از الگوریتم‌های یادگیری ماشین نیز کمک می‌کند که در دروه‌های بعدی با آن‌ها بیشتر آشنا خواهیم شد.

ادامه خواندن “چگونه با EDA در داده‌ها اکتشاف کنیم؟”

کشیدگی یا برجستگی (kurtosis) در داده‌ها

در دروس گذشته به معرفی گشتاور اول (میانگین)، گشتاور دوم (واریانس) و گشتاور سوم (چولگی) پرداختیم. در این درس قصد داریم گشتاور چهارم از یک مجموعه‌ی داده را با هم مشاهده کنیم. کشیدگی یا برجستگی (kurtosis) گشتاور چهارم در یک مجموعه‌ی داده است که میزان برجستگی قله را در توزیع یک مجموعه‌ی داده مشخص می‌کند.

ادامه خواندن “کشیدگی یا برجستگی (kurtosis) در داده‌ها”

چولگی (Skewness) در داده‌ها

احتمالاً با توزیع نرمال آشنایی دارید. در مورد این توزیع و توزیع‌های دیگر در این دوره صحبت کرده‌ایم. اگر توزیع داده‌ها به سمت راست یا چپ کشیده شده باشد، می‌گوییم داده‌ها چولگی یا همان skewness دارند.

ادامه خواندن “چولگی (Skewness) در داده‌ها”

چارک (Quartile) و IQR در داده‌ها و کاربردهای آن

برای شناخت دقیق‌تر داده‌ها، روش‌های مختلفی وجود دارد که برخی از آن‌ها را (مانند میانگین، مد، واریانس و…) در جلسات گذشته مورد بحث قرار دادیم. در این جلسه می‌خواهیم به یکی دیگر از روش‌های موثر و کاربردی جهت تحلیل و شناخت بهتر داده‌ها بپردازیم. این روش، چارک نام دارد و یکی از روش‌های متداول در تحلیل و شناخت داده‌هاست.

ادامه خواندن “چارک (Quartile) و IQR در داده‌ها و کاربردهای آن”

مدل‌های احتمالی در مقابل مدل‌های قطعی در طبقه‌بندی داده‌ها

همان‌طور که در دروس قبلی در مورد الگوریتم‌های طبقه‌بندی خواندیم، الگوریتم‌های طبقه‌بندی می‌توانستند از روی داده‌ها یادگیری را انجام داده و بعد از آن، نمونه‌های جدید را طبقه‌بندی کرده و به یکی از برچسب‌های موجودِ قبلی، برچسب‌گذاری نمایند. بسیاری از این الگوریتم‌ها، می‌توانند به جای برچسب‌زنیِ قطعی، احتمال هر کدام از برچسب‌های (طبقه‌های) موجود را برای نمونه‌ی جدید بیان کنند و در این درس به بررسی این روش خواهیم پرداخت.

ادامه خواندن “مدل‌های احتمالی در مقابل مدل‌های قطعی در طبقه‌بندی داده‌ها”

فرآیند کریسپ (CRISP) جهت انجام پروژه‌های داده‌کاوی

پروژه‌های مختلف صنعتی، هر کدام روش‌ها و فرآیندهای خاص خود را دارند. برای مثال در فرآیند مهندسی ساخت و تولید یک نرم افزار، می‌توان از روش‌های گوناگونی مانند روش آبشاری، روش حلقوی یا روش چابک استفاده کرد. برای اجرای فرآیندهای داده‌کاوی نیز، روش‌های مختلفی تولید شده است که یکی از محبوب‌ترین آن‌ها روش «فرآیند استاندارد صنعتی متقاطع» است که مخفف شده و لاتینِ آن به CRISP معروف است.

ادامه خواندن “فرآیند کریسپ (CRISP) جهت انجام پروژه‌های داده‌کاوی”

مجموعه داده‌ی نامتوازن (Imbalance) چیست؟

اگر درس طبقه‌بندی (Classification) را خوانده باشید، می‌دانید که منظور ما از طبقه یا کلاس یا همان برچسب چیست. برای مثال در همان درسِ طبقه‌بندی دیدیم که مدیرِ یک بانک می‌خواست از روی ویژگی‌های مختلفِ مشتری‌ها، تصمیم بگیرد که به آن‌ها وام بدهد/یا خیر. پس مجموعه‌ی داده‌ای از مشتری‌های قبلی آماده می‌کرد و ویژگی‌های آن‌ها به همراه بازپرداخت وام را برای هر یک به دست می‌آورد و در مجموعه‌ی داده‌ی آموزشی قرار می‌داد. فرض کنید، از بین ۱۰هزار مشتری بانک، ۵هزار نفر آن‌ها توانسته باشند وام را پس دهند و ۵هزار نفر نتواسته باشند وام خود را پس دهند. پس در این‌جا یک مجموعه‌ی داده‌ی متوازن داریم به صورتی که هر کدام از طبقه‌ها به صورت تقریبی یک اندازه داده دارند و الگوریتمِ طبقه‌بندی می‌تواند الگوهای هر دسته را پیدا کرده و یادگیری خود را از روی این مجموعه‌ی داده انجام دهد. اما همه‌ی مجموعه‌ی داده‌ها به این صورت متوازن نیستند.

ادامه خواندن “مجموعه داده‌ی نامتوازن (Imbalance) چیست؟”