دوره آمار مقدماتی و تحلیل اکتشافی داده (EDA) در علم داده

آمار و احتمالات از مباحث مقدماتی تحلیل داده‌ها در علم داده (data science)، داده‌کاوی (data mining) و یادگیری ماشین (machine learning) است. فراگیریِ مباحث پایه آمار و احتمالات به ما در درک مفاهیم پایه‌ی الگوریتم‌های مختلف کمک خواهد کرد. همچنین با یادگیریِ این مباحث می‌توانید تحلیل‌های ساده‌ترِ آماری را که نیازی به الگوریتم‌های پیچیده و ابزارهای خاص ندارند به سادگی انجام داده و از نتایج استخراج شده از آن بهره برداری نمایید.

در این میان تحلیل اکشتافی داده یا همان exploratory data analysis به این معناست که ما داده‌های موجود را به صورت خلاصه و جمع و جور با انواع روش‌های مختلف جمع‌آوری و آماده‌سازی کرده و آن‌ها را تحلیل کنیم. از قدیم گفته‌اند مشت نمونه خروار است. پس اگر بتوان یک مشت خوب از خروارِ داده برداشت احتمالاً می‌توان با همان مشت، یک مجموعه تحلیلِ درست از روی داده‌ها انجام داد. این مشت از داده‌ها یا نمونه‌های کوچک شده، اطلاعاتی را راجع به داده‌ها به ما می‌دهند که می‌تواند بسیار مفید باشد.

در این دوره بیشتر به جنبه‌های آماری در EDA خواهیم پرداخت و چهارچوب کلی بحث را از کتاب‌های زیر بیان می‌کنیم:
» کتاب Practical Statistics For Data Scientist از انتشارات O REILLY
» کتاب تحلیل اکتشافی داده‌ها از توکی
» کتاب تفکر آماری آلن دونی

بعد از این دوره از شما انتظار می‌رود بتوانید داده‌های موجود را خلاصه‌سازی کرده و آن‌ها را به صورت مقدماتی تحلیل کنید. باید بتوانید اطلاعات مفید و آماری را برای آنالیزهای بعدی از میان داده‌های خود بیرون بکشید و به بیان ساده ارزش‌های موجود در داده‌ها را کشف کنید.

درس ۱آنالیز داده‌ها به صورت اکتشافی (Exploratory Data Analysis) چیست؟
درس ۲انواع مختلف داده‌ها در داده‌کاوی کدامند؟
درس ۳منظور از داده‌های مستطیلی (Rectangular Data) چیست؟
درس ۴داده پرت (Outlier) در داده‌کاوی چیست؟
درس ۵تخمین مکان داده‌ها (Estimation Of Location) چیست و انواع مختلف آن کدامند؟
درس ۶تخمین تنوع و پراکندگی (Estimation Of Variability) و انواع مختلف آن
درس ۷چارک (Quartile) و IQR در داده‌ها
درس ۸ چولگی (Skewness) در داده‌ها
درس ۹ کشیدگی یا برجستگی (kurtosis) در داده‌ها
درس ۱۰چگونه با EDA در داده‌ها اکتشاف کنیم؟
درس ۱۱نمونه‌گیری آماری و محاسبه‌ی حداقل تعداد نمونه (Min Sample Size)
درس ۱۲توزیع‌های آماری (Statistical Distributions)
درس ۱۳فاصله‌ی آماری (Statistical Distance) و کاربردهای آن
درس ۱۴واگرایی کولبک-لیبلر (Kullback-Leibler Divergence) و کاربرد آن در فاصله‌ی آماری
درس ۱۵فاصله‌ی جنسون-شنون (Jenson-Shannon) برای مقایسه‌ی توزیع‌های آماری
دوره‌های چیستیو همواره در حال تکمیل است…