آمار و احتمالات از مباحث مقدماتی تحلیل دادهها در علم داده (data science)، دادهکاوی (data mining) و یادگیری ماشین (machine learning) است. فراگیریِ مباحث پایه آمار و احتمالات به ما در درک مفاهیم پایهی الگوریتمهای مختلف کمک خواهد کرد. همچنین با یادگیریِ این مباحث میتوانید تحلیلهای سادهترِ آماری را که نیازی به الگوریتمهای پیچیده و ابزارهای خاص ندارند به سادگی انجام داده و از نتایج استخراج شده از آن بهره برداری نمایید.
در این میان تحلیل اکشتافی داده یا همان exploratory data analysis به این معناست که ما دادههای موجود را به صورت خلاصه و جمع و جور با انواع روشهای مختلف جمعآوری و آمادهسازی کرده و آنها را تحلیل کنیم. از قدیم گفتهاند مشت نمونه خروار است. پس اگر بتوان یک مشت خوب از خروارِ داده برداشت احتمالاً میتوان با همان مشت، یک مجموعه تحلیلِ درست از روی دادهها انجام داد. این مشت از دادهها یا نمونههای کوچک شده، اطلاعاتی را راجع به دادهها به ما میدهند که میتواند بسیار مفید باشد.
در این دوره بیشتر به جنبههای آماری در EDA خواهیم پرداخت و چهارچوب کلی بحث را از کتابهای زیر بیان میکنیم:
» کتاب Practical Statistics For Data Scientist از انتشارات O REILLY
» کتاب تحلیل اکتشافی دادهها از توکی
» کتاب تفکر آماری آلن دونی
بعد از این دوره از شما انتظار میرود بتوانید دادههای موجود را خلاصهسازی کرده و آنها را به صورت مقدماتی تحلیل کنید. باید بتوانید اطلاعات مفید و آماری را برای آنالیزهای بعدی از میان دادههای خود بیرون بکشید و به بیان ساده ارزشهای موجود در دادهها را کشف کنید.