تحلیل اکتشافی داده‌ها (Exploratory Data Analysis) چیست؟

مدرس: مسعود کاویانی

سن دانشجویان ورودی سال جدید دانشگاه شما چند سال است؟ ۱۸سال.

به همین سادگی؟ بله. آیا دقیقاً تمامی دانشجویایی که ورودی امسال بوده‌اند همه آن‌ها ۱۸ساله هستند؟ قطعاً خیر ولی برای سادگی و خلاصه‌سازی می‌توان عدد ۱۸ را پاسخ صحیحی دانست تا یک جوابِ تخمینی و نیمه دقیق به سوال کننده داده شود. اگر سوال کننده بخواهد اطلاعات دقیق‌تر را به دست آورد می‌تواند لیستی از تمامی ورودی‌های سال جدید دانشگاه به همراه سن آن‌ها بیابد. این خلاصه‌سازی عمل اصلی در تحلیل اکتشافی داده‌ها یا همان EDA است که یکی از مباحث مهم در آمار برای متخصصان علم داده، داده‌کاوی و یادگیری ماشین است.

به کمک EDA و تکنیک‌ها و مفاهیم آن شما می‌توانید داده‌ها را خلاصه سازی کنید. یک شمای کلی از داده‌ها به افراد مختلف نمایش دهید و یا با انواع نمودار‌ها و گراف‌ها، خلاصه‌ای از داده‌ها را به افرادی که به آن‌ها نیاز دارند نمایش دهید. در واقع EDA را می‌توان از جنبه‌ای اولین قدم برای رسیدن به یک تحیل یا همان آنالیز داده‌ها و یک شمای کلی از داده‌ها دانست.

ذهن ما انسان‌ها برای پردازش اعداد و ارقام ضعیف است (احتمالاً این‌گونه تکامل یافته‌ایم)، پس نیاز داریم به جای مشاهده و پردازشِ کل داده‌ها، خلاصه‌ای از داده‌ها را داشته باشیم. مثلاً نقشه جهان را در نظر بگیرید. نقشه جهان در واقع یک خلاصه‌ای از کل جهان است که خیلی از جزئیات در آن وجود ندارد ولی بسیار کاربردی است. یک مدلِ ساده شده و خلاصه شده از جهان که به ما می‌گوید الان در کجای جهان ایستاده‌ایم و کشورهای مجاور ما کدام‌ها هستند.

حال فرض کنید یک سری داده‌ی حجیم و بسیار زیاد دارید که می‌خواهید آن‌ها را تحلیل کنید. آیا بهتر نیست ابتدا یک مدلِ ساده شده و خلاصه شده به صورت شهودی‌تر از داده‌ها داشته باشید تا بتوانید فرضیات خود را برای تحلیل داده بر اساس آن‌ها بچینید؟ مانند این که می‌خواهید به یک مسافرت بروید و یک نقشه که قطعاً خلاصه‌ای از مسیرها و پیچ و خم های جاده است در اختیار داشته باشید تا به کمک آن بتوانید مسیر را به صورت شماتیک بهتر درک کنید. EDA در داده‌ها دقیقاً همین کار را می‌کند. با استفاده از تکنیک‌ها و روش‌های موجود در EDA، خواهید توانست داده‌ها را ساده‌تر در ذهن خود جای دهید و تحلیل و بررسی کنید.

روش‌ها و تکنیک‌های EDA را می‌توان در دو دسته‌ی کلی مانند شکل زیر تقسیم‌بندی کرد:

همان‌طور که در شکل بالا مشخص است، آمار توصیفی یا همان descriptive statistics و بصری‌سازی داده‌ها یا همان data visualization دو بخش است از روش‌ها و تکنیک‌های موجود در EDA هستند. هر کدام از این روش‌ها با استفاده از فرمول‌ها و تکنیک‌هایی می‌توانند داده‌ها را خلاصه‌سازی کرده و به تحلیل کمک کنند.

در ادامه دروس این دوره با تکنیک‌ها و مبانی تئوری و عملیِ تحلیل داده‌ها به صورت اکتشافی یا همان EDA بیشتر آشنا خواهیم شد. روش‌های آمار توصیفی را با هم خواهیم دید و تکنیک‌های بصری‌سازی داده‌ها را نیز قدم به قدم کار خواهیم کرد.

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:
منابع این بحث و اطلاعات بیشتر

» فصل اول کتاب Practical Statistics For Data Scientists 

» وب سایت Coursera

» وب سایت TowardsDataScience

» وب سایت Sisense

در صورت تمایل به یادگیری بیشتر، منابع بالا در نظر گرفته شده است. می توانید با خواندن این منابع، به یادگیری خود در این زمینه عمق ببخشید

2 دیدگاه دربارهٔ «تحلیل اکتشافی داده‌ها (Exploratory Data Analysis) چیست؟»

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *