سن دانشجویان ورودی سال جدید دانشگاه شما چند سال است؟ ۱۸سال.
به همین سادگی؟ بله. آیا دقیقاً تمامی دانشجویایی که ورودی امسال بودهاند همه آنها ۱۸ساله هستند؟ قطعاً خیر ولی برای سادگی و خلاصهسازی میتوان عدد ۱۸ را پاسخ صحیحی دانست تا یک جوابِ تخمینی و نیمه دقیق به سوال کننده داده شود. اگر سوال کننده بخواهد اطلاعات دقیقتر را به دست آورد میتواند لیستی از تمامی ورودیهای سال جدید دانشگاه به همراه سن آنها بیابد. این خلاصهسازی عمل اصلی در تحلیل اکتشافی دادهها یا همان EDA است که یکی از مباحث مهم در آمار برای متخصصان علم داده، دادهکاوی و یادگیری ماشین است.
به کمک EDA و تکنیکها و مفاهیم آن شما میتوانید دادهها را خلاصه سازی کنید. یک شمای کلی از دادهها به افراد مختلف نمایش دهید و یا با انواع نمودارها و گرافها، خلاصهای از دادهها را به افرادی که به آنها نیاز دارند نمایش دهید. در واقع EDA را میتوان از جنبهای اولین قدم برای رسیدن به یک تحیل یا همان آنالیز دادهها و یک شمای کلی از دادهها دانست.
ذهن ما انسانها برای پردازش اعداد و ارقام ضعیف است (احتمالاً اینگونه تکامل یافتهایم)، پس نیاز داریم به جای مشاهده و پردازشِ کل دادهها، خلاصهای از دادهها را داشته باشیم. مثلاً نقشه جهان را در نظر بگیرید. نقشه جهان در واقع یک خلاصهای از کل جهان است که خیلی از جزئیات در آن وجود ندارد ولی بسیار کاربردی است. یک مدلِ ساده شده و خلاصه شده از جهان که به ما میگوید الان در کجای جهان ایستادهایم و کشورهای مجاور ما کدامها هستند.
حال فرض کنید یک سری دادهی حجیم و بسیار زیاد دارید که میخواهید آنها را تحلیل کنید. آیا بهتر نیست ابتدا یک مدلِ ساده شده و خلاصه شده به صورت شهودیتر از دادهها داشته باشید تا بتوانید فرضیات خود را برای تحلیل داده بر اساس آنها بچینید؟ مانند این که میخواهید به یک مسافرت بروید و یک نقشه که قطعاً خلاصهای از مسیرها و پیچ و خم های جاده است در اختیار داشته باشید تا به کمک آن بتوانید مسیر را به صورت شماتیک بهتر درک کنید. EDA در دادهها دقیقاً همین کار را میکند. با استفاده از تکنیکها و روشهای موجود در EDA، خواهید توانست دادهها را سادهتر در ذهن خود جای دهید و تحلیل و بررسی کنید.
روشها و تکنیکهای EDA را میتوان در دو دستهی کلی مانند شکل زیر تقسیمبندی کرد:
همانطور که در شکل بالا مشخص است، آمار توصیفی یا همان descriptive statistics و بصریسازی دادهها یا همان data visualization دو بخش است از روشها و تکنیکهای موجود در EDA هستند. هر کدام از این روشها با استفاده از فرمولها و تکنیکهایی میتوانند دادهها را خلاصهسازی کرده و به تحلیل کمک کنند.
در ادامه دروس این دوره با تکنیکها و مبانی تئوری و عملیِ تحلیل دادهها به صورت اکتشافی یا همان EDA بیشتر آشنا خواهیم شد. روشهای آمار توصیفی را با هم خواهیم دید و تکنیکهای بصریسازی دادهها را نیز قدم به قدم کار خواهیم کرد.
- ۱ » تحلیل اکتشافی دادهها (Exploratory Data Analysis) چیست؟
- ۲ » انواع مختلف دادهها در دادهکاوی کدامند؟
- ۳ » منظور از دادههای مستطیلی (Rectangular Data) چیست؟
- ۴ » داده پرت (Outlier) در دادهکاوی چیست؟
- ۵ » تخمین مکان دادهها (Estimation Of Location) چیست و انواع مختلف آن کدامند؟
- ۶ » تخمین تنوع و پراکندگی (Estimation Of Variability) و انواع مختلف آن
- ۷ » چارک (Quartile) و IQR در دادهها و کاربردهای آن
- ۸ » چولگی (Skewness) در دادهها
- ۹ » کشیدگی یا برجستگی (kurtosis) در دادهها
- ۱۰ » چگونه با EDA در دادهها اکتشاف کنیم؟
- ۱۱ » نمونهگیری آماری و محاسبهی حداقل تعداد نمونه (Min Sample Size)
- ۱۲ » توزیعهای آماری (Statistical Distributions)
- ۱۳ » فاصلهی آماری (Statistical Distance) و کاربردهای آن
- ۱۴ » واگرایی کولبک-لیبلر (Kullback-Leibler Divergence) و کاربرد آن در فاصلهی آماری
- ۱۵ » فاصلهی جنسون-شنون (Jenson-Shannon) برای مقایسهی توزیعهای آماری
سلام ممنون از مطالب روونتون
سلام ما چطور میتونیمدوره رو تهیه کنیم؟