فرض کنید میخواهیم نظر مردم شهر اهواز را در مورد شهردار این شهر بدانیم. یک پرسشنامه طراحی میکنیم و آن را به تعدادی از شهروندان اهوازی داده تا به آن پاسخ دهند. اولین سوالی که احتمالاً ذهن ما را درگیر خود میکند، این است که از چه تعداد از شهروندان بخواهیم پرسشنامه را پاسخ دهند؟ پاسخ واضح است، هر چه بیشتر، بهتر. اما هر چقدر تعداد افرادی بیشتری در پاسخ به پرسشنامه درگیر باشند، زمان و هزینهی بیشتری نیز بایستی صرف نظرخواهی از شهروندان شود. پس به دنبال راهی هستیم که حداقل تعداد نمونهی مناسب که نظر آنها بیانگر نظر کل مردم شهر باشد را پیدا کنیم. به این کار محاسبهی حداقل تعداد نمونه (minimum sample size) میگویند که کاربردهای متعددی در پردازش دادهها دارد.
پیدا کردن نمونهی مناسب با یک فرمول نسبتاً ساده آماری به دست میآید (فرمولهای متعددی برای نمونهگیری موجود است که ما به یکی از سادهترین آنها اشاره میکنیم):
اگر با آمار و احتمالات بیگانه باشید، شکل بالا کمی گیج کننده به نظر میرسد. اما این طور نیست و این فرمول به سادگی قابل تفسیر و استفاده است. اجازه دهید اجزای فرمولِ بالا را با یکدیگر باز کنیم.
۱. بازهی اطمینان (Confidence Interval) یا حاشیهی خطا (Margin of Error)
همانطور که از اسم آن مشخص است، بازهی اطمینان، مقدار عدم اطمینان یک نمونه را نسبت به جمعیت کل مشخص میکند. به زبان ساده یعنی چقدر به این نمونه شَک داریم. به بیان دیگر، مقدار بازهی اطمینان یا حاشیهی خطا به ما میگوید که چقدر اطمینان داریم نمونهی گرفته شده، به کل جمعیت قابل تعمیم باشد.
برای مثال فرض کنید در همان مثال بالا (پرسشنامهی میزان رضایت از شهردار اهواز)، بازهی اطمینان را بر روی ۵ درصد تنظیم کنیم و نظر شهروندان (که به صورت نمونه انتخاب شدهاند) هم ۶۰ درصد رضایت از شهردار باشد. به این ترتیب میتوانیم بگوییم که نظر کل مردم شهر (جمعیت کل)، بین بازهی ۵۷ تا ۶۳ (پنجدرصد کمتر از شصت تا پنجدرصد بیشتر از شصت) درصد رضایت است. در واقع برای تعمیم از نمونه به جمیعت، ۵ درصد خطا داریم.
۲. سطح اطمینان (Confidence Level)
سطح اطمینان میزان احتمال درستی در تکرارهای زیاد از آزمایش است. برای مثال اگر سطح اطمینان را برابر ۹۵ درصد بگذاریم، در همان مثال قبلی (پرسشنامهی میزان رضایت از شهردار اهواز)، به این معناست که در صد بار تکرار این آزمایش (صد بار که از گروههای مختلف شهروندان، نمونه گرفته و پرسش کنیم)، ۹۵ مرتبه، همان عددی به دست خواهد آمد که از جمعیت کل خواهیم گرفت.
در چقدر این عدد بالاتر باشد، طبیعتاً تعداد نمونههای لازم نیست بیشتر است ولی معمولاً این عدد را ۹۵ یا ۹۹ میگذارند.
در فرمول بالا، سطح اطمینان وجود ندارد. در واقع بایستی با استفاده از جدول Z (که یک جدول معروف آماریست)، سطح اطمینان را به عدد Z تبدیل کنیم. جدول Z در کتابهای آماری وجود دارد و فعلاً نمیخواهیم به آن بپردازیم ولی برای همین درس، یک قسمت کوچک تبدیل سطح اطمینان به Z را در جدول زیر مشاهده میکنید:
مقدار Z | سطح اطمینان |
---|---|
۱.۲۸ | ۸۰٪ |
۱.۶۵ | ۹۰٪ |
۱.۹۶ | ۹۵٪ |
۲.۵۸ | ۹۹٪ |
برای مثال اگر بخواهیم سطح اطمینان را ۹۵ قرار دهیم، در فرمول بالا به جای Z، عدد ۱.۹۶ قرار میگیرد.
۳. جمعیت کل و انحراف استاندارد
در مورد انحراف استاندارد در درسی جداگانه صحبت کردهایم. جمعیت کل نیز هر چقدر بیشتر باشد، معمولاً تعداد نمونههای مورد احتیاج بیشتر است. البته در فرمول گفته شده در بالا، جمعیت در نظر گرفته نشده است. فرمولهای دیگری وجود دارد که جمعیت را نیز دخیل میکند (البته تغییر زیادی در نتیجه حاصل نمیشود).
معمولاً انحراف استاندارد برابر ۰/۵ در نظر گرفته میشود ولی اگر کسی بخواهد دقت زیادی به خرج دهد میتواند انحراف استاندارد نسبت جمعیت را نیز حساب کند.
حال که عناصر مختلف فرمول را متوجه شدیم، اجازه دهید مثال کاربردی خود را در مورد نظر شهروندان اهواز نسبت به شهردار این شهر، ادامه دهیم. فرض کنید جمعیت کل شهر ۳۰۰۰۰۰۰ نفر باشد (در اینجا انحراف استاندارد را ۰/۵ میگذاریم). بازهی اطمینان یا همان حاشیهی خطا را برابر ۵٪ و سطح اطمینان را برابر ۹۵٪ قرار میدهیم. یعنی عدد Z بر اساس جدول بالا، برابر ۱.۹۶ خواهد بود. حال اعداد را درون فرمول جایگذاری میکنیم:
همانطور که مشاهده میکنید حداقل تعداد نمونههای لازم با خطای ۵ درصد و سطح اطمینان ۹۵ درصد، برابر ۳۸۵ نفر است. یعنی اگر از ۳۸۵ شهروند نظرسنجی کنیم، با تعمیم خوبی، میتوانیم این نظرسنجی را به کل شهروندان شهر اهواز تعمیم دهیم.
البته چند نکته در نمونهگیری باید مورد توجه قرار گیرد. اول اینکه نمونههای انتخاب شده کاملاً تصادفی باشند. مثلاً در همان مثال شهروندان اهوازی، از یک محلهی خاص نظرسنجی نکنیم. در این مثال بایستی احتمال انتخاب یک شهروند برای نظرسنجی دقیقا با احتمال انتخاب هر شهروند دیگر برابر باشد. در واقع نمونهگیری کاملاً تصادفی باشد. ثانیاً نمونههای انتخاب شده در همان جمعیت باشند. مثلاً از شهروندان شهرکرد، در نمونههای ما برای نظرسنجی نباشد (که خوب این کاملاً بدیهی است).
نمونهگیری آماری خود یک علم (یا حداقل یک زیرحوزه مهم) است که در این درس یک مثال ساده و کاربردی از آن را با هم مرور کردیم. همانطور که میدانید نمونهگیری آماری کاربردهای متعددی (علاوه بر مثال گفته شده در بالا) دارد. مثلاً اگر با دادهکاوی و یادگیری ماشین آشنا باشید و بخواهید چندین الگوریتمِ مختلفِ طبقهبندی را با پارامترهای مختلف بر روی یک مجموعهی حجیم داده، آزمایش کنید، چون حجم دادهها بالاست، برای آزمایشِ هر کدام از الگوریتمها زمان زیادی بایستی صرف شود. در این مثال میتوانیم یک نمونهی مناسب و کوچکتر از دادهها به دست بیاوریم و الگوریتمهایمان را بر روی این نمونهی کوچک آزمایش کنیم. بعد از نتیجهگیری اولیه، الگوریتمهای کاندید با پارامترهای مناسب را بر روی دادههای اصلی (با حجم بالا) برازش میکنیم.
همچنین در آدرس ssc.chistio.ir یک نرمافزار آنلاین ایجاده کردهایم که همین پارامترها را گرفته و تعداد حداقل نمونه را به عنوان نتیجه برمیگرداند. این نرمافزار از یک فرمول دیگر (شبیه به فرمول بالا) استفاده کرده است که تعداد جمعیت کل را نیز برای محاسبه احتیاج دارد (البته الزامی نیست)
- ۱ » تحلیل اکتشافی دادهها (Exploratory Data Analysis) چیست؟
- ۲ » انواع مختلف دادهها در دادهکاوی کدامند؟
- ۳ » منظور از دادههای مستطیلی (Rectangular Data) چیست؟
- ۴ » داده پرت (Outlier) در دادهکاوی چیست؟
- ۵ » تخمین مکان دادهها (Estimation Of Location) چیست و انواع مختلف آن کدامند؟
- ۶ » تخمین تنوع و پراکندگی (Estimation Of Variability) و انواع مختلف آن
- ۷ » چارک (Quartile) و IQR در دادهها و کاربردهای آن
- ۸ » چولگی (Skewness) در دادهها
- ۹ » کشیدگی یا برجستگی (kurtosis) در دادهها
- ۱۰ » چگونه با EDA در دادهها اکتشاف کنیم؟
- ۱۱ » نمونهگیری آماری و محاسبهی حداقل تعداد نمونه (Min Sample Size)
- ۱۲ » توزیعهای آماری (Statistical Distributions)
- ۱۳ » فاصلهی آماری (Statistical Distance) و کاربردهای آن
- ۱۴ » واگرایی کولبک-لیبلر (Kullback-Leibler Divergence) و کاربرد آن در فاصلهی آماری
- ۱۵ » فاصلهی جنسون-شنون (Jenson-Shannon) برای مقایسهی توزیعهای آماری