نمونه‌گیری آماری و محاسبه‌ی حداقل تعداد نمونه (Min Sample Size) | چیستیو

این درس از مجموعه دوره آمار مقدماتی و تحلیل اکتشافی داده (EDA) در علم داده است

مدرس: مسعود کاویانی

فرض کنید می‌خواهیم نظر مردم شهر اهواز را در مورد شهردار این شهر بدانیم. یک پرسشنامه طراحی می‌کنیم و آن را به تعدادی از شهروندان اهوازی داده تا به آن پاسخ دهند. اولین سوالی که احتمالاً ذهن ما را درگیر خود می‌کند، این است که از چه تعداد از شهروندان بخواهیم پرسشنامه را پاسخ دهند؟ پاسخ واضح است، هر چه بیشتر، بهتر. اما هر چقدر تعداد افرادی بیشتری در پاسخ به پرسشنامه درگیر باشند، زمان و هزینه‌ی بیشتری نیز بایستی صرف نظرخواهی از شهروندان شود. پس به دنبال راهی هستیم که حداقل تعداد نمونه‌ی مناسب که نظر آن‌ها بیان‌گر نظر کل مردم شهر باشد را پیدا کنیم. به این کار محاسبه‌ی حداقل تعداد نمونه (minimum sample size) می‌گویند که کاربردهای متعددی در پردازش داده‌ها دارد.

پیدا کردن نمونه‌ی مناسب با یک فرمول نسبتاً ساده آماری به دست می‌آید (فرمول‌های متعددی برای نمونه‌گیری موجود است که ما به یکی از ساده‌ترین آن‌ها اشاره می‌کنیم):

اگر با آمار و احتمالات بیگانه باشید، شکل بالا کمی گیج کننده به نظر می‌رسد. اما این طور نیست و این فرمول به سادگی قابل تفسیر و استفاده است. اجازه دهید اجزای فرمولِ بالا را با یکدیگر باز کنیم.

۱. بازه‌ی اطمینان (Confidence Interval) یا حاشیه‌ی خطا (Margin of Error)

همان‌طور که از اسم آن مشخص است، بازه‌ی اطمینان، مقدار عدم اطمینان یک نمونه را نسبت به جمعیت کل مشخص می‌کند. به زبان ساده یعنی چقدر به این نمونه شَک داریم. به بیان دیگر، مقدار بازه‌ی اطمینان یا حاشیه‌ی خطا به ما می‌گوید که چقدر اطمینان داریم نمونه‌ی گرفته شده، به کل جمعیت قابل تعمیم باشد.

برای مثال فرض کنید در همان مثال بالا (پرسشنامه‌ی میزان رضایت از شهردار اهواز)، بازه‌ی اطمینان را بر روی ۵ درصد تنظیم کنیم و نظر شهروندان (که به صورت نمونه انتخاب شده‌اند) هم ۶۰ درصد رضایت از شهردار باشد. به این ترتیب می‌توانیم بگوییم که نظر کل مردم شهر (جمعیت کل)، بین بازه‌ی ۵۷ تا ۶۳ (پنج‌درصد کمتر از شصت تا پنج‌درصد بیشتر از شصت) درصد رضایت است. در واقع برای تعمیم از نمونه به جمیعت، ۵ درصد خطا داریم.

۲. سطح اطمینان (Confidence Level)

سطح اطمینان میزان احتمال درستی در تکرارهای زیاد از آزمایش است. برای مثال اگر سطح اطمینان را برابر ۹۵ درصد بگذاریم، در همان مثال قبلی (پرسشنامه‌ی میزان رضایت از شهردار اهواز)، به این معناست که در صد بار تکرار این آزمایش (صد بار که از گروه‌های مختلف شهروندان، نمونه گرفته و پرسش کنیم)، ۹۵ مرتبه، همان عددی به دست خواهد آمد که از جمعیت کل خواهیم گرفت.

در چقدر این عدد بالاتر باشد، طبیعتاً تعداد نمونه‌های لازم نیست بیشتر است ولی معمولاً این عدد را ۹۵ یا ۹۹ می‌گذارند.

در فرمول بالا، سطح اطمینان وجود ندارد. در واقع بایستی با استفاده از جدول Z (که یک جدول معروف آماریست)، سطح اطمینان را به عدد Z تبدیل کنیم. جدول Z در کتاب‌های آماری وجود دارد و فعلاً نمی‌خواهیم به آن بپردازیم ولی برای همین درس، یک قسمت کوچک تبدیل سطح اطمینان به Z را در جدول زیر مشاهده می‌کنید:

مقدار Z	سطح اطمینان
۱.۲۸	۸۰٪
۱.۶۵	۹۰٪
۱.۹۶	۹۵٪
۲.۵۸	۹۹٪

برای مثال اگر بخواهیم سطح اطمینان را ۹۵ قرار دهیم، در فرمول بالا به جای Z، عدد ۱.۹۶ قرار می‌گیرد.

۳. جمعیت کل و انحراف استاندارد

در مورد انحراف استاندارد در درسی جداگانه صحبت کرده‌ایم. جمعیت کل نیز هر چقدر بیشتر باشد، معمولاً تعداد نمونه‌های مورد احتیاج بیشتر است. البته در فرمول گفته شده در بالا، جمعیت در نظر گرفته نشده است. فرمول‌های دیگری وجود دارد که جمعیت را نیز دخیل می‌کند (البته تغییر زیادی در نتیجه حاصل نمی‌شود).

معمولاً انحراف استاندارد برابر ۰/۵ در نظر گرفته می‌شود ولی اگر کسی بخواهد دقت زیادی به خرج دهد می‌تواند انحراف استاندارد نسبت جمعیت را نیز حساب کند.

حال که عناصر مختلف فرمول را متوجه شدیم، اجازه دهید مثال کاربردی خود را در مورد نظر شهروندان اهواز نسبت به شهردار این شهر، ادامه دهیم. فرض کنید جمعیت کل شهر ۳۰۰۰۰۰۰ نفر باشد (در اینجا انحراف استاندارد را ۰/۵ می‌گذاریم). بازه‌ی اطمینان یا همان حاشیه‌ی خطا را برابر ۵٪ و سطح اطمینان را برابر ۹۵٪ قرار می‌دهیم. یعنی عدد Z بر اساس جدول بالا، برابر ۱.۹۶ خواهد بود. حال اعداد را درون فرمول جایگذاری می‌کنیم:

همان‌طور که مشاهده می‌کنید حداقل تعداد نمونه‌های لازم با خطای ۵ درصد و سطح اطمینان ۹۵ درصد، برابر ۳۸۵ نفر است. یعنی اگر از ۳۸۵ شهروند نظرسنجی کنیم، با تعمیم خوبی، می‌توانیم این نظرسنجی را به کل شهروندان شهر اهواز تعمیم دهیم.

البته چند نکته در نمونه‌گیری باید مورد توجه قرار گیرد. اول اینکه نمونه‌های انتخاب شده کاملاً تصادفی باشند. مثلاً در همان مثال شهروندان اهوازی، از یک محله‌ی خاص نظرسنجی نکنیم. در این مثال بایستی احتمال انتخاب یک شهروند برای نظرسنجی دقیقا با احتمال انتخاب هر شهروند دیگر برابر باشد. در واقع نمونه‌گیری کاملاً تصادفی باشد. ثانیاً نمونه‌های انتخاب شده در همان جمعیت باشند. مثلاً از شهروندان شهرکرد، در نمونه‌های ما برای نظرسنجی نباشد (که خوب این کاملاً بدیهی است).

نمونه‌گیری آماری خود یک علم (یا حداقل یک زیرحوزه مهم) است که در این درس یک مثال ساده و کاربردی از آن را با هم مرور کردیم. همان‌طور که می‌دانید نمونه‌گیری آماری کاربردهای متعددی (علاوه بر مثال گفته شده در بالا) دارد. مثلاً اگر با داده‌کاوی و یادگیری ماشین آشنا باشید و بخواهید چندین الگوریتمِ مختلفِ طبقه‌بندی را با پارامترهای مختلف بر روی یک مجموعه‌ی حجیم داده، آزمایش کنید، چون حجم داده‌ها بالاست، برای آزمایشِ هر کدام از الگوریتم‌ها زمان زیادی بایستی صرف شود. در این مثال می‌توانیم یک نمونه‌ی مناسب و کوچکتر از داده‌ها به دست بیاوریم و الگوریتم‌هایمان را بر روی این نمونه‌ی کوچک آزمایش کنیم. بعد از نتیجه‌گیری اولیه، الگوریتم‌های کاندید با پارامترهای مناسب را بر روی داده‌های اصلی (با حجم بالا) برازش می‌کنیم.

همچنین در آدرس ssc.chistio.ir یک نرم‌افزار آنلاین ایجاده کرده‌ایم که همین پارامترها را گرفته و تعداد حداقل نمونه را به عنوان نتیجه برمی‌گرداند. این نرم‌افزار از یک فرمول دیگر (شبیه به فرمول بالا) استفاده کرده است که تعداد جمعیت کل را نیز برای محاسبه احتیاج دارد (البته الزامی نیست)

این درس از مجموعه دوره آمار مقدماتی و تحلیل اکتشافی داده (EDA) در علم داده است

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

۱. بازه‌ی اطمینان (Confidence Interval) یا حاشیه‌ی خطا (Margin of Error)

۲. سطح اطمینان (Confidence Level)

۳. جمعیت کل و انحراف استاندارد

دیدگاهتان را بنویسید لغو پاسخ