آزمون برازش Chi-Square برای توزیع‌های احتمال

مدرس: مسعود کاویانی

در دوره‌ی جاری، به بررسیِ انواع تابع توزیع احتمال و کاربردهای آن پرداختیم. اما سوال این‌جاست که چگونه بفهمیم فرآیندهایمان از یک توزیع خاص (مثلاً توزیع پواسون یا توزیع نرمال) پیروی می‌کنند یا خیر؟ در درس «چگونگیِ ارزیابی داده‌ها با توجه به توزیع نرمال»، فهمیدیم که چگونه می‌توانیم ببینیم که آیا داده‌های ما از توزیع نرمال پیروی می‌کنند یا خیر. در درس جاری می‌خواهیم به روش chi-square که یکی از روش‌های معروف و شناخته شده برای ارزیابی توزیعِ فرآیند‌ها هست، اشاره‌ی کوچکی کنیم. توسط این روش می‌توانیم توزیع‌های احتمالیِ دیگری را نیز بر روی داده‌هایمان ارزیابی کنیم. مثلاً ببینیم که آیا مجموعه‌ی داده‌ی ما از توزیع پواسون پیروی می‌کند یا خیر؟

آزمونِ برازشِ chi-square یا همان chi-square goodness of fit در واقع آزمونی است که توسط آن می‌توانیم بفهمیم که رویدادها و داده‌های حاصل از آن‌ها، تا چه اندازه با یک سری مقدارِ مورد انتظار، تطابق دارند. در واقع با این آزمون می‌توانیم ببینیم آیا تفاوت قابلِ ملاحظه‌ای نسبت به فرضیه‌ی ما با مقدار مورد انتظارمان وجود دارد یا خیر؟ در اصطلاح به داده‌های مجموعه‌ی ما، داده‌های مشاهده شده (observed data) می‌گویند که توزیع احتمالیِ آن‌ها را نمی‌دانیم. و به توزیع احتمالیِ مورد انتظار (که می‌خواهیم داده‌هایمان را با آن توزیع مقایسه کنیم) توزیع احتمالیِ تئوری می‌گویند.

تصور کنید مجموعه‌ی داده‌ای دارید و می‌خواهید ببینید که آیا این مجموعه‌ی داده (که خود از فرآیندی استخراج شده است) از توزیع پواسون پیروی می‌کند یا خیر؟ برای این‌کار فرض خود را توزیع پواسون در نظر می‌گیرید. حالا این مجموعه‌ی داده را با یک توزیع ایده‌آل از نظر پواسون (همان توزیع تئوری) مقایسه می‌کنید. اگر شکلِ مجموعه‌ی داده‌ی شما نزدیک به این توزیعِ تئوری بود، پس احتمالاً فرآیندِ شما هم از توزیع پواسون پیروی خواهد کرد ولی اگر شکلِ داده‌های شما از این توزیع تئوری دور بود، احتمالاً فرآیندِ شما از توزیع پواسون پیروی نمی‌کند.

بحث در مورد جزئیات و مثال کاربردیِ «آزمون برازشِ chi-square» را به درسی دیگر موکول می‌کنیم، ولی برای درسِ جاری به بحثِ کوچکی در این آزمون می‌پردازیم. در این آزمون مانند بسیاری از آزمون‌های دیگر، ما دو فرضیه داریم، فرضیه‌ی اول که به فرضیه‌ی نال (null hypothesis) معروف است، فرض می‌کند توزیعِ مورد نظرِ ما با توزیعِ تئوری، متناسب است. برای مثال تصور کنید که بخواهیم ببینیم فرآیندی مانندِ «زنگ خوردنِ تلفن» در یک مطب پزشک، فرآیندی از جنس توزیعِ پواسون هست یا خیر؟ برای این کار بایستی یک مجموعه داده از زمان زنگ خوردنِ تلفن جمع‌آوری کنیم. فرضیه‌ی نال، فرض می‌کند داده‌های مورد نظرِ ما، توزیع پواسون دارند. حال «آزمون برازش chi-square»، با استفاده از فرمول خود می‌تواند این فرضیه را یا رد یا قبول کند. اگر chi-square فرضیه‌ی نال را رد کرد، به این معنی است که نمی‌توان قبول کرد که مجموعه‌ی داده‌ی ما دارای توزیع پواسون بوده است و اگر chi-square این فرضیه را قبول کرد، آن‌گاه می‌توان نتیجه گرفت که این مجموعه‌ی داده، احتمالاً از توزیع پواسون پیروی می‌کند. فرضیه‌ی دیگری هم با نام فرضیه‌ی جایگزین (alternative hypothesis) مطرح می‌شود که این فرضیه، برای ردِ تناسبِ توزیع مورد نظر ما با توزیع تئوری به کار برده می‌شود. جزئیات بیشتر را در دوره‌ای جداگانه باز خواهیم کرد.

در این درس متوجه شدیم که روشی به اسم chi-square وجود دارد که می‌تواند در تشخیصِ توزیعِ فرآیند و داده‌های آن به کمکِ ما بیاید. این تابع در زبان‌های برنامه‌نویسی مانند پایتون و R و یا نرم‌افزارهایی مانند SPSS موجود بوده و می‌توان از آن کمک گرفت.

یک دیدگاه دربارهٔ «آزمون برازش Chi-Square برای توزیع‌های احتمال»

دیدگاهتان را بنویسید لغو پاسخ