در دورهی جاری، به بررسیِ انواع تابع توزیع احتمال و کاربردهای آن پرداختیم. اما سوال اینجاست که چگونه بفهمیم فرآیندهایمان از یک توزیع خاص (مثلاً توزیع پواسون یا توزیع نرمال) پیروی میکنند یا خیر؟ در درس «چگونگیِ ارزیابی دادهها با توجه به توزیع نرمال»، فهمیدیم که چگونه میتوانیم ببینیم که آیا دادههای ما از توزیع نرمال پیروی میکنند یا خیر. در درس جاری میخواهیم به روش chi-square که یکی از روشهای معروف و شناخته شده برای ارزیابی توزیعِ فرآیندها هست، اشارهی کوچکی کنیم. توسط این روش میتوانیم توزیعهای احتمالیِ دیگری را نیز بر روی دادههایمان ارزیابی کنیم. مثلاً ببینیم که آیا مجموعهی دادهی ما از توزیع پواسون پیروی میکند یا خیر؟
آزمونِ برازشِ chi-square یا همان chi-square goodness of fit در واقع آزمونی است که توسط آن میتوانیم بفهمیم که رویدادها و دادههای حاصل از آنها، تا چه اندازه با یک سری مقدارِ مورد انتظار، تطابق دارند. در واقع با این آزمون میتوانیم ببینیم آیا تفاوت قابلِ ملاحظهای نسبت به فرضیهی ما با مقدار مورد انتظارمان وجود دارد یا خیر؟ در اصطلاح به دادههای مجموعهی ما، دادههای مشاهده شده (observed data) میگویند که توزیع احتمالیِ آنها را نمیدانیم. و به توزیع احتمالیِ مورد انتظار (که میخواهیم دادههایمان را با آن توزیع مقایسه کنیم) توزیع احتمالیِ تئوری میگویند.
تصور کنید مجموعهی دادهای دارید و میخواهید ببینید که آیا این مجموعهی داده (که خود از فرآیندی استخراج شده است) از توزیع پواسون پیروی میکند یا خیر؟ برای اینکار فرض خود را توزیع پواسون در نظر میگیرید. حالا این مجموعهی داده را با یک توزیع ایدهآل از نظر پواسون (همان توزیع تئوری) مقایسه میکنید. اگر شکلِ مجموعهی دادهی شما نزدیک به این توزیعِ تئوری بود، پس احتمالاً فرآیندِ شما هم از توزیع پواسون پیروی خواهد کرد ولی اگر شکلِ دادههای شما از این توزیع تئوری دور بود، احتمالاً فرآیندِ شما از توزیع پواسون پیروی نمیکند.
بحث در مورد جزئیات و مثال کاربردیِ «آزمون برازشِ chi-square» را به درسی دیگر موکول میکنیم، ولی برای درسِ جاری به بحثِ کوچکی در این آزمون میپردازیم. در این آزمون مانند بسیاری از آزمونهای دیگر، ما دو فرضیه داریم، فرضیهی اول که به فرضیهی نال (null hypothesis) معروف است، فرض میکند توزیعِ مورد نظرِ ما با توزیعِ تئوری، متناسب است. برای مثال تصور کنید که بخواهیم ببینیم فرآیندی مانندِ «زنگ خوردنِ تلفن» در یک مطب پزشک، فرآیندی از جنس توزیعِ پواسون هست یا خیر؟ برای این کار بایستی یک مجموعه داده از زمان زنگ خوردنِ تلفن جمعآوری کنیم. فرضیهی نال، فرض میکند دادههای مورد نظرِ ما، توزیع پواسون دارند. حال «آزمون برازش chi-square»، با استفاده از فرمول خود میتواند این فرضیه را یا رد یا قبول کند. اگر chi-square فرضیهی نال را رد کرد، به این معنی است که نمیتوان قبول کرد که مجموعهی دادهی ما دارای توزیع پواسون بوده است و اگر chi-square این فرضیه را قبول کرد، آنگاه میتوان نتیجه گرفت که این مجموعهی داده، احتمالاً از توزیع پواسون پیروی میکند. فرضیهی دیگری هم با نام فرضیهی جایگزین (alternative hypothesis) مطرح میشود که این فرضیه، برای ردِ تناسبِ توزیع مورد نظر ما با توزیع تئوری به کار برده میشود. جزئیات بیشتر را در دورهای جداگانه باز خواهیم کرد.
در این درس متوجه شدیم که روشی به اسم chi-square وجود دارد که میتواند در تشخیصِ توزیعِ فرآیند و دادههای آن به کمکِ ما بیاید. این تابع در زبانهای برنامهنویسی مانند پایتون و R و یا نرمافزارهایی مانند SPSS موجود بوده و میتوان از آن کمک گرفت.
خیلی ممنون از زحمتی که کشیدین و این مطالب رو نوشتین. متشکرم