واگرایی کولبک-لیبلر (Kullback-Leibler Divergence) و کاربرد آن در فاصله‌ی آماری | چیستیو

این درس از مجموعه دوره آمار مقدماتی و تحلیل اکتشافی داده (EDA) در علم داده است

پیش نیاز این درس:

درس توزیع آماری و فاصله‌ی آماری را خوانده باشید

مدرس: مسعود کاویانی

در چند درس گذشته به توزیع‌های آماری و فاصله‌ی آماری اشاره کردیم. در این درس می‌خواهیم یکی از معیارهای فاصله‌ی آماری به نام واگرایی کولبک-لیبلر که به صورت مخفف واگراییِ KL نیز خوانده می‌شود بپردازیم و ببینم که چگونه می‌توان با استفاده از این معیار، فاصله‌ی بین دو مجموعه‌ی داده را به صورت آماری محاسبه کرد.

فرض کنید در دانشگاهی هستیم و یک استاد مدعو برای درس مبانی کامپیوتر به دانشگاه می‌آید. می‌خواهیم ببینیم که آیا نمراتی که این این استادِ مدعو به دانشجویان می‌دهد با استادِ اصلی این درس که هیئت علمی دانشگاه بوده و در ترم‌های گذشته درس مبانی کامپیوتر را تدریس می‌کرده، تفاوتی دارد یا خیر. برای این کار دو مجموعه‌ی داده از نمرات درس مبانی کامپیوتر در دو گروه دانشجویان جمع‌آوری می‌کنیم. گروه اول دانشجویانِ استاد اصلی درس (A) و گروه دوم دانشجویان استاد مدعو (B) در درس مبانی کامپیوتر هستند و توزیع نمرات هر گروه در شکل زیر مشخص شده است:

در شکل بالا، توزیع نمرات گروه A (استاد اصلی) با رنگ آبی و توزیع نمرات گروه B (استاد مدعو) با رنگ قرمز مشخص شده است. برای درک بهتر، نمودار هیستوگرام را جدا جدا برای هر بازه رسم کرده‌ایم. توجه داشته باشید که برای مقایسه‌ی دو توزیع بایستی بازه‌ی تقسیم‌شده برای دو گروه شبیه به هم باشد. برای مثال در شکل بالا نمرات از بازه‌ی ۵ تا ۲۰ قرار داشته‌اند که ما این بازه را به ۵ قسمت تقسیم کرده‌ایم. مثلاً تعداد ۱۰ دانشجو در گروه A، نمره‌ای در بازه‌ی ۵ تا ۸ گرفته‌اند و در گروه B برای همین بازه (۵ تا ۸)، تعداد ۳۰ دانشجو موجود بوده‌اند.

اگر نمرات بخواهیم دو گروه A و B را با استفاده از واگرایی KL با یکدیگر مقایسه کنیم، ابتدا بهتر است آن‌ها را به حالت احتمالی تبدیل کنیم. یعنی به جای تعداد تکرار (frequency) در محور عمودی، احتمال هر کدام از قسمت‌ها قرار بگیرد. برای این کار کافیست تعدادِ تکرار هر قسمت در هر گروه را تقسیم بر جمع کل همان گروه کنیم تا شکلِ بالا به شکل زیر تبدیل شود:

حال بایستی با استفاده از فرمولِ واگراییِ KL، دو توزیع را به صورت نظیر به نظیر در هر قسمت با یکدیگر مقایسه کنیم. فرمول واگرایی KL به صورت زیر است:

در فرمول بالا مشخص است که اگر بخواهیم میزان اختلاف بین توزیع p با q را به دست بیاوریم بایستی برای هر کدام از قسمت‌های توزیع p، احتمالِ هر قسمت p را مطابق فرمولِ بالا با احتمال متناظر توزیع q محاسبه کنیم. برای مثال در نمونه‌ی بالا برای قسمت اول، فرمول به صورت زیر محاسبه می‌شود:

در شکل بالا مشاهده می‌کنید که برای یک قسمت از پنج قسمت به جای احتمال p و q می‌توانیم مقادیر مناسب را قرار دهیم. در اینجا p گروه A (نمرا استاد اصلی) است و q گروه B (نمرات استاد مدعو). همین کار را برای تمامیِ قسمت‌ها انجام داده و سپس نتیجه را با یکدیگر جمع می‌کنیم. خروجی نهایی، همان معیار واگراییِ KL خواهد شد.

هر چقدر عددِ به دست آمده در معیارِ واگرایِ KL بزرگتر باشد به این معنی است که توزیع q کمتر به توزیع p شباهت دارد. مثلاً در این مثال می‌توانیم بگوییم که اگر KL بین نمرات استاد مدعو و استاد اصلی درس بیشتر از یک عدد خاص (مثلا ۰/۲۰) شد، نمرات بایستی توسط یک استادِ سوم مورد بازبینی قرار بگیرد.

توجه کنید که به معیارِ واگرایی KL، نمی‌توانیم معیار فاصله (distance) بگوییم. چون واگرایی p از q با واگرایی q از p برابر نیست. به همین دلیل است که به جای واژه‌ی فاصله در فرمول از واژه‌ی واگرایی (divergence) استفاده می‌شود.

البته کاربردهای واگرایی KL بسیار زیاد بوده و در تولید الگوریتم‌های یادگیری ماشین و یادگیری عمیق نیز استفاده‌هایی از این معیار می‌شود. در دروس آینده به کاربردهای دیگر این معیار می‌پردازیم.

این درس از مجموعه دوره آمار مقدماتی و تحلیل اکتشافی داده (EDA) در علم داده است

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

دیدگاهتان را بنویسید لغو پاسخ