در درس گذشته در مورد واگرایی کولبک-لیبلر صحبت کردیم و گفتیم که این معیار واگرایی میتواند شباهت دو توزیع آماری را نمایش دهد. فاصلهی جنسون-شنون (Jenson-Shannon) نیز مانند کولبک-لیبلر رفتار میکند با این تفاوت که این فاصله بین دو توزیع آماری، تقارن دارد. یعنی فاصلهی توزیعِ اول و دوم برابر با فاصلهی توزیع دوم و اول است در حالی که در واگرایی کولبک-لیبلر این خاصیت برقرار نیست.
فرض کنید دادههایی شبیه به مثال قبل در درسِ کولبک-لیبلر داریم. در این دادهها فرض بر این است که در دانشگاهی هستیم و یک استاد مدعو برای درس مبانی کامپیوتر به دانشگاه میآید. میخواهیم ببینیم که آیا نمراتی که این استادِ مدعو به دانشجویان میدهد با استادِ اصلی این درس که هیئت علمی دانشگاه بوده و در ترمهای گذشته درس مبانی کامپیوتر را تدریس میکرده، تفاوتی دارد یا خیر. برای این کار دو مجموعهی داده از نمرات درس مبانی کامپیوتر در دو گروه دانشجویان جمعآوری میکنیم. گروه اول دانشجویانِ استاد اصلی درس (A) و گروه دوم دانشجویان استاد مدعو (B) در درس مبانی کامپیوتر هستند و توزیع نمرات هر گروه در شکل زیر مشخص شده است:
دادههای بالا مانند درسِ قبلی به حالت احتمالی تبدیل شدهاند. حال اگر بخواهیم فاصلهی بین توزیعِ نمراتِ کسب شده توسط استادِ اول (A) و استادِ دوم (B) را بسنجیم، علاوه بر فرمولِ کولبک-لیبلر، میتوانیم از فرمول جنسون-شنون نیز استفاده کنیم. این فرمول از واگرایی کولبک-لیبر استفاده میکند:
در واقع فاصلهی جنسون-شنون برابر با جمعِ وزنیِ واگرایی کولبک-لیبلر است. با این کار، معیار جنسون شنون تبدیل به یک معیار فاصله شده که قابلیت تفارن دارد. یعنی فاصلهی بین توزیع الف و ب برابر با فاصلهی بین توزیع ب و الف است.
هر کدام از معیارهای جنسون-شنون یا کولبک-لیبلر در مسائل مختلف میتوانند مورد استفاده قرار بگیرند. معمولاً اگر تعداد ویژگیها (ابعاد) مسئله بالا باشد بهتر است از جنسون-شنون به جای کولبک-لیبلر استفاده شود. برای مثال در شبکههای عصبی عمیق مولد متخاصم (که در دورههای آینده به آن خواهیم پرداخت) از معیار جنسون-شنون استفاده میشود.
- ۱ » تحلیل اکتشافی دادهها (Exploratory Data Analysis) چیست؟
- ۲ » انواع مختلف دادهها در دادهکاوی کدامند؟
- ۳ » منظور از دادههای مستطیلی (Rectangular Data) چیست؟
- ۴ » داده پرت (Outlier) در دادهکاوی چیست؟
- ۵ » تخمین مکان دادهها (Estimation Of Location) چیست و انواع مختلف آن کدامند؟
- ۶ » تخمین تنوع و پراکندگی (Estimation Of Variability) و انواع مختلف آن
- ۷ » چارک (Quartile) و IQR در دادهها و کاربردهای آن
- ۸ » چولگی (Skewness) در دادهها
- ۹ » کشیدگی یا برجستگی (kurtosis) در دادهها
- ۱۰ » چگونه با EDA در دادهها اکتشاف کنیم؟
- ۱۱ » نمونهگیری آماری و محاسبهی حداقل تعداد نمونه (Min Sample Size)
- ۱۲ » توزیعهای آماری (Statistical Distributions)
- ۱۳ » فاصلهی آماری (Statistical Distance) و کاربردهای آن
- ۱۴ » واگرایی کولبک-لیبلر (Kullback-Leibler Divergence) و کاربرد آن در فاصلهی آماری
- ۱۵ » فاصلهی جنسون-شنون (Jenson-Shannon) برای مقایسهی توزیعهای آماری
سلام و وقت بخیر
تشکر از مطالب مفیدتون
سلام ممنونم
اگر یک نمودار از این فاصلهی جنسون-شنون
برای این نمونه مثال “نمرات دانشجو ها” هم قرار میدادین خیلی بهتر می شد.