ماتریس کواریانس (Covariance) و ماتریس همبستگی (Correlation) چیست؟

مدرس: مسعود کاویانی

در ادامه‌ی دوره جبرخطی (Linear Algebra) به مبحثی می‌رسیم که احتمالا در دروس و سرفصل‌های مختلف داده‌کاوی زیاد از آن یاد می‌شود. مفهوم همبستگی داده‌ها در میان داده‌های انبوه و پیچیده مبحثِ مهم و در عین حال ساده‌ای است. در این درس می‌خواهیم بفهمیم که همبستگی بین متغیرها چیست و چگونه می‌توان از آن در جهت تحلیل داده‌ها استفاده کرد.

در دروس گذشته گفتیم که ماتریس چیست، و حالا می‌خواهیم یک ماتریس به اسم ماتریسِ همبستگی یا همان Correlation Matrix را نمایش دهیم. در این ماتریس متغیرهای ما همان ویژگی‌های مجموعه‌ی داده هستند. برای مثال یک سری پستاندار را می‌خواهیم مورد بررسی قرار دهیم. در این بررسی برای هر پستاندار ۳ویژگی در نظر می‌گیریم. وزن، ساعت خواب و طول عمر. حالا  شکل زیر را ببینید:

این یک ماتریس است که ۳سطر و ۳ستون دارد و متقارن است. توجه کنید که تعدادِ سطر و ستون‌ها برابرِ تعداد ویژگی‌های مجموعه‌ی داده (در این‌جا ۳) است. سطرها و ستون‌های این ماتریس برابرند. هر کدام از خانه‌ها با عددی مشخص شده‌اند که در بازه‌ی منفی ۱ تا مثبت ۱ قرار دارند. هر چه این عدد کمتر باشد به این معنی است که دو ویژگی (در محل تقاطع آن عدد) به همدیگر ارتباط معکوس دارند و هر چه قدر این عدد بزرگتر باشد یعنی دو ویژگی به همدیگر وابستگیِ مثبت دارند. برای درک بهتر، عددی که در شکلِ بالا سبز رنگ کردیم را مشاهده کنید. عدد منفی ۰/۳۰۷ به این معنی است که در بین این گونه پستانداران با زیاد شدن وزن آن‌ها، ساعات خوابشان کمتر می‌شود. یعنی دو ویژگیِ وزن و ساعت خواب به همدیگر به اندازه ۰/۳۰۷ وابستگی منفی دارند. حالا عددی که با رنگ قرمز مشخص شده را مشاهده کنید. همان‌طور که می‌بینید، این عدد در نقطه‌ی تقاطعِ دو ویژگیِ طول عمر و وزن قرار دارد و به خاطر مثبت بودنْ نشان می‌دهد که هر چه وزنِ یک پستاندار بیشتر باشد، طولِ عمر او نیز بیشتر می‌شود. در واقع این دو متغیر به اندازه‌ی ۰/۳۰۲ به همدیگر وابستگیِ مثبت دارند. قطعاً توجه دارید که قُطرِ اصلیِ این ماتریس برابرِ ۱ هست زیرا هر ویژگی با خودش طبیعتاً همبستگی حداکثری دارد.

این اعداد و ویژگی‌هایی که در موردِ آن‌ها بحث کردیم مقدارِ همبستگیِ دو ویژگی (دو متغیر) را نشان می‌داد. در بعضی از مراجع از کواریانس (Covariance) نیز برای این رابطه نام برده می‌شود. کواریانس در واقع یک حالتِ غیرنرمال (غیر استاندارد) از همبستگی (Correlation) است. زیرا برای محاسبه‌ی همبستگی باید مقدارِ کواریانسِ بین دو ویژگی را تقسیم بر انحرافِ استانداردِ (انحراف معیار) دو متغیر کرد (درسِ انحرافِ استاندارد را خوانده باشید). این کار (تقسیم بر انحراف استاندارد) باعث می‌شود مقدارِ اعداد در بازه‌ی منفیِ ۱ تا مثبتِ ۱ قرار بگیرند و بتوان آن‌ها را با هم مقایسه کرد. زیرا مقدار کواریانس در بازه‌ی منفی ۱ و مثبت ۱ نیست و باتوجه به دامنه تغییرات یک ویژگی می‌تواند خیلی زیاد یا خیلی کم شود. در مثالِ بالا، مقدارِ سن ممکن است بین ۵ تا ۱۰۰متغیر باشد ولی مقدار وزن می‌تواند بین ۰/۵کیلوگرم تا ۵۰۰کیلوگرم در بین پستانداران باشد و این دامنه‌ی تغییرات بر روی مقادیرِ کواریانس اثر می‌گذارد و مانع از مقایسه درست اعداد داخل ماتریس نسبت به هم می‌شود. حال برای فهم ماتریس کواریانس به شکل زیر نگاه کنید:

با مفهوم واریانس که در این درس آشنا شدید. واریانس دامنه‌ی تغییرات یک متغیر نسبت به خودش است. در حالی که کواریانس دامنه‌ی تغییرات دو متغیر نسبت به همدیگر است. یعنی به نوعی، پاسخ به این سوال است که مثلا با کم شدن مقدار یک ویژگی (مانند سن پستانداران)، ویژگی دیگر (مانند وزن پستاندار) چه تغییری پیدا می‌کند؟ و کواریانس هر ویژگی با خودش همان واریانس (Variance) آن ویژگی است.

منابع این بحث و اطلاعات بیشتر

» فصل دوم کتاب Deep Learning

» وب‌سایت TheAnalysisFactor

در صورت تمایل به یادگیری بیشتر، منابع بالا در نظر گرفته شده است. می توانید با خواندن این منابع، به یادگیری خود در این زمینه عمق ببخشید

14 دیدگاه دربارهٔ «ماتریس کواریانس (Covariance) و ماتریس همبستگی (Correlation) چیست؟»

  1. من دانشجوی ارشد در آلمان هستم ،و امروز سر کلاس ،machin learning, همه واژه ها غریب بود و من اصلا چیزی متوجه نمی شدم، اما خوندن مطالب این صفحه خیلی برام مفید بود و کاملا کمکم کرد .خیلی ممنون از اطلاعات خوب مفیدتون

  2. سلام امکان داره درباره محاسبه کواریانس ماتریس ها توضیح بدید.مثلا اگر ماتریس ویژگیهای سه در پنج داشته باشیم که ستون ها تعداد ویژگیها وردیف ها تعداد نمونه ها باشند برای محاسبه کواریانس به صورت دستی چگونه باید عمل کنیم؟
    ممنون میشم راهنمایی بفرمایید.

  3. سلام
    من دانشجوی ارشد هوش مصنوعی هستم و مباحث جبر خطی در درس های ما خیلی کاربرد دارد.
    میخواستم بابت این آموزش های کاربردی ازتون تشکر کنم

  4. سلام خسته نباشید و ممنون بابت پاسخهای خوبتون یه تابع هدف تصادفی داشتم که از جنس امید ریاضی ماتریس است در ادامه گفته برابر تریس همون عبارت ماتریس است تو ذهنم نمیتونم ارتباطی بین این دو پیدا کنم😔 ممنون میشم راهنماییم کنید🙏

  5. بعنوان دانشجوی دکتری کشاورزی که برای تزم از روشهای ریاضی و آماری که قبلا با اونها برخورد نداشتم استفاده میکنم مطالب روان و قابل فهم وبسایت شما برای درک روشها و تسلط و یادگیری نرم افزارهایی که باهاشون کار میکنم خیلی مفید بوده. ممنون از زحمت و لطفتون بابت تهیه مطالبتون.

  6. با سلام
    من فايل ماتريس هم رخدادی واژگان تهیه کردم و میخواهم در اس پی اس اس ماتریس همبستگی ازش تهیه کنم ممنون میشم راهنمایی کنید که چکار باید کرد.

  7. سلام و احترام
    مطالب و نحوه تدوین بسیار عالی است، لطفا خسته نشوید و همچنان ادامه بدهید و مطالب پیشرفته را نیز انتشار بدهید، خیلی ممنونم

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *