در ادامهی دوره جبرخطی (Linear Algebra) به مبحثی میرسیم که احتمالا در دروس و سرفصلهای مختلف دادهکاوی زیاد از آن یاد میشود. مفهوم همبستگی دادهها در میان دادههای انبوه و پیچیده مبحثِ مهم و در عین حال سادهای است. در این درس میخواهیم بفهمیم که همبستگی بین متغیرها چیست و چگونه میتوان از آن در جهت تحلیل دادهها استفاده کرد.
در دروس گذشته گفتیم که ماتریس چیست، و حالا میخواهیم یک ماتریس به اسم ماتریسِ همبستگی یا همان Correlation Matrix را نمایش دهیم. در این ماتریس متغیرهای ما همان ویژگیهای مجموعهی داده هستند. برای مثال یک سری پستاندار را میخواهیم مورد بررسی قرار دهیم. در این بررسی برای هر پستاندار ۳ویژگی در نظر میگیریم. وزن، ساعت خواب و طول عمر. حالا شکل زیر را ببینید:
این یک ماتریس است که ۳سطر و ۳ستون دارد و متقارن است. توجه کنید که تعدادِ سطر و ستونها برابرِ تعداد ویژگیهای مجموعهی داده (در اینجا ۳) است. سطرها و ستونهای این ماتریس برابرند. هر کدام از خانهها با عددی مشخص شدهاند که در بازهی منفی ۱ تا مثبت ۱ قرار دارند. هر چه این عدد کمتر باشد به این معنی است که دو ویژگی (در محل تقاطع آن عدد) به همدیگر ارتباط معکوس دارند و هر چه قدر این عدد بزرگتر باشد یعنی دو ویژگی به همدیگر وابستگیِ مثبت دارند. برای درک بهتر، عددی که در شکلِ بالا سبز رنگ کردیم را مشاهده کنید. عدد منفی ۰/۳۰۷ به این معنی است که در بین این گونه پستانداران با زیاد شدن وزن آنها، ساعات خوابشان کمتر میشود. یعنی دو ویژگیِ وزن و ساعت خواب به همدیگر به اندازه ۰/۳۰۷ وابستگی منفی دارند. حالا عددی که با رنگ قرمز مشخص شده را مشاهده کنید. همانطور که میبینید، این عدد در نقطهی تقاطعِ دو ویژگیِ طول عمر و وزن قرار دارد و به خاطر مثبت بودنْ نشان میدهد که هر چه وزنِ یک پستاندار بیشتر باشد، طولِ عمر او نیز بیشتر میشود. در واقع این دو متغیر به اندازهی ۰/۳۰۲ به همدیگر وابستگیِ مثبت دارند. قطعاً توجه دارید که قُطرِ اصلیِ این ماتریس برابرِ ۱ هست زیرا هر ویژگی با خودش طبیعتاً همبستگی حداکثری دارد.
این اعداد و ویژگیهایی که در موردِ آنها بحث کردیم مقدارِ همبستگیِ دو ویژگی (دو متغیر) را نشان میداد. در بعضی از مراجع از کواریانس (Covariance) نیز برای این رابطه نام برده میشود. کواریانس در واقع یک حالتِ غیرنرمال (غیر استاندارد) از همبستگی (Correlation) است. زیرا برای محاسبهی همبستگی باید مقدارِ کواریانسِ بین دو ویژگی را تقسیم بر انحرافِ استانداردِ (انحراف معیار) دو متغیر کرد (درسِ انحرافِ استاندارد را خوانده باشید). این کار (تقسیم بر انحراف استاندارد) باعث میشود مقدارِ اعداد در بازهی منفیِ ۱ تا مثبتِ ۱ قرار بگیرند و بتوان آنها را با هم مقایسه کرد. زیرا مقدار کواریانس در بازهی منفی ۱ و مثبت ۱ نیست و باتوجه به دامنه تغییرات یک ویژگی میتواند خیلی زیاد یا خیلی کم شود. در مثالِ بالا، مقدارِ سن ممکن است بین ۵ تا ۱۰۰متغیر باشد ولی مقدار وزن میتواند بین ۰/۵کیلوگرم تا ۵۰۰کیلوگرم در بین پستانداران باشد و این دامنهی تغییرات بر روی مقادیرِ کواریانس اثر میگذارد و مانع از مقایسه درست اعداد داخل ماتریس نسبت به هم میشود. حال برای فهم ماتریس کواریانس به شکل زیر نگاه کنید:
با مفهوم واریانس که در این درس آشنا شدید. واریانس دامنهی تغییرات یک متغیر نسبت به خودش است. در حالی که کواریانس دامنهی تغییرات دو متغیر نسبت به همدیگر است. یعنی به نوعی، پاسخ به این سوال است که مثلا با کم شدن مقدار یک ویژگی (مانند سن پستانداران)، ویژگی دیگر (مانند وزن پستاندار) چه تغییری پیدا میکند؟ و کواریانس هر ویژگی با خودش همان واریانس (Variance) آن ویژگی است.
- ۱ » عدد (Scalar)، بردار (Vectors)، ماتریس (Matrix) و تنسور (Tensor) چیست؟
- ۲ » ماتریسها و کاربرد آنها در دادهکاوی و یادگیری ماشین
- ۳ » نرم (Norm) بردار یا ماتریس چیست؟
- ۴ » انواع ماتریس و ویژگیهای مختلف آنها
- ۵ » چرا ماتریسها در علوم داده مهم هستند؟
- ۶ » معیارهای فاصله (Distance Measures) در یادگیری ماشین
- ۷ » بردار ویژه (Eigen Vector) و مقدار ویژه (Eigen Value) برای یک ماتریس
- ۸ » Singular Value Decomposition یا همان SVD در ماتریس چیست؟
- ۹ » ماتریس کواریانس (Covariance) و ماتریس همبستگی (Correlation) چیست؟
- ۱۰ » آنالیز مولفه اصلی (Principal Component Analysis) یا همان PCA چیست؟
- ۱۱ » دستگاه معادلات خطی (System of Linear Equations) در ماتریسها
من دانشجوی ارشد در آلمان هستم ،و امروز سر کلاس ،machin learning, همه واژه ها غریب بود و من اصلا چیزی متوجه نمی شدم، اما خوندن مطالب این صفحه خیلی برام مفید بود و کاملا کمکم کرد .خیلی ممنون از اطلاعات خوب مفیدتون
تورو خدا بگو چطور ارشد رفتی آلمان . من شدیدا نیاز به کمک دارم
ممنون میشم یه ایمیل بهم بزنی
Zahraghorbanii.1376@gmail.com
سلام امکان داره درباره محاسبه کواریانس ماتریس ها توضیح بدید.مثلا اگر ماتریس ویژگیهای سه در پنج داشته باشیم که ستون ها تعداد ویژگیها وردیف ها تعداد نمونه ها باشند برای محاسبه کواریانس به صورت دستی چگونه باید عمل کنیم؟
ممنون میشم راهنمایی بفرمایید.
عالی واقعا🙌
سلام
من دانشجوی ارشد هوش مصنوعی هستم و مباحث جبر خطی در درس های ما خیلی کاربرد دارد.
میخواستم بابت این آموزش های کاربردی ازتون تشکر کنم
سلام خسته نباشید و ممنون بابت پاسخهای خوبتون یه تابع هدف تصادفی داشتم که از جنس امید ریاضی ماتریس است در ادامه گفته برابر تریس همون عبارت ماتریس است تو ذهنم نمیتونم ارتباطی بین این دو پیدا کنم😔 ممنون میشم راهنماییم کنید🙏
همه مطالب تون عالی
خدا خیرتون بده
بسیار عالی بود ممنون👍👍👍
بعنوان دانشجوی دکتری کشاورزی که برای تزم از روشهای ریاضی و آماری که قبلا با اونها برخورد نداشتم استفاده میکنم مطالب روان و قابل فهم وبسایت شما برای درک روشها و تسلط و یادگیری نرم افزارهایی که باهاشون کار میکنم خیلی مفید بوده. ممنون از زحمت و لطفتون بابت تهیه مطالبتون.
پرفکت
من دانشجوی ارشد هستم . مطالبتون خیلی به کارم آمد.
ممنون
همواره پایدار و موفق باشید
با سلام
من فايل ماتريس هم رخدادی واژگان تهیه کردم و میخواهم در اس پی اس اس ماتریس همبستگی ازش تهیه کنم ممنون میشم راهنمایی کنید که چکار باید کرد.
سلام و احترام
مطالب و نحوه تدوین بسیار عالی است، لطفا خسته نشوید و همچنان ادامه بدهید و مطالب پیشرفته را نیز انتشار بدهید، خیلی ممنونم
خیلی ساده و خوب توضیح دادید. مرسی