ماتریس‌ها و کاربرد آن‌ها در داده‌کاوی و یادگیری ماشین

مدرس: مسعود کاویانی

فرض کنید در یک آتش‌نشانی در منطقه‌ی جنگلی مشغول به کار هستید. در این منطقه هر روز احتمال آتش‌سوزی کوچک وجود دارد که در صورت عدم رسیدگی می‌تواند به آتش‌سوزی بزرگ در جنگل تبدیل شود. آتش‌نشان‌ها به صورت تجربی می‌دانند که قبل از وقوع آتش‌سوزی ممکن است تغییراتی در آب و هوا رخ دهد. برای مثال می‌دانند که اگر در روز قبل دمای هوا بالا باشد و در چند هفته‌ی گذشته بارانی نباریده باشد و همچنین باد شروع به وزیدن کرده باشد، این احتمال هست که فردا آتش‌سوزی داشته باشیم.

مثال بالا می‌تواند با استفاده از داده‌ها علمی‌تر و دقیق‌تر باشد. یک متخصص علم داده می‌تواند با جمع‌آوری داده‌ها، ماتریسی به شکل زیر بسازد:

در مثال بالا هر کدام از سطرها، یک روز را نشان می‌دهد. هر روز ۷ ویژگی دارد، به همراه یک ستون آخر که نشان می‌دهد فردای آن روز، در جنگل آتش‌سوزی رخ داده است یا خیر.

در فصل‌های آینده خواهیم دید که این ماتریس می‌تواند به الگوریتم‌های یادگیری ماشین تزریق شود و این الگوریتم‌ها از روی داده‌ها یادگیری را انجام دهند. سپس برای روز‌های آینده، الگوریتم، با مشاهده‌ی ویژگی‌های آن روز، پیش‌بینی کند که آیا فردا آتش‌سوزی رخ خواهد داد یا خیر.

همان‌طور که می‌بینید این ماتریس، مجموعه‌ای از داده‌ها را به صورت ساختاریافته در خود ذخیره کرده است. هر سطر از این ماتریس یک نمونه (instance) نامیده می‌شود که نشان‌دهنده‌ی یک روز است. همچنین هر ستون از این ماتریس یک بُعد (Dimension) یا ویژگی (Feature) نامیده می‌شود، زیرا هر ستون یک ویژگی از یک نمونه را مشخص می‌کند.

ماتریس بالا می‌تواند در یک فضای اقلیدسی نمایش داده شود. البته ما در صفحه نمی‌توانیم ابعاد بالاتر از سه بُعد را رسم کنیم. پس برای سادگی فرض کنید که ماتریس بالا، به جای ۷ بُعد، فقط ۲ بُعد دارد. اگر بخواهیم این شکل را بر روی یک فضای اقلیدسی نمایش دهیم، هر سطر (نمونه) یک نقطه در یک فضای ۲ بُعدی (مثلاً x1 و x2) می‌شود. چیزی شبیه به شکل زیر:

همان‌طور که مشاهده می‌کنید، هر سطر به یک نقطه در فضا نگاشت شده است. این فضا که همان فضای دکارتی است، یکی از اصول جبرخطی بوده و کاربرد بسیار زیادی از یادگیری ماشین و داده‌کاوی دارد. در فصل‌های پیش‌رو بیشتر در مورد تزریق این ماتریس‌ها به الگوریتم‌های یادگیری ماشین بحث خواهیم کرد.

6 دیدگاه دربارهٔ «ماتریس‌ها و کاربرد آن‌ها در داده‌کاوی و یادگیری ماشین»

  1. ببخشید برای رسم ماتریس در فضای اقلیدسی گفتید که هر سطر نشون دهنده یک نقطه در فضای دو بعدی هست( اگر ماتریس رو دو بعدی در نظر بگیریم) اما ماتریس سه بعدی بوده چجوریه من نفهمیدم . و اینکه مگه هر درایه در فضای اقلیدسی یک نقطه نمیشه؟ چرا گفتید هر سطر میشه یک درایعه؟

    1. ماتریس فیچرها در اصل مورد نظر است. اون ستون سوم مربوط میشه به متغیر هدف که قراره الگوریتم یادگیری ماشین برای ورودی های جدید، لیبل مورد نظر رو برای روز جدید پیش بینی کند.

    2. منظور از ۲ بعد، در واقع دو ویژگی برای هر روزه. در ماتریس اول ۷ ویژگی لحاظ شده بود و ستون آخر (هشتم) وقوع یا عدم وقوع آتش سوزی را در روز بعد نشان میداد. نمایش هر درایه به صورت یک نقطه در فضای اقلیدسیه اما اگر دقت کنید لیبل مشخص شده نشون میده که آتش سوزی رخ داده یا نه. پس با تزریق این داده‌ها به الگوریتم‌ یادگیری ماشین احتمال آتش سوزی برای داده‌های جدید، پیش بینی میشه

  2. سلام.
    این سری مطالب بسیار عالی و کارامد هست ….حداقل کاری که میتونم انجام بدم ابراز تشکر بابت تهیه این مطالب هست. من خیلی استفاده کردم و امیدوارم موفق باشید.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *