فرض کنید در یک آتشنشانی در منطقهی جنگلی مشغول به کار هستید. در این منطقه هر روز احتمال آتشسوزی کوچک وجود دارد که در صورت عدم رسیدگی میتواند به آتشسوزی بزرگ در جنگل تبدیل شود. آتشنشانها به صورت تجربی میدانند که قبل از وقوع آتشسوزی ممکن است تغییراتی در آب و هوا رخ دهد. برای مثال میدانند که اگر در روز قبل دمای هوا بالا باشد و در چند هفتهی گذشته بارانی نباریده باشد و همچنین باد شروع به وزیدن کرده باشد، این احتمال هست که فردا آتشسوزی داشته باشیم.
مثال بالا میتواند با استفاده از دادهها علمیتر و دقیقتر باشد. یک متخصص علم داده میتواند با جمعآوری دادهها، ماتریسی به شکل زیر بسازد:
در مثال بالا هر کدام از سطرها، یک روز را نشان میدهد. هر روز ۷ ویژگی دارد، به همراه یک ستون آخر که نشان میدهد فردای آن روز، در جنگل آتشسوزی رخ داده است یا خیر.
در فصلهای آینده خواهیم دید که این ماتریس میتواند به الگوریتمهای یادگیری ماشین تزریق شود و این الگوریتمها از روی دادهها یادگیری را انجام دهند. سپس برای روزهای آینده، الگوریتم، با مشاهدهی ویژگیهای آن روز، پیشبینی کند که آیا فردا آتشسوزی رخ خواهد داد یا خیر.
همانطور که میبینید این ماتریس، مجموعهای از دادهها را به صورت ساختاریافته در خود ذخیره کرده است. هر سطر از این ماتریس یک نمونه (instance) نامیده میشود که نشاندهندهی یک روز است. همچنین هر ستون از این ماتریس یک بُعد (Dimension) یا ویژگی (Feature) نامیده میشود، زیرا هر ستون یک ویژگی از یک نمونه را مشخص میکند.
ماتریس بالا میتواند در یک فضای اقلیدسی نمایش داده شود. البته ما در صفحه نمیتوانیم ابعاد بالاتر از سه بُعد را رسم کنیم. پس برای سادگی فرض کنید که ماتریس بالا، به جای ۷ بُعد، فقط ۲ بُعد دارد. اگر بخواهیم این شکل را بر روی یک فضای اقلیدسی نمایش دهیم، هر سطر (نمونه) یک نقطه در یک فضای ۲ بُعدی (مثلاً x1 و x2) میشود. چیزی شبیه به شکل زیر:
همانطور که مشاهده میکنید، هر سطر به یک نقطه در فضا نگاشت شده است. این فضا که همان فضای دکارتی است، یکی از اصول جبرخطی بوده و کاربرد بسیار زیادی از یادگیری ماشین و دادهکاوی دارد. در فصلهای پیشرو بیشتر در مورد تزریق این ماتریسها به الگوریتمهای یادگیری ماشین بحث خواهیم کرد.
- ۱ » عدد (Scalar)، بردار (Vectors)، ماتریس (Matrix) و تنسور (Tensor) چیست؟
- ۲ » ماتریسها و کاربرد آنها در دادهکاوی و یادگیری ماشین
- ۳ » نرم (Norm) بردار یا ماتریس چیست؟
- ۴ » انواع ماتریس و ویژگیهای مختلف آنها
- ۵ » چرا ماتریسها در علوم داده مهم هستند؟
- ۶ » معیارهای فاصله (Distance Measures) در یادگیری ماشین
- ۷ » بردار ویژه (Eigen Vector) و مقدار ویژه (Eigen Value) برای یک ماتریس
- ۸ » Singular Value Decomposition یا همان SVD در ماتریس چیست؟
- ۹ » ماتریس کواریانس (Covariance) و ماتریس همبستگی (Correlation) چیست؟
- ۱۰ » آنالیز مولفه اصلی (Principal Component Analysis) یا همان PCA چیست؟
- ۱۱ » دستگاه معادلات خطی (System of Linear Equations) در ماتریسها
ببخشید برای رسم ماتریس در فضای اقلیدسی گفتید که هر سطر نشون دهنده یک نقطه در فضای دو بعدی هست( اگر ماتریس رو دو بعدی در نظر بگیریم) اما ماتریس سه بعدی بوده چجوریه من نفهمیدم . و اینکه مگه هر درایه در فضای اقلیدسی یک نقطه نمیشه؟ چرا گفتید هر سطر میشه یک درایعه؟
ماتریس فیچرها در اصل مورد نظر است. اون ستون سوم مربوط میشه به متغیر هدف که قراره الگوریتم یادگیری ماشین برای ورودی های جدید، لیبل مورد نظر رو برای روز جدید پیش بینی کند.
منظور از ۲ بعد، در واقع دو ویژگی برای هر روزه. در ماتریس اول ۷ ویژگی لحاظ شده بود و ستون آخر (هشتم) وقوع یا عدم وقوع آتش سوزی را در روز بعد نشان میداد. نمایش هر درایه به صورت یک نقطه در فضای اقلیدسیه اما اگر دقت کنید لیبل مشخص شده نشون میده که آتش سوزی رخ داده یا نه. پس با تزریق این دادهها به الگوریتم یادگیری ماشین احتمال آتش سوزی برای دادههای جدید، پیش بینی میشه
سلام.
این سری مطالب بسیار عالی و کارامد هست ….حداقل کاری که میتونم انجام بدم ابراز تشکر بابت تهیه این مطالب هست. من خیلی استفاده کردم و امیدوارم موفق باشید.
فوق العاده بود توضیح 🙂 اگه میشه ریاضیات ماشین لرنینگو همینطوری ساده و با مثال توضیح بدین متشکرم.
عالی دمت گرم با مرام که این مطالبو به اشتراک میزاری