آشنایی با رگرسیون و خطای RMSE | چیستیو

این درس از مجموعه دوره یادگیری ماشین بر روی داده‌های حجیم است

درس بعدی - ابر صفحه (Hyper Plane) در داده‌کاوی و طبقه‌بندی چیست؟

پیش نیاز این درس:

دروس اولیه دوره داده کاوی و دورس اولیه دوره شبکه عصبی را خوانده باشید

مدرس: مسعود کاویانی

درسِ آشنایی با ویژگی‌ها را از قسمت داده‌کاوی به یاد بیاورید. به صورت ساده شده این طور است که می‌خواهیم از یک سری ویژگی (طول و ارتفاع ماشین) به این نتیجه برسیم که این وسیله،‌ پراید است یا اتوبوس. برای این کار که در واقع یک عملیاتِ طبقه‌بندی یا همان classification است، یک مدل توسط الگوریتم ایجاد می‌کنیم که این مدل بتواند با توجه به ویژگی‌ها، تفاوت بین پراید و اتوبوس را تشخیص دهد. به این دست از مسائل طبقه‌بندی می‌گویند که با آن در درس طبقه‌بندی آشنا شدید. اما مسئله‌ای که امروز می‌خواهیم در مورد آن بحث کنیم، مسئله‌ای است که به آن رگرسیون یا regression می‌گویند.

فرض کنید چهار نقطه در فضا دارید (که هر کدام یک نمونه از داده‌های آموزشی هستند). مانند شکل زیر:

این شکل را بدین صورت برای خود در نظر بگیرید که ما می‌خواهیم از روی اعدادِ محور X، اعدادِ محور Y را به دست بیاوریم. مثلا محور X می‌تواند IQ برای یک شخص باشد و محور Y معدل لیسانس این شخص. یعنی می‌خواهیم ببینیم آیا ارتباطی بین IQ برای یک شخص با معدل لیسانس او برقرار است یا خیر؟ یعنی برای مثال، آیا با زیاد شدنِ IO، معدل لیسانس هم زیاد می‌شود یا خیر؟

حال فرض کنید ما می‌خواهیم یک خط رسم کنیم به گونه‌ای که این خط، نماینده‌ای از این نقاط باشد. منظور از نماینده‌ی این نقاط این است که ما بدون داشتنِ این نقاط و فقط از روی خط، بتوانیم مکان تقریبیِ نقاط را حدس بزنیم. یعنی آیا خط طوری رسم شده‌است که با گرفتنِ مقدارِ محور X (مثلا IQ یک شخص است)، بتواند معدلش را تا حدودی حدس بزند یا خیر؟ در کل به این دست از مسائل، مسئله‌های رگرسیون می‌گویند. این مسايل شبیه مسئله‌های طبقه‌بندی است با این تفاوت که مقداری که الگوریتم قرار است پیش‌بینی کند، یک مقدارِ پیوسته است (مانند اینجا که مقدارِ پیوسته معدلِ یک شخص است).

کارِ اصلیِ الگوریتمِ رگرسیون در اینجا پیدا کردن یک خط است به گونه‌ای که نسبت به نقاط، بهترین موقعیت را داشته باشد. منظور از بهترینِ موقعیت تعاریف مختلفی دارد ولی ما اینجا فرض می‌کنیم، بهترین موقعیت، خطی است که به تمامی نقاط کمترین فاصله را داشته باشد. به بیانی دیگر بهترین موقعیت یعنی کمترین RMSE.

پس تا این‌جا فهمیدیم که خطِ رگرسیون، در واقع یک خطِ خلاصه‌سازی شده از داده‌هاست به گونه‌ای که فاصله‌اش تا تمامیِ نمونه‌ها به صورتِ معقولی کمینه باشد. ما برای نمایش فاصله‌ی بین خط رگرسیون و نقاط از RMSE استفاده می‌کنیم و سعی داریم آن را تا حد توان، کمینه کنیم.

برای درکِ RMSE فرمول خط را به یاد بیاورید.

f (x) = a * x + b

در واقع ما میخو‌اهیم پارامتر‌های این خط یعنی همان a و b را یاد بگیریم (a شیب خط و b عرض از مبدا بود – اگر یادتان باشد) به گونه‌ای که کمترین RMSE را داشته باشد. بگذارید مسئله را با همان نقاط بالا حل کنیم. چهار نقطه‌ی بالا را در نظر بگیرید. می‌خواهیم یک خط رسم کنیم و می‌دانم که از ریاضیات خوشتان نمی‌آید (مثل خیلی‌های دیگر) اما به نقاط نگاه کنید و سعی کنید شکل زیر را درک کنید:

فرض کنید یک خط در بین این چهار نقطه رسم می‌کنیم. طبیعتاً این خط فرضی با هر کدام از این چهار نقطه یک فاصله‌ی مشخص دارد. فرمول ساده‌ای است. فاصله‌ی هر نقطه را تا خط محاسبه کرده، سپس به توان ۲ می‌رسانیم. حال تمامیِ این فاصله‌های به توانِ ۲ رسیده را با هم جمع می‌کنیم. اگر بخواهیم شهودی بگوییم، هر نقطه نسبت به خط رگرسیون یک خطا (مقداری فاصله) دارد که به توان ۲ رسیده است. ما از فرمول مشتق گرفتیم و برابر صفر قرار دادیم تا بتوانیم دو نقطه a و b را به دست بیاوریم (این یک راه ساده است و اگر نتوانستید درک کنید لطفا ادامه دهید، برای الان زیاد مهم نیست).

حالا اگر از این مقادیر میانگین بگیریم یعنی در مثال بالا فرمول را تقسیم بر ۴ کنیم، میانگین مجموع مربعات خطا یا همان MSE به دست می‌آید. همان طور که می‌توانید حدس بزنید، هر چقدر این مقدار کمتر باشد، خط ما خط بهتری است. یعنی خطی است که نسبت به این چهار نقطه کمترین فاصله را دارد. خطی مانند خطِ زیر:

هر خط دیگری به جز این خط، مقدار میانگینِ خطای بیشتری را ایجاد می‌کند. می‌توان گفت خطِ کشیده شده در تصویر، خطی است که مقدارِ خطاها در آن، نسبت به نمونه‌های ما یعنی نقاط سبز رنگ، کمینه هستند. معیار RMSE هم به معنای جذر میانگین مربعات خطا است، یعنی با جذر گرفتن از MSE به RMSE می‌رسیم.

در کل این نوع کمینه‌سازی در داده‌کاوی و طبقه‌بندی بسیار مرسوم است. مجموع خطاهای هر نقطه را نسبت به مدلِ ساخته شده محاسبه می‌کنیم و این خود، نوعی معیار برای خوب بودن مدل ساخته شده توسط الگوریتم می‌باشد.

این درس از مجموعه دوره یادگیری ماشین بر روی داده‌های حجیم است

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

21 دیدگاه دربارهٔ «آشنایی با رگرسیون و خطای RMSE»

سلام و عرض ادب

خیلی استفاده کردم پروژه بنده در مورد recommendation system ها بود و این پست کمکم کرد

تشکر

21 دیدگاه دربارهٔ «آشنایی با رگرسیون و خطای RMSE»

دیدگاهتان را بنویسید لغو پاسخ