انتخاب نمونه (Instance Selection) در پیش پردازش داده‌ها

مدرس: مسعود کاویانی

معمولاً در بحثِ پردازش داده‌ها و داده‌کاوی، یکی از محدودیت‌ها، محدودیت در منابع سخت افزاری است. برای مثال فرض کنید، ۵۰ گیگابایت داده در اختیار داریم ولی مقدار حافظه‌ی موقتِ (RAM) موجود، ۴ گیگابایت است. یکی از راه‌کارها، برای حل این دست مسائل، کاهش دادن داده‌ها است. در درسِ قبل دیدیم که چگونه با حذفِ یک ویژگی (یک بُعد)، حجمِ داده‌ها کاهش پیدا می‌کند. در این درس می‌خواهیم ببینیم که چگونه به جای حذفِ یک ویژگی، نمونه‌های مختلف رامی‌توان از بین داده‌ها کنار گذاشت.

مثال درسِ قبل را به یاد بیاورید:

در این مثال، ما ۸ نمونه کارمند داریم که هر کدام ۴ویژگی دارند و می‌خواهیم با توجه به این ۴ ویژگی، یاد بگیریم که معمولاً یک شخص با چه ویژگی‌هایی می‌تواند یک پروژه را به موفقیت برساند (که این مثالی از طبقه‌بندی بود). ولی در میانِ داده‌ها، برخی از نمونه‌ها هستند که اطلاعاتِ مفیدی برای الگوریتمِ طبقه‌بندی فراهم نمی‌آورند. الگوریتم‌های انتخابِ نمونه یا همان instance selection، می‌توانند این نمونه‌ها را شناسایی کرده و آن‌ها را از میانِ داده‌ها حذف کنند.

با این‌کار سرعت در عملیاتِ یادگیریِ ماشین و طبقه‌بندی بیشتر می‌شود ولی دقتِ طبقه‌بندی تقریباً مانندِ قبل باقی می‌ماند یا ممکن است کمتر شود. توجه کنید که الگوریتم‌های طبقه‌بندی معمولاً خطاهای معقولی دارند و عملیاتِ کاهشِ نمونه، بایستی با ثابت نگه‌داشتن خطای یک الگوریتمِ طبقه‌بندی، تعداد نمونه‌ها را کاهش دهد. سعی داریم در دوره‌ای جداگانه به بررسی الگوریتم‌های کاهش نمونه (instance selection) بپردازیم.

منابع این بحث و اطلاعات بیشتر

» کتاب پیش‌پردازش داده‌ها در داده‌کاوی از آقای سالوادور گارسیا و همکاران » وی‌کی‌پدیا » مقاله‌ی مروریِ در مورد انتخاب نمونه

در صورت تمایل به یادگیری بیشتر، منابع بالا در نظر گرفته شده است. می توانید با خواندن این منابع، به یادگیری خود در این زمینه عمق ببخشید

10 دیدگاه دربارهٔ «انتخاب نمونه (Instance Selection) در پیش پردازش داده‌ها»

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *