انتخاب نمونه (Instance Selection) در پیش پردازش داده‌ها | چیستیو

این درس از مجموعه دوره آشنایی با روش‌های پیش پردازش داده‌ها است

درس قبلی - انتخاب ویژگی (Feature Section) و کاهش ابعاد

مدرس: مسعود کاویانی

معمولاً در بحثِ پردازش داده‌ها و داده‌کاوی، یکی از محدودیت‌ها، محدودیت در منابع سخت افزاری است. برای مثال فرض کنید، ۵۰ گیگابایت داده در اختیار داریم ولی مقدار حافظه‌ی موقتِ (RAM) موجود، ۴ گیگابایت است. یکی از راه‌کارها، برای حل این دست مسائل، کاهش دادن داده‌ها است. در درسِ قبل دیدیم که چگونه با حذفِ یک ویژگی (یک بُعد)، حجمِ داده‌ها کاهش پیدا می‌کند. در این درس می‌خواهیم ببینیم که چگونه به جای حذفِ یک ویژگی، نمونه‌های مختلف رامی‌توان از بین داده‌ها کنار گذاشت.

مثال درسِ قبل را به یاد بیاورید:

در این مثال، ما ۸ نمونه کارمند داریم که هر کدام ۴ویژگی دارند و می‌خواهیم با توجه به این ۴ ویژگی، یاد بگیریم که معمولاً یک شخص با چه ویژگی‌هایی می‌تواند یک پروژه را به موفقیت برساند (که این مثالی از طبقه‌بندی بود). ولی در میانِ داده‌ها، برخی از نمونه‌ها هستند که اطلاعاتِ مفیدی برای الگوریتمِ طبقه‌بندی فراهم نمی‌آورند. الگوریتم‌های انتخابِ نمونه یا همان instance selection، می‌توانند این نمونه‌ها را شناسایی کرده و آن‌ها را از میانِ داده‌ها حذف کنند.

با این‌کار سرعت در عملیاتِ یادگیریِ ماشین و طبقه‌بندی بیشتر می‌شود ولی دقتِ طبقه‌بندی تقریباً مانندِ قبل باقی می‌ماند یا ممکن است کمتر شود. توجه کنید که الگوریتم‌های طبقه‌بندی معمولاً خطاهای معقولی دارند و عملیاتِ کاهشِ نمونه، بایستی با ثابت نگه‌داشتن خطای یک الگوریتمِ طبقه‌بندی، تعداد نمونه‌ها را کاهش دهد. سعی داریم در دوره‌ای جداگانه به بررسی الگوریتم‌های کاهش نمونه (instance selection) بپردازیم.