پرسش و پاسخ: طراحی مدل با تعداد اندک داده‌های برچسب دار | چیستیو

مدرس: مسعود کاویانی

توسط: مسعود (۰۵…۰۹۱۳)
پرسش:
با سلام
یک پروژه تحقیقاتی دارم . می خواستم ببینم امکان همکاری در بحث آموزش و راهنمایی در باب حل مسئله بین ما وجود دارد؟
پروژه : یک دیتا ست باینری با ابعاد ۱۲۰۰۰*۲۰۰۰۰ وجود دارد که نیاز به کلاسیفیکیشن دارد.
از ۲۰ هزار نمونه موجود فقط ۳۰۰ نمونه برچسب + دارند و اطلاعاتی را جع به بقیه نمونه ها وجود ندارد (در واقع صورت مسئله Positive Unlabled است) و نمونه – نداریم.
آیا امکان طراحی کلاسیفایر از نوع بیز برای این مسئله وجود دارد؟
آیا شما می توانید به من در حل این مسئله کمک کنید؟
منتظر پاسخ شما هستم.
با تشکر

پاسخ:
سلام خدمت شما
در بسیاری از مسائل حوزه داده‌کاوی، به این مشکل می‌رسیم که درصد کمی از داده‌های ما دارای برچسب هستند و درصد بسیار زیاد دیگر، عملا برچسبی ندارند. برای حل این دسته از مسائل راه‌کارهای یادگیری نیمه نظارت شده یا همان Supervised-Learning پیشنهاد می‌شود.
اگر با زبان پایتون کار کرده باشید، کتابخانه Pomegranate پیشنهاد خوبی برای کار با مسائل نیمه نظارت شده است. همچنین در این صفحه بعد از توضیح در مورد یادگیری نیمه نظارت شده، یک مثال با الگوریتم بیزین درج شده است.
البته توجه داشته باشید که برای حل مسائل بهتر است الگوریتم‌های متفاوت و و روش‌های مختلف را با کتابخانه‌ها موجود تست کنید.

دیدگاهتان را بنویسید لغو پاسخ