توسط: مسعود (۰۵…۰۹۱۳)
پرسش:
با سلام
یک پروژه تحقیقاتی دارم . می خواستم ببینم امکان همکاری در بحث آموزش و راهنمایی در باب حل مسئله بین ما وجود دارد؟
پروژه : یک دیتا ست باینری با ابعاد ۱۲۰۰۰*۲۰۰۰۰ وجود دارد که نیاز به کلاسیفیکیشن دارد.
از ۲۰ هزار نمونه موجود فقط ۳۰۰ نمونه برچسب + دارند و اطلاعاتی را جع به بقیه نمونه ها وجود ندارد (در واقع صورت مسئله Positive Unlabled است) و نمونه – نداریم.
آیا امکان طراحی کلاسیفایر از نوع بیز برای این مسئله وجود دارد؟
آیا شما می توانید به من در حل این مسئله کمک کنید؟
منتظر پاسخ شما هستم.
با تشکر
پاسخ:
سلام خدمت شما
در بسیاری از مسائل حوزه دادهکاوی، به این مشکل میرسیم که درصد کمی از دادههای ما دارای برچسب هستند و درصد بسیار زیاد دیگر، عملا برچسبی ندارند. برای حل این دسته از مسائل راهکارهای یادگیری نیمه نظارت شده یا همان Supervised-Learning پیشنهاد میشود.
اگر با زبان پایتون کار کرده باشید، کتابخانه Pomegranate پیشنهاد خوبی برای کار با مسائل نیمه نظارت شده است. همچنین در این صفحه بعد از توضیح در مورد یادگیری نیمه نظارت شده، یک مثال با الگوریتم بیزین درج شده است.
البته توجه داشته باشید که برای حل مسائل بهتر است الگوریتمهای متفاوت و و روشهای مختلف را با کتابخانهها موجود تست کنید.