انتخاب ویژگی (Feature Selection) چیست؟ | چیستیو

این درس از مجموعه دوره مقدمات داده‌کاوی (Data Mining) و یادگیری ماشین (Machine Learning) است

پیش نیاز این درس:

مدرس: مسعود کاویانی

در مواقعی که بحث کار عملی (و صنعتی) بر روی داده‌ها پیش میآید و از مباحث تئوری و آکادمیکِ دانشگاهی فاصله می‌گیریم، شاید مهم‌ترین بخش برای عملیاتِ داده‌کاویْ عملیاتِ انتخابِ ویژگی است. در مباحثِ آکادمیک معمولا ویژگی‌ها در مسئله در اختیار کاربران قرار دارند ولی در مباحث عملی یک متخصص علوم‌داده بایستی خود (البته با همکاری تیم‌های مختلف مانند تیم فروش و…) ویژگی‌های مورد نیاز را از میان دادگان استخراج کند. حتی برخی از موارد بایستی خود به دنبال ساخت دیتاستِ جدید بگردید و داده‌ها را جمع آوری کنید. در درس ویژگی و پس از آن در داده‌کاوی چیست، با این مبحث آشنایی اولیه پیدا کردید، در این درس می‌خواهیم بیشتر به عملیاتِ انتخاب ویژگی یا همان Feature Selection که به نظرْ مهمترین بخش عملیات داده‌کاوی و یادگیری‌ماشین است بپردازیم.

مثالی که چند درسِ قبلِ دوره‌ی جاری را با آن جلو آمدیدم را در نظر داشته بگیرید. شرکت گوگل می‌خواهد یک الگوریتم توسعه دهد که با آن بتواند بفهمد که یک ایمیلْ هرزنامه است یا خیر؟ برای این کار بایستی ویژگی‌های مختلفی را جمع آوری کند، برای مثال یکی از مجموعه ویژگی‌ها می‌تواند بردار TF-IDF باشد (که در درسی جدا به آن خواهیم پرداخت). بردار TF-IDF برداری است که از روی کلمات می‌تواند ویژگی‌های مختلف را برای یک متن بسازد (در واقع متن را تبدیل به اعداد قابل فهم برای الگوریتم کند). همان‌طور که می‌دانید محتوای اصلی یک ایمیلْ متنِ آن است. پس گوگل از متن‌های موجود در ایمیل یک مجموعه ویژگی می‌سازد. مثلا اینکه تعداد تکرار کلمه‌ی “تبلیغ” در متن یک ایمیل چقدر بوده است؟ یا تعداد تکرار کلمه “جایزه” در یک ایمیل چقدر بوده است؟ الگوریتم یادگیری‌ماشین با استفاده از این دست ویژگی‌ها می‌تواند به بفهمد یک ایمیلْ هرزنامه هست یا خیر.

ولی آیا تمامِ ویژگی‌ها برای طبقه‌بندیِ یک ایمیلْ می‌تواند صرفاً از روی متونِ آن به دست آید؟ در این مثال شاید بتوان ویژگی‌ها یا همان ابعادِ دیگری را نیز از ایمیل‌ها استخراج کرد و به الگوریتم یاد داد. مثلا اینکه IP ارسال کننده کدام است؟ یعنی ممکن است IP ارسال کننده نیز در طبقه‌بندی تاثیر داشته باشد چون برخی از ارسال کننده‌های هرزنامه (Spam) از IPهای مشخصْ ایمیل‌های هرزنامه را ارسال می‌کنند و الگوریتمِ یادگیری‌ماشین می‌تواند این IPها را در طبقه‌بندیِ ایمیل (به هرزنامه یا غیرِ هرزنامه) تاثیر دهد.

مثلا تعدادِ تصاویرِ موجود در یک ایمیل هم می‌تواند به عنوان یکی از ویژگی‌ها یا همان ابعادْ درنظر گرفته شود چون این احتمال می‌رود که تعداد تصاویر هم بتواند یکی از ویژگی‌های تاثیرگزار در هرزنامه بودن یا نبودن ایمیل باشد.

مثال اتوبوس و پراید را به یاد بیاورید (اگر نخوانده‌اید حتما بخوانید). در آن مثال دو ویژگیِ طول و ارتفاع ماشین جهت طبقه‌بندی در نظر گرفته شده بود. اگر بخواهیم ویژگی‌های دیگری به آن مسئله اضافه کنیم، چه ویژگی‌هایی می‌تواند باشد؟ کمی فکر کنید. برای مثال شاید تعداد سرنشینانِ ماشین، یکی از ویژگی‌هایی باشد که بتوان به دو ویژگی دیگر اضافه کرد و با کمک آن بتوان کیفیت طبقه‌بندی را بهبود بخشید.

در واقع با انتخاب و مهندسی ویژگی (Feature Engineering) می‌توان ویژگی‌هایی را به مسئله اضافه کرد که دقتِ عملیات داده‌کاوی (طبقه‌بندی یا خوشه‌بندی) را افزایش دهد.

این درس از مجموعه دوره مقدمات داده‌کاوی (Data Mining) و یادگیری ماشین (Machine Learning) است

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

8 دیدگاه دربارهٔ «انتخاب ویژگی (Feature Selection) چیست؟»

ابراهیم گفت:

ژوئن 17, 2018 در 9:35 ب.ظ

بیان شیوا و قابل فهم یکی از خصایص شما محقق فرهیخته هست.
خدا خیرتان دهد…

پاسخ
ناصر گفت:

اکتبر 25, 2018 در 12:28 ب.ظ

البته انتخاب موثرترین ویژگی ها جهت ورود به مدل طبقه بند از میان انبوهی از ویژگی نیز انتخاب ویژگی تلقی میشود.
با سپاس از مطلب شما بنده تصورم اینست که مطالب عنوان شده بیشتر در مورد ایجاد ویژگی باشد.
سپاس

پاسخ
بهارک گفت:

اکتبر 28, 2018 در 2:42 ب.ظ

با سلام
درس بردار TF-IDF هنوز آپلود نشده؟

پاسخ
1. مسعود کاویانی گفت:
  
  اکتبر 29, 2018 در 12:19 ق.ظ
  
  سلام و ممنون از توجه شما
  این درس در خلال درس پردازش متن خواهد بود که در آینده بر روی سایت قرار خواهد گرفت
  
  پاسخ
amir گفت:

می 13, 2019 در 6:36 ب.ظ

سلام
مهندس عالی هستی
ممنون از سایت پر محتوایی که ایجاد کردید

پاسخ
Matin گفت:

آگوست 25, 2020 در 5:46 ب.ظ

سلام
بردار کلمات مثلا glove از روی دیتاست ساخته می شود؟ یا قبلا فایل glove گرداوری شده و برای محاسبه دقت تشخیص کلمات، روی هر دیتاستی مانندآرمان و ویکی پدیا و.‌‌‌‌‌‌..اعمال می شود .

پاسخ
علیرضا امیدی نسب گفت:

جولای 22, 2021 در 3:51 ق.ظ

ببخشید یک سوال
مسلع انتخاب ویژگی
X =(x1,x2,…,xD), xj ∈ {۰,۱} (
به چه منظوذسه

پاسخ
حدادی گفت:

اکتبر 28, 2022 در 11:03 ب.ظ

سلام بسیار بیان ساده و روان مطالب تخصصی از امتیازات منحصر بفرد شما استاد بزرگوارست. بسیار عالی ارزوی بهتریتگن را برای شما دارم

پاسخ

8 دیدگاه دربارهٔ «انتخاب ویژگی (Feature Selection) چیست؟»

دیدگاهتان را بنویسید لغو پاسخ