ویژگی (Feature) یا همان بُعد (Dimension) در داده‌کاوی چیست؟

مدرس: مسعود کاویانی

ویژگی (Feature) یا بُعد (Dimension) در واقع پایه‌ی بسیاری از عملیاتِ داده‌کاوی و یادگیری‌ماشین است. در این درس می‌خواهیم این مفاهیمِ ساده را با یکدیگر مرور کنیم تا در ادامه راه، بتوانیم ادبیاتِ مشترکی در حوزه داده‌کاوی و یادگیری‌ماشین داشته باشیم.

فرض کنید شما یک مجموعه‌ی داده را در اختیار دارید که می‌خواهد تفاوتِ بین اتوبوس و پراید را بر حسب دو ویژگیِ طول  و ارتفاع  درک کند. مثال را خیلی ساده در نظر بگیرید. ما یک سری ماشین داریم که از هر کدام از آن‌ها فقط دو ویژگی را در نظر گرفته‌ایم. جدول زیر نشان دهنده‌ی همین موضوعات است:

ویژگی ابعاد در داده‌کاوی

همان‌طور که مشاهده می‌کنید، ۷ عدد ماشین، دو ویژگی دارند. ویژگیِ اول طول و ویژگیِ دوم ارتفاع است. حال همین دو ویژگی را می‌توان بر روی محور مختصاتِ دو بعدی نمایش داد. مانند شکل زیر:

ویژگی در داده‌کاوی

محورِ افقی بیانگر طول و محور عمودی بیانگر ارتفاع اتومبیل می باشد. همان‌طور که می‌بینید، نمونه‌ی اول که دارای طولِ ۷ و ارتفاعِ ۴ است بر روی محورِ مختصات نمایش داده شده است، و بقیه‌ی اتومبیل‌ها هم به همین ترتیب.

در واقع ما دو ویژگی داریم که به هر کدام از آن‌ها یک بُعد نیز گفته می‌شود. پس مجموعه داده‌های فعلی ما دو بُعدی است.

ممکن است داده‌ها برای مثال ۳ ویژگی داشته باشند که آنوقت می‌توانیم آن ها را در یک فضای ۳بعدی رسم کنیم. داده‌هایی با بیشتر از ۳ ویژگی نیز بسیار متداول هستند که رسمِ آن ها سخت‌تر است ولی در ذهن می‌توانید آن ها تصور کنید. برای مثال یک مجموعه داده می‌تواند ۱۰۰۰بُعدی باشد. یعنی دارای ۱۰۰۰ ویژگی باشد.

ویژگی‌ها و بُعد‌ها در مسايل داده‌کاوی و یادگیری ماشین بسیار مهم هستند و در واقع پایه‌ی بسیاری از عملیات داده‌کاوی و یادگیری ماشین به حساب می‌آیند.

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

18 دیدگاه دربارهٔ «ویژگی (Feature) یا همان بُعد (Dimension) در داده‌کاوی چیست؟»

  1. سلام. از بخش اول دنبال کردم تا اینجا. خیلییییییی هالی بود و از اینکه با مثال میگفتید خیلی لذت بردم. ماشاالله به این فن بیان گویا. مطالب به اعماق وجودم نشست.

  2. سلام. با تشکر از آموزش خوبتون من از اول درس ها رو مطالعه کردم. سوالی که دارم اینه که در ایران چطور میشه از بحث داده کاوی کسب درآمد کرد؟ شرکت های ایرانی چقدر به دنبال چنین تحلیل هایی هستند؟

    1. با سلام
      شرکت‌های ایرانی آرام آرام به این سمت در حال حرکت هستند. بسیاری از بانک‌ها، بیمه‌ها، بورس و شرکت‌ها و استارتاپ‌های بزرگ در حال حاضر عنوان شغلی‌هایی مانند Data Scientist یا Data Analyzer دارند که در این قسمت‌ها عملیات داده‌کاوی بر روی داده‌ها را انجام می‌دهند.

  3. سلام ممنون از سایت خوبتون ممکنه در مورد انواع الگوریتم های classification learner صحبت کنید؟؟ مثل انواع طبقه بندی knn,ensemble,svm منظورم اینه fine knn,weigth knn,coarse knn, subspace knn,………….

  4. سلام. مطالب را خیلی خوب با مثال بیان می کنید. در عمق ذهن می نشیند.
    باتشکر فراوان و امید بهروزی

  5. قسمت دوبعدي خوب توضيح داده شد سه بعدي را هم ميتوان فهميد اما از سه بعد بيشتر هيچ توضيحي داده نشد .
    با ۱۰ ويژگي رسم شکل آن غير ممکن است به نظرم بايد بيشتر توضيح داده شود که با ۳ بعد بيشتر چگونه بايد شکل داده ها رسم کرد

  6. سلام، روز بخیر
    به فرض اگر ما تعداد ۲۰۰ عدد شاخص داشته باشیم، مرتبط با زنجیره تامین، به طور مثال قدرت مالی، نیروی کار چند مهارته، سرعت پاسخ، تعداد گواهی های کیفی و… که هر کدام از اینها به یکی از پارادایم های تاب اوری، چابکی، ناب و سبز متعلق هستند.
    حال اگر بخوایم از بین این ۲۰۰ شاخص ارزیابی، حداکثر تعداد ۱۵ عدد را اتتخاب کنیم، به عنوان ورودی چه چیزی باید برای مدل تعریف کنیم که خروجی ما ۱۵ شاخص مهم باشد؟
    منظور بنده این هست که در مدل های نظارت شده، مثلا در مثال معروف گل زنبق به عنوان داده امورش تعدادی داده به مدل میدهیم تا مدل متوجه شود که کدام مشخصات برای چه نوع گلی است، تا در انتها با توانایی تشخیص انواع مختلف گل زنبق را داشته باشد. حال در اینجا، چه چیزی باید تعریف کرد که مدل متوجه شود ما به دنبال چه چیزی هستیم؟

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *