ویژگی (Feature) یا بُعد (Dimension) در واقع پایهی بسیاری از عملیاتِ دادهکاوی و یادگیریماشین است. در این درس میخواهیم این مفاهیمِ ساده را با یکدیگر مرور کنیم تا در ادامه راه، بتوانیم ادبیاتِ مشترکی در حوزه دادهکاوی و یادگیریماشین داشته باشیم.
فرض کنید شما یک مجموعهی داده را در اختیار دارید که میخواهد تفاوتِ بین اتوبوس و پراید را بر حسب دو ویژگیِ طول و ارتفاع درک کند. مثال را خیلی ساده در نظر بگیرید. ما یک سری ماشین داریم که از هر کدام از آنها فقط دو ویژگی را در نظر گرفتهایم. جدول زیر نشان دهندهی همین موضوعات است:
همانطور که مشاهده میکنید، ۷ عدد ماشین، دو ویژگی دارند. ویژگیِ اول طول و ویژگیِ دوم ارتفاع است. حال همین دو ویژگی را میتوان بر روی محور مختصاتِ دو بعدی نمایش داد. مانند شکل زیر:
محورِ افقی بیانگر طول و محور عمودی بیانگر ارتفاع اتومبیل می باشد. همانطور که میبینید، نمونهی اول که دارای طولِ ۷ و ارتفاعِ ۴ است بر روی محورِ مختصات نمایش داده شده است، و بقیهی اتومبیلها هم به همین ترتیب.
در واقع ما دو ویژگی داریم که به هر کدام از آنها یک بُعد نیز گفته میشود. پس مجموعه دادههای فعلی ما دو بُعدی است.
ممکن است دادهها برای مثال ۳ ویژگی داشته باشند که آنوقت میتوانیم آن ها را در یک فضای ۳بعدی رسم کنیم. دادههایی با بیشتر از ۳ ویژگی نیز بسیار متداول هستند که رسمِ آن ها سختتر است ولی در ذهن میتوانید آن ها تصور کنید. برای مثال یک مجموعه داده میتواند ۱۰۰۰بُعدی باشد. یعنی دارای ۱۰۰۰ ویژگی باشد.
ویژگیها و بُعدها در مسايل دادهکاوی و یادگیری ماشین بسیار مهم هستند و در واقع پایهی بسیاری از عملیات دادهکاوی و یادگیری ماشین به حساب میآیند.
- ۱ » دادهکاوی (Data mining) چیست؟
- ۲ » یادگیری ماشین (Machine Learning) چیست؟
- ۳ » تفاوت هوش مصنوعی، یادگیری ماشین، دادهکاوی، یادگیری عمیق و علم داده
- ۴ » طبقهبندی (Classification) چیست؟
- ۵ » خوشهبندی (Clustering) چیست؟
- ۶ » تفاوت طبقهبندی (Classification) و خوشهبندی (Clustering)
- ۷ » منظور از دادههای آموزشی (Training Sets) در طبقهبندی چیست؟
- ۸ » سیستم توصیه گر (Recommendation System) چیست؟
- ۹ » کاربرد دادهکاوی و یادگیری ماشین در پردازش متن (Text Processing)
- ۱۰ » معرفی چند نرم افزار کاربردی برای عملیات دادهکاوی
- ۱۱ » ویژگی (Feature) یا همان بُعد (Dimension) در دادهکاوی چیست؟
- ۱۲ » بررسی چند الگوریتم یادگیری ماشین (Machine Learning)
- ۱۳ » یادگیری دستهای (Batch Learning) و یادگیری برخط (Online Learning)
- ۱۴ » یادگیری فعال (Active Learning) در یادگیری ماشین
- ۱۵ » انتخاب ویژگی (Feature Selection) چیست؟
- ۱۶ » تفاوت داده ساختاریافته (Structured) با غیرساختاریافته (Unstructured) چیست؟
- ۱۷ » منظور از متغیر وابسته (Dependent) و مستقل (Independent)
- ۱۸ » مجموعه دادههایی با ابعاد زیاد (High Dimensional)
- ۱۹ » مجموعه دادهی نامتوازن (Imbalance) چیست؟
- ۲۰ » فرآیند کریسپ (CRISP) جهت انجام پروژههای دادهکاوی
- ۲۱ » رانش یا گذار در دادهها (Data Drift)
سلام مطالب عالی هستند فقط کاش svm و svmچندکلاسه رو هم توضیح میدادین
سلام. از بخش اول دنبال کردم تا اینجا. خیلییییییی هالی بود و از اینکه با مثال میگفتید خیلی لذت بردم. ماشاالله به این فن بیان گویا. مطالب به اعماق وجودم نشست.
سلام. با تشکر از آموزش خوبتون من از اول درس ها رو مطالعه کردم. سوالی که دارم اینه که در ایران چطور میشه از بحث داده کاوی کسب درآمد کرد؟ شرکت های ایرانی چقدر به دنبال چنین تحلیل هایی هستند؟
با سلام
شرکتهای ایرانی آرام آرام به این سمت در حال حرکت هستند. بسیاری از بانکها، بیمهها، بورس و شرکتها و استارتاپهای بزرگ در حال حاضر عنوان شغلیهایی مانند Data Scientist یا Data Analyzer دارند که در این قسمتها عملیات دادهکاوی بر روی دادهها را انجام میدهند.
سلام ممنون از سایت خوبتون ممکنه در مورد انواع الگوریتم های classification learner صحبت کنید؟؟ مثل انواع طبقه بندی knn,ensemble,svm منظورم اینه fine knn,weigth knn,coarse knn, subspace knn,………….
با سلام
ممنون از توجهتون. در دورههای رایگان، دورهای با عنوان “طبقه بندی” قرار دادهایم که به این الگوریتمها با جزئیات بیشتر پرداختهایم
سلام.وبسایتتون خیلی خوب و مفیده.به کارتون ادامه بدین
سلام. مطالب را خیلی خوب با مثال بیان می کنید. در عمق ذهن می نشیند.
باتشکر فراوان و امید بهروزی
سلام.خواستم بابت وبسایت خوبتون ازتون تشکر کنم و امیدوارم باعث ایجاد انگیزه براتون بشه
اقا خیلی وبسایتتون عالیه
سلام.وبسایتتون خیلی خوب و مفیده.به کارتون
ادامه بدین
قسمت دوبعدي خوب توضيح داده شد سه بعدي را هم ميتوان فهميد اما از سه بعد بيشتر هيچ توضيحي داده نشد .
با ۱۰ ويژگي رسم شکل آن غير ممکن است به نظرم بايد بيشتر توضيح داده شود که با ۳ بعد بيشتر چگونه بايد شکل داده ها رسم کرد
سلام.واقعا وبسایت خوبی دارید
سلام.خواستم بابت وبسایت خوبتون ازتون تشکر کنم و امیدوارم باعث ایجاد انگیزه براتون بشه
عاشق این وبسایت شدم من.عالی هستید شما
ممنون از مطالب مفید و بیان ساده تون.
سلام، روز بخیر
به فرض اگر ما تعداد ۲۰۰ عدد شاخص داشته باشیم، مرتبط با زنجیره تامین، به طور مثال قدرت مالی، نیروی کار چند مهارته، سرعت پاسخ، تعداد گواهی های کیفی و… که هر کدام از اینها به یکی از پارادایم های تاب اوری، چابکی، ناب و سبز متعلق هستند.
حال اگر بخوایم از بین این ۲۰۰ شاخص ارزیابی، حداکثر تعداد ۱۵ عدد را اتتخاب کنیم، به عنوان ورودی چه چیزی باید برای مدل تعریف کنیم که خروجی ما ۱۵ شاخص مهم باشد؟
منظور بنده این هست که در مدل های نظارت شده، مثلا در مثال معروف گل زنبق به عنوان داده امورش تعدادی داده به مدل میدهیم تا مدل متوجه شود که کدام مشخصات برای چه نوع گلی است، تا در انتها با توانایی تشخیص انواع مختلف گل زنبق را داشته باشد. حال در اینجا، چه چیزی باید تعریف کرد که مدل متوجه شود ما به دنبال چه چیزی هستیم؟
کوتاه و عالی