در بسیاری از مباحثِ دادهکاوی، یادگیری ماشین و کلاندادهها (big data)، دادهها را میتوان به دو دسته تقسیمبندی کرد:
۱. دادههای ساختاریافته (structured data)
۲. دادههای غیرساختاریافته (unstructured data)
این دو نوع داده تفاوتهای اساسی با هم دارند و معمولاً در عملیات دادهکاوی و یادگیری ماشین سعی بر این است که دادههای غیرساختاریافته را به دادههای ساختاریافته تبدیل کنند تا برای ماشین (کامپیوتر) قابل فهم باشد.
حتماً با پایگاه دادههایی مانند Excel یا Sql Server کار کردهاید. این پایگاهدادهها معمولا سعی بر این دارند که دادهها را برای کامپیوتر قابل فهم کنند. در واقع دادههای ساختاریافته که در Excel یا پایگاهدادههای رابطهای مانندِ Sql Server داریم، دادههایی هستند که میتوان بر روی آنها عملیات مختلف را با الگوریتمهای شناختهشدهی کامپیوتری انجام داد. به این صورت است که میگوییم دادهها برای ماشین قابل فهم شده است.
اما دادههایی مانند اخبار روزانه که به صورت متنی هستند، یا دادههای موجود در فیلمها و ویدیوهایی که در شبکههای اجتماعی به اشتراک گذاشته میشوند، با نوع قبلی فرق دارند. آنها به خاطرِ تنوع، قادر به نگهداری به صورت ساختاریافته در پایگاههای داده نیستند (گرچه که میتوان آنها را به صورت خام در یک ستون از پایگاهداده ذخیره کرد). در واقع اگر کامپیوتر بتواند توسط الگوریتمهایی از پیش تعیین شده به سرعت دادهها را پردازش کند (مثلا با الگوریتم BTree میتواند به سرعت بر روی پایگاهداده رابطهای مانند Sql Server جستجو کند) آنگاه میتوانیم بگوییم که دادهها ساختاریافتهاند. ولی دادههایی مانند ویدیو یا تصویر یا متن بایستی پردازشهای اضافهتری بر روی آنها انجام شود و زمان بیشتری میگیرند. این دادهها غیرساختاریافته شناخته میشوند.
برای مثال درسِ طبقهبندی را در دوره جاری به یاد بیاورید. در این درس یک مجموعه دادهی ساده را معرفی کردیم. گفتیم که یک بانکدار میخواهد با توجه به ویژگیهای مشتریهای گذشته یادگیری را انجام دهد و بتواند بفهمد که کدام یک از مشتریها میتوانند وام خود را پس دهد و کدامیک نمیتواند. شکل زیر را از همان درس نگاه کنید:
این مجموعه داده یک مجموعه دادهی ساختاریافته است. زیرا به راحتی توسط سطر و ستونهایی میتواند در پایگاهدادههایی مانند SqlServer یا Excel ذخیره شوند. در واقع یکی از عملیاتِ مهم در دادهکاوی تولید دادههای ساختاریافته است به گونهای که برای ماشین قابل فهم باشد.
برای مثال برای تبدیل دادههای متنی از یک ایمیل (که غیر ساختاریافته است – چون متن است) به دادههای ساختاریافته میتوان از روشی به اسم Tf_IDF استفاده کرد. Tf_IDF دادههای متنی را به دادههای ماتریسی (جدولی) تبدیل کرده و در هر خانه از این ماتریس، یک مقدار عددی قرار میدهد.
تبدیلِ دادههای غیرساختاریافته به ساختاریافته در بعضی مواقع پیچیدگیهای خاص خود را دارد که بایستی نسبت به مسئله، عملیات تبدیل انجام شود.
- ۱ » دادهکاوی (Data mining) چیست؟
- ۲ » یادگیری ماشین (Machine Learning) چیست؟
- ۳ » تفاوت هوش مصنوعی، یادگیری ماشین، دادهکاوی، یادگیری عمیق و علم داده
- ۴ » طبقهبندی (Classification) چیست؟
- ۵ » خوشهبندی (Clustering) چیست؟
- ۶ » تفاوت طبقهبندی (Classification) و خوشهبندی (Clustering)
- ۷ » منظور از دادههای آموزشی (Training Sets) در طبقهبندی چیست؟
- ۸ » سیستم توصیه گر (Recommendation System) چیست؟
- ۹ » کاربرد دادهکاوی و یادگیری ماشین در پردازش متن (Text Processing)
- ۱۰ » معرفی چند نرم افزار کاربردی برای عملیات دادهکاوی
- ۱۱ » ویژگی (Feature) یا همان بُعد (Dimension) در دادهکاوی چیست؟
- ۱۲ » بررسی چند الگوریتم یادگیری ماشین (Machine Learning)
- ۱۳ » یادگیری دستهای (Batch Learning) و یادگیری برخط (Online Learning)
- ۱۴ » یادگیری فعال (Active Learning) در یادگیری ماشین
- ۱۵ » انتخاب ویژگی (Feature Selection) چیست؟
- ۱۶ » تفاوت داده ساختاریافته (Structured) با غیرساختاریافته (Unstructured) چیست؟
- ۱۷ » منظور از متغیر وابسته (Dependent) و مستقل (Independent)
- ۱۸ » مجموعه دادههایی با ابعاد زیاد (High Dimensional)
- ۱۹ » مجموعه دادهی نامتوازن (Imbalance) چیست؟
- ۲۰ » فرآیند کریسپ (CRISP) جهت انجام پروژههای دادهکاوی
- ۲۱ » رانش یا گذار در دادهها (Data Drift)
ممنون میشم آموزش نرم افزار داده کاوی وکا را قرار بدهید.
سلام
از زمانی که گذاشتید و این مطالب رو بصورت ساده و شیوا بیان کردید سپاسگزارم
ارادت
سلام
از بيان شيوا و مختصر شما کمال تشکر را دارم. موفق باشيد
ممنون بابت توضیحات
ﺗﻮﺿﻴﺤﺎﺕ ﻋﺎﻟﻲ
بسیار کامل و قابل فهم