تفاوت داده ساختاریافته (Structured) با غیرساختاریافته (Unstructured) چیست؟

مدرس: مسعود کاویانی

در بسیاری از مباحثِ داده‌کاوی، یادگیری ماشین و کلان‌داده‌ها (big data)، داده‌ها را می‌توان به دو دسته تقسیم‌بندی کرد:

۱. داده‌های ساختاریافته (structured data)
۲. داده‌های غیرساختاریافته (unstructured data)

این دو نوع داده تفاوت‌های اساسی با هم دارند و معمولاً در عملیات داده‌کاوی و یادگیری ماشین سعی بر این است که داده‌های غیرساختاریافته را به داده‌های ساختاریافته تبدیل کنند تا برای ماشین (کامپیوتر) قابل فهم باشد.

حتماً با پایگاه داده‌هایی مانند Excel یا Sql Server کار کرده‌اید. این پایگاه‌داده‌ها معمولا سعی بر این دارند که داده‌ها را برای کامپیوتر قابل فهم کنند. در واقع داده‌های ساختاریافته که در Excel یا پایگاه‌داده‌های رابطه‌ای مانندِ Sql Server داریم، داده‌هایی هستند که می‌توان بر روی آن‌ها عملیات مختلف را با الگوریتم‌های شناخته‌شده‌ی کامپیوتری انجام داد. به این صورت است که می‌گوییم داده‌ها برای ماشین قابل فهم شده است.

اما داده‌هایی مانند اخبار روزانه که به صورت متنی هستند، یا داده‌های موجود در فیلم‌ها و ویدیوهایی که در شبکه‌های اجتماعی به اشتراک گذاشته می‌شوند، با نوع قبلی فرق دارند. آن‌ها به خاطرِ تنوع، قادر به نگهداری به صورت ساختاریافته در پایگاه‌های داده نیستند (گرچه که می‌توان آن‌ها را به صورت خام در یک ستون از پایگاه‌داده ذخیره کرد). در واقع اگر کامپیوتر بتواند توسط الگوریتم‌هایی از پیش تعیین شده به سرعت داده‌ها را پردازش کند (مثلا با الگوریتم BTree می‌تواند به سرعت بر روی پایگاه‌داده رابطه‌ای مانند Sql Server جستجو کند) آن‌گاه می‌توانیم بگوییم که داده‌ها ساختاریافته‌اند. ولی داده‌هایی مانند ویدیو یا تصویر یا متن بایستی پردازش‌های اضافه‌تری بر روی آن‌ها انجام شود و زمان بیشتری می‌گیرند. این داده‌ها غیرساختاریافته شناخته می‌شوند.

برای مثال درسِ طبقه‌بندی را در دوره جاری به یاد بیاورید. در این درس یک مجموعه داده‌ی ساده را معرفی کردیم. گفتیم که یک بانک‌دار می‌خواهد با توجه به ویژگی‌های مشتری‌های گذشته یادگیری را انجام دهد و بتواند بفهمد که کدام یک از مشتری‌ها می‌توانند وام خود را پس دهد و کدامیک نمی‌تواند. شکل زیر را از همان درس نگاه کنید:

سیستم توصیه گر

این مجموعه داده یک مجموعه داده‌ی ساختاریافته است. زیرا به راحتی توسط سطر و ستون‌هایی می‌تواند در پایگاه‌داده‌هایی مانند SqlServer یا Excel ذخیره شوند. در واقع یکی از عملیاتِ مهم در داده‌کاوی تولید داده‌های ساختاریافته است به گونه‌ای که برای ماشین قابل فهم باشد.

برای مثال برای تبدیل داده‌های متنی از یک ایمیل (که غیر ساختاریافته است – چون متن است) به داده‌های ساختاریافته می‌توان از روشی به اسم Tf_IDF استفاده کرد. Tf_IDF داده‌های متنی را به داده‌های ماتریسی (جدولی) تبدیل کرده و در هر خانه از این ماتریس، یک مقدار عددی قرار می‌دهد.

تبدیلِ داده‌های غیرساختاریافته به ساختاریافته در بعضی مواقع پیچیدگی‌های خاص خود را دارد که بایستی نسبت به مسئله، عملیات تبدیل انجام شود.

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:
منابع این بحث و اطلاعات بیشتر

» وب‌سایت BrightPlanet

در صورت تمایل به یادگیری بیشتر، منابع بالا در نظر گرفته شده است. می توانید با خواندن این منابع، به یادگیری خود در این زمینه عمق ببخشید

6 دیدگاه دربارهٔ «تفاوت داده ساختاریافته (Structured) با غیرساختاریافته (Unstructured) چیست؟»

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *