مقدمه‌ای درباره مه‌داده یا همان کلان داده (Big Data)

مدرس: مسعود کاویانی

همه‌ی شما که این دوره را آغاز کرده‌اید حتما می‌دانید که داده (Data) چیست. داده‌ها در همه‌جا هستند و می‌توانند از همه‌جا جمع آوری شوند. از داده‌هایی که از کاربران یک وب‌سایت (صفحاتی که بازدید کرده‌اند) جمع‌آوری شده تا داده‌هایی که توسطِ سنسورهای مختلف از سطح دریا جهتِ به دست آوردنِ میزانِ اکسیژن یا دمای آب در نقاطِ مختلفِ آب به دست می‌آید، همگی نمونه‌ای از جمع‌آوریِ داده‌ها است. وقتی داده‌ها را جمع آوری کردید، حال نیاز دارید که با استفاده از ابزارهایی بر روی آن‌ها عملیاتِ مختلفی انجام دهید تا بتوانید دانش و مفهوم را از آن استخراج کنید.

در واقع اگر بخواهیم مبحث را ساده‌سازی کنیم، هدفِ اصلی از Big Data در دو مرحله خلاصه می‌شود:

۱. جمع آوری داده‌ها از منابعِ مختلفِ داده‌ای
۲. پردازشِ آن‌ها و انجام یک سری عملیاتِ مختلف بر روی داده‌ها

فرقی نمی‌کند چه نامی بر روی آن بگذاریم. مه‌داده، کلان‌داده یا Big Data. در حال حاضر که در عصر اطلاعات زندگی می‌کنیم با اتصال به شبکه‌ی تلفن همراه در واقع در حالِ تولیدِ داده هستیم. وقتی وارد یک پیام رسان می‌شویم، حتی اگر مطلبی را تولید نکنیم، داده‌ای تولید کرده‌ایم. برای مثال یک پیام‌رسان می‌تواند این اطلاعات را که شما کدام محتوا را مشاهده کردید ذخیره کند و این خودْ نوعی تولیدِ داده است.

اجازه بدهید یک مثالِ کاربردی را دنبال کنیم. فرض کنید در یک کلینیکِ پزشکی هستید و می‌خواهید با توجه به داده‌های مختلف در مورد یک شخص تصمیم بگیرید که آیا این شخص احتمالِ ابتلا به بیماری‌ای مانند قند خون را دارد یا خیر. برای این‌کار می‌توانید از داده‌های مختلفی در مورد این شخص استفاده کنید. برای مثال سابقه‌ی داروهایی که بیمار مصرف کرده است (داده‌های متنی)، عکسِ سونوگرافی بیمار (داده تصویری)، یک مصاحبه‌ی کوچک با بیمار (داده صوتی) و… که تمام این‌ها پس از جمع‌آوری نیاز به پردازش (Processing) دارند. برای این کار سابقه‌ای از اشخاصِ دیگر را جمع آوری کرده‌اید و یک مجموعه داده (Data Set) از قبل آماده کرده‌اید و سابقه‌ی ابتلای آن اشخاص دیگر به بیماری دیابت را هم دارید که آیا آن‌ها قبل از مرگ دیابت داشته‌اند یا خیر. حال با توجه به داده‌های افرادِ دیگر، احتمالاً می‌توانید در موردِ این‌که یک شخصِ جدید به دیابت مبتلا می‌شود یا خیر صحبت کنید. (اگر هنوز متوجه نشده‌اید دقیقا چه اتفاقی افتاد نگاهی به درس طبقه‌بندی بیندازید).

تا این‌جا فهمیدیم که باید داده‌ها را جمع‌آوری کنیم و بر روی آن‌ها یک سری عملیاتِ پردازشی انجام دهیم. بعد از آن به ابزارها و تکنیک‌ها می‌رسیم. اینکه دقیقاً چه ابزارهایی برای توسعه Big Data مورد نیاز است کاملا به پروژه‌ی مورِد کاربرد بستگی دارد، ولی به طور کلی می‌توان دسته‌بندیِ زیر را برای ابزارها و تکنیک‌های مورد استفاده در پروژه‌های Big Data مورد استفاده دانست:

۱. تغییرات و آنالیز اولیه داده‌ها برای انجام عملیات مختلف:
داده‌ها برای انجامِ عملیاتِ مختلف نیاز به تغییر دارند. شاید گاهی هم نیاز باشد یک سری آنالیزِ ساده‌ی اولیه بر روی داده‌ها انجام شود. داده‌های خامی که در پایگاه‌های داده ذخیره شده‌اند و یا در فایل‌های متنی یا تصویری قرار دارند نیازمند تغییرات هستند و ممکن است در نگاه اول با یک سری تحلیل (Analysis) اولیه بتوان ارتباطاتی بین داده‌ها کشف کرد. این کار به درکِ صحیح‌تر از داده‌ها نیز کمک می‌کند.

۲. داده‌کاوی
در دوره داده‌کاوی به صورت کامل‌تر به این موضوع پراخته ایم. در واقع پیدا کردن الگوهایی در بین داده‌ها از وظایف داده‌کاوی است.

۳. یادگیری ماشین
در درس یادگیری ماشین می‌توانید اطلاعات بیشتری در این مورد کشف کنید. در یادگیری‌ماشین، کامپیوتر با توجه به الگو‌های موجود در داده‌ها، عملیاتِ یادگیری را انجام می‌دهد و می‌تواند پیش‌بینی‌هایی بر روی داده‌های جدید انجام دهد. مثلا از روی داده‌های بیماران گذشته، پیش‌بینی کند که یک فردِ سالمِ جدید احتمالاً در چند سال آینده مبتلا به دیابت می‌شود (و این‌کار باعث شروع عملیات پیش‌گیری از دیابت در آن فرد شود)

۴. نمایش داده‌ها
یک قسمتِ بسیار مورد در بحث Big Data، بحث نمایش داده‌ها (Data Visualization) است. داده‌ها را می‌توان با انواع نمودار‌ها نمایش داد تا هر چه راحت‌تر قابل تفسیر توسط انسان‌ها شوند. این داده‌هایی که توسط ابزارهای نمایشِ داده به تصویر کشیده می‌شوند می‌تواند در یک سازمان یا یک کشور در تصمیم‌گیری‌های کلان مورد استفاده قرار بگیرند. داشبورد‌های مدیریتی (Business Dashboards) یکی از انواع این ابزارها هستند.

۵. آماده‌سازی داده‌ها برای انجام عملیات بعدی
داده‌ها ممکن است خراب باشند، دارای کاستی‌هایی باشند و یا اصلاً غلط باشند. برای مثال اطلاعاتی که یک بیمار به بیمارستان داده است به دلایل مختلف غلط باشد یا برخی از اطلاعات از یک شخص در دسترس نباشند. با استفاده از تکنیک‌های آماده‌سازیِ داده‌ها نیاز است تا داده به شکل مناسب جهت عملیات بَعدی (مثلا داده‌کاوی یا نمایش داده‌ها) تبدیل شود.

تا این‌جا یک مقدمه ساده را از کلان‌داده در اختیار شما قرار دادیم. در دروس بعدی بیشتر با کاربرد‌ها و مفاهیم و تکنیک‌های Big Data آشنا خواهیم شد.

منابع این بحث و اطلاعات بیشتر

» دوره Big Data دانشگاه استنفورد

» وب‌سایت Forbes

در صورت تمایل به یادگیری بیشتر، منابع بالا در نظر گرفته شده است. می توانید با خواندن این منابع، به یادگیری خود در این زمینه عمق ببخشید

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *