همهی شما که این دوره را آغاز کردهاید حتما میدانید که داده (Data) چیست. دادهها در همهجا هستند و میتوانند از همهجا جمع آوری شوند. از دادههایی که از کاربران یک وبسایت (صفحاتی که بازدید کردهاند) جمعآوری شده تا دادههایی که توسطِ سنسورهای مختلف از سطح دریا جهتِ به دست آوردنِ میزانِ اکسیژن یا دمای آب در نقاطِ مختلفِ آب به دست میآید، همگی نمونهای از جمعآوریِ دادهها است. وقتی دادهها را جمع آوری کردید، حال نیاز دارید که با استفاده از ابزارهایی بر روی آنها عملیاتِ مختلفی انجام دهید تا بتوانید دانش و مفهوم را از آن استخراج کنید.
در واقع اگر بخواهیم مبحث را سادهسازی کنیم، هدفِ اصلی از Big Data در دو مرحله خلاصه میشود:
۱. جمع آوری دادهها از منابعِ مختلفِ دادهای
۲. پردازشِ آنها و انجام یک سری عملیاتِ مختلف بر روی دادهها
فرقی نمیکند چه نامی بر روی آن بگذاریم. مهداده، کلانداده یا Big Data. در حال حاضر که در عصر اطلاعات زندگی میکنیم با اتصال به شبکهی تلفن همراه در واقع در حالِ تولیدِ داده هستیم. وقتی وارد یک پیام رسان میشویم، حتی اگر مطلبی را تولید نکنیم، دادهای تولید کردهایم. برای مثال یک پیامرسان میتواند این اطلاعات را که شما کدام محتوا را مشاهده کردید ذخیره کند و این خودْ نوعی تولیدِ داده است.
اجازه بدهید یک مثالِ کاربردی را دنبال کنیم. فرض کنید در یک کلینیکِ پزشکی هستید و میخواهید با توجه به دادههای مختلف در مورد یک شخص تصمیم بگیرید که آیا این شخص احتمالِ ابتلا به بیماریای مانند قند خون را دارد یا خیر. برای اینکار میتوانید از دادههای مختلفی در مورد این شخص استفاده کنید. برای مثال سابقهی داروهایی که بیمار مصرف کرده است (دادههای متنی)، عکسِ سونوگرافی بیمار (داده تصویری)، یک مصاحبهی کوچک با بیمار (داده صوتی) و… که تمام اینها پس از جمعآوری نیاز به پردازش (Processing) دارند. برای این کار سابقهای از اشخاصِ دیگر را جمع آوری کردهاید و یک مجموعه داده (Data Set) از قبل آماده کردهاید و سابقهی ابتلای آن اشخاص دیگر به بیماری دیابت را هم دارید که آیا آنها قبل از مرگ دیابت داشتهاند یا خیر. حال با توجه به دادههای افرادِ دیگر، احتمالاً میتوانید در موردِ اینکه یک شخصِ جدید به دیابت مبتلا میشود یا خیر صحبت کنید. (اگر هنوز متوجه نشدهاید دقیقا چه اتفاقی افتاد نگاهی به درس طبقهبندی بیندازید).
تا اینجا فهمیدیم که باید دادهها را جمعآوری کنیم و بر روی آنها یک سری عملیاتِ پردازشی انجام دهیم. بعد از آن به ابزارها و تکنیکها میرسیم. اینکه دقیقاً چه ابزارهایی برای توسعه Big Data مورد نیاز است کاملا به پروژهی مورِد کاربرد بستگی دارد، ولی به طور کلی میتوان دستهبندیِ زیر را برای ابزارها و تکنیکهای مورد استفاده در پروژههای Big Data مورد استفاده دانست:
۱. تغییرات و آنالیز اولیه دادهها برای انجام عملیات مختلف:
دادهها برای انجامِ عملیاتِ مختلف نیاز به تغییر دارند. شاید گاهی هم نیاز باشد یک سری آنالیزِ سادهی اولیه بر روی دادهها انجام شود. دادههای خامی که در پایگاههای داده ذخیره شدهاند و یا در فایلهای متنی یا تصویری قرار دارند نیازمند تغییرات هستند و ممکن است در نگاه اول با یک سری تحلیل (Analysis) اولیه بتوان ارتباطاتی بین دادهها کشف کرد. این کار به درکِ صحیحتر از دادهها نیز کمک میکند.
۲. دادهکاوی
در دوره دادهکاوی به صورت کاملتر به این موضوع پراخته ایم. در واقع پیدا کردن الگوهایی در بین دادهها از وظایف دادهکاوی است.
۳. یادگیری ماشین
در درس یادگیری ماشین میتوانید اطلاعات بیشتری در این مورد کشف کنید. در یادگیریماشین، کامپیوتر با توجه به الگوهای موجود در دادهها، عملیاتِ یادگیری را انجام میدهد و میتواند پیشبینیهایی بر روی دادههای جدید انجام دهد. مثلا از روی دادههای بیماران گذشته، پیشبینی کند که یک فردِ سالمِ جدید احتمالاً در چند سال آینده مبتلا به دیابت میشود (و اینکار باعث شروع عملیات پیشگیری از دیابت در آن فرد شود)
۴. نمایش دادهها
یک قسمتِ بسیار مورد در بحث Big Data، بحث نمایش دادهها (Data Visualization) است. دادهها را میتوان با انواع نمودارها نمایش داد تا هر چه راحتتر قابل تفسیر توسط انسانها شوند. این دادههایی که توسط ابزارهای نمایشِ داده به تصویر کشیده میشوند میتواند در یک سازمان یا یک کشور در تصمیمگیریهای کلان مورد استفاده قرار بگیرند. داشبوردهای مدیریتی (Business Dashboards) یکی از انواع این ابزارها هستند.
۵. آمادهسازی دادهها برای انجام عملیات بعدی
دادهها ممکن است خراب باشند، دارای کاستیهایی باشند و یا اصلاً غلط باشند. برای مثال اطلاعاتی که یک بیمار به بیمارستان داده است به دلایل مختلف غلط باشد یا برخی از اطلاعات از یک شخص در دسترس نباشند. با استفاده از تکنیکهای آمادهسازیِ دادهها نیاز است تا داده به شکل مناسب جهت عملیات بَعدی (مثلا دادهکاوی یا نمایش دادهها) تبدیل شود.
تا اینجا یک مقدمه ساده را از کلانداده در اختیار شما قرار دادیم. در دروس بعدی بیشتر با کاربردها و مفاهیم و تکنیکهای Big Data آشنا خواهیم شد.
- ۱ » مقدمهای درباره مهداده یا همان کلان داده (Big Data)
- ۲ » کاربرد کلانداده (Big Data) در پزشکی و بیماری
- ۳ » چرا باید کلانداده (Big Data) را جدی بگیریم؟
- ۴ » ابزار صفحه گسترده و اکسل (Excel) در پردازش دادهها
- ۵ » داشبورد مدیریتی Tableau ابزاری برای تحلیل دادهها
- ۶ » کاربرد SQL در تحلیل داده و کلانداده
- ۷ » زبان Python و کاربرد آن در تحلیل داده و کلانداده
- ۸ » کاربرد زبان R در تحلیل داده و کلانداده