معماری و نوع پرس و جوها (Queries) در جریان داده‌ها | چیستیو

این درس از مجموعه دوره پردازش جریان داده‌ها (Data Stream Processing) و کاربرد‌های آن است

درس قبلی - پردازش جریان داده‌ها (Data Stream Processing) چیست؟

پیش نیاز این درس:

مدرس: مسعود کاویانی

در درس گذشته به این موضوع پرداخته شد که جریان داده‌ها چیست. در این درس می‌خواهیم ببینیم که چه نوع درخواست‌ها و پرس و جو‌هایی را می‌توان توسط الگوریتم‌ها و روش‌های جریان داده‌ها انجام داد. در واقع الگوریتم‌های جریان داده‌ای دو نوع پرس و جو یا همان Query را می‌توانند پاسخ دهند. پرس و جوهای مستقل که به آن‌ها پرس و جوهای Standalone می‌گویند و پرس و جوهای ad-hoc (که میتوان آن‌ها را خودمختار ترجمه کرد).

این شکل قسمت‌های مختلفی دارد. در این درس به دو نوع مختلف پرس و جوها (Standalone و ad-hoc) می‌پردازیم. گفتیم که دو نوع پرس و جو در بحث جریان داده‌ها داریم. اجازه بدهید با یک مثال این درس را جلو ببریم. اگر درس قبل را خوانده باشید، یک مثال درباره اقیانوس‌ها داشتیم. فرض کنید ما ۱میلیون حسگر یا همان Sensor مختلف در دریا قرار داده ایم و این حسگرها هر کدام در هر ثانیه ۱۰مرتبه دمای آب منطقه خود را برای ما ارسال می‌کنند. ما می‌خواهیم بیشترین دمای ثبت شده در اقیانوس را داشته باشیم. خوب این کار ساده به نظر می‌رسد. اولین بار که یک حسگر دمای خود را فرستاد، این عدد ذخیره می‌شود و هر بار که حسگر‌ها یک دمای جدیدتر فرستاد، این دما با دمای دمای ذخیره شده مقایسه می‌شود و اگر دمای جدید بیشتر بود، جایگزین دمای قبلی می‌شود. به این صورت همیشه بیشترین دما ذخیره می‌شود و یک کاربر با مشاهده این مقدار ذخیره شده، می‌تواند بفهمد که بیشترین دما چقدر بوده است. یا فرض کنید می‌خواهید میانگین دماهای ارسال شده را در سطح اقیانوس محاسبه کنید. برای این کار بایستی تعداد دماهای ارسال شده و همچنین جمع آن‌ها را داشته باشید. پس برای این کار به دو متغیر احتیاج داریم، n تعداد دماهای دریافت شده تا الان است و s که جمع دماهای دریافت شده تا الان. هر بار که داده‌ی جدید رسید متغیر n یکی اضافه می‌شود و متغیر s نیز به اندازه دمای ارسال شده اضافه می‌شود. به همین ترتیب هر بار که میانگین دما را خواستیم، n را تقسیم بر s میکنیم و سریعا به کاربر نمایش می‌دهیم. مشاهده می‌کنید که در واقع ما یک خلاصه‌ای از داده ها را جهت انجام یک سری پرس و جو خاص (مثلا همین میانگین کل دما) ذخیره می‌کنیم.

مثال‌های گفته شده تا حالا یک سری مثال از پرس و جوهای مستقل (Standalone) بود. این پرس و جو‌ها به سرعت و همیشه قابل اجرا بوده و می‌توان پاسخ آن‌ها را سریع دریافت کرد. این در حالی است که نوع دیگری از پرس و جو‌ها وجود دارد که داده‌ها باید برای پاسخ به آن‌ها آماده شوند. این دست از پرس و جوها درباره وضعیت فعلی داده‌ها هستند و به آن‌ها پرس و جوهای خودمختار یا ad-hoc گفته می‌شود.. برای مثال فرض کنید یک وب‌سایت موتور جستجو دارید هر کاربر در روز چندین عبارت را در آن جستجو می‌کند. یک پرس و جوی ad-hoc می‌تواند این باشد که عبارات یکتا همراه با تعداد تکرار آن‌ها که در بازه‌ی زمانی یک ماه اخیر جستجو شدند، کدام‌ها بوده‌اند؟ برای این کار احتمالا بایستی یک حجم عظیمی از داده‌ها ذخیره شود تا بتوان به این دست از پرس و جو‌ها پاسخ داد. یکی از تکنیک‌هایی که در بسیاری از الگوریتم‌های این حوزه مشاهده می‌شود را می‌توان این دانست که یک sliding window بایستی برای داده‌ها داشته باشیم. به این معنی که داده‌های در جریان را در یک سری بازه زمانی ذخیره کرده تا بتوانیم به این دست از پرس و جوها پاسخ دهیم. برای همین مثال بالا، می‌توان پرس و جوها را در یک بازه زمانی t، یک ماهه ذخیره کرد و هر بار که داده‌ی جدید آمد، از آخر داده‌ها (یعنی آن‌هایی که بیشتر از یک ماه پیش ذخیره شده اند) حذف کرد. به این صورت می‌توان یک sliding window برای داده‌ها ایجاد کرد و از آن استفاده نمود.

این درس از مجموعه دوره پردازش جریان داده‌ها (Data Stream Processing) و کاربرد‌های آن است

ترتیب پیشنهادی خواندن درس‌های این مجموعه به صورت زیر است:

دیدگاهتان را بنویسید لغو پاسخ