دریاچه داده (Data Lake) چیست؟

مدرس: مسعود کاویانی

یک دریاچه را در نظر بگیرید که رودخانه‌های مختلف به آن وارد می‌شوند. در واقع هر رودخانه مقداری آب در این دریاچه خواهد ریخت و آب‌های موجود در این دریاچه حاصل مجموعه این رودها است. دریاچه داده یا همان Data Lake نیز به همین صورت است. یک مخزن عظیم که داده‌های مختلف از طُرق متفاوت وارد این دریاچه می‌شوند و در آن ذخیره می‌گردند.

احتمالا از خود می‌پرسید که دریاچه داده همان انبار داده است. ولی اگر درس داده‌های ساختاریافته و غیرساختاریافته را خوانده باشید، می‌توانید به تفاوت انبارداده و دریاچه داده پی ببرید. در انبارداده، داده‌های ساختاریافته (Structured Data) قرار می‌گیرند در حالی که در دریاچه داده فرقی نمی‌کند که چه داده‌هایی قرار داشته باشند. در واقع هر نوع داده‌ای (چه ساختاریافته و چه غیرساختاریافته) می‌توانند در دریاچه داده یا همان Data Lake ذخیره شوند.

ایجاد یک ساختار مکعب داده در انبارداده می‌تواند سربار اضافی ایجاد کند. برای مثال ممکن است سرعت ذخیره داده‌ها را کاهش دهد و یا به دلیل کمبود نیروی فنی، ایجاد یک انبارداده زمان‌بر باشد. ولی دریاچه داده از قید و بندهای انبارداده رها است و می‌تواند داده‌ها را به شکل خام (Raw) در خود ذخیره کند. این داده‌ها می‌توانند هر چیزی باشند. برای مثال داده‌ها Logنرم افزار، داده‌های آماری مربوط به کاربران و تصاویر و فیلم‌های مختلف و یا داده‌های سریع تولید شده توسط اینترنت اشیا (IOT) می‌توانند در دریاچه داده ذخیره شوند. در واقع هر نوع داده‌ای به همان صورت طبیعی (native form) در دریاچه داده ذخیره می‌شوند.

اگر درس ETL و تفاوت آن با ELT را خوانده باشید، احتمالا متوجه شده‌اید که در دریاچه داده، ما قسمت T یا همان Transformation (تغییر و تبدیل) که فرآیند تبدیل داده‌ها به شکل مناسب برای ذخیره در انبارداده هست را ندارد به طوریکه دریاچه داده را می‌توان یک محل استقرار (Staging Area) نیز برای ساخت یک انبار داده دانست.

به طور خلاصه، دریاچه داده نسبت به انبارداده دارای ساختار منعطف‌تری است و ساخت آن کم هزینه‌تر از ساخت یک انبار داده می‌باشد. در بسیاری از سازمان‌ها وقتی نمی‌دانند قرار است با داده‌ها چه کارهایی انجام دهند، می‌توانند فعلا داده‌ها در دریاچه‌ای ذخیره کنند تا بعدا در فرصت مناسب با شکل دادن به آن‌ها، داده‌ها را مورد تحلیل و بررسی قرار دهند.

 

منابع این بحث و اطلاعات بیشتر

» وب‌سایت Guru99

» وب‌سایت SQLChick

در صورت تمایل به یادگیری بیشتر، منابع بالا در نظر گرفته شده است. می توانید با خواندن این منابع، به یادگیری خود در این زمینه عمق ببخشید

13 دیدگاه دربارهٔ «دریاچه داده (Data Lake) چیست؟»

  1. جناب آقای کاویانی
    با سلام و احترام
    مطالب عالی بود، امیدوارم سایر درس ها هم با سرعت بیشتری برروی سایت قرار بگیرند.
    درصورتیکه زمان بندی خاصی برای درس های بعدی دارید ممنون میشم که اعلام بفرمایید.
    سپاس

  2. بسیار عالی، روان، مختصر و شکلهایی که کشیده بودید، خیلی گویا و کمک کننده بودند.
    متشکر از وقت و انرژی که برای این کار گذاشتید.

  3. سپاس از مجموعه های خوبی که در سایت قرار دادید.
    بیان شما بسیار شفاف و پر از مثال های کاربردی و همه فهم هست که خوندن دوره های این سایت رو بسیار شیرین میکنه.
    امیدوارم که توسعه این دوره های آموزشی رو با قدرت ادامه بدید.
    با احترام

  4. سلام و درود
    مطالب خلاصه و بسیار مفیدی بودند که یک ساختار ذهنی ساده از یک موضوع پیچیده در ذهن ایجاد می کند.
    سپاسگزارم

  5. با سلام
    مطالب عالی و شیوا بیان شده بود
    لطفا این مطالب ادامه دار باشند و همچنین در صورت امکان بخشهای عملی و کار با نرم افزارهای مربوطه رو هم به این مطالب اضافه کنید

  6. بسیار عالی و قابل درک بود.اگر مثالهای واقعی در دنیای واقعی هم به مطالب اضافه شود قطعا موارد کاربری هر مطلب نیز قابل لمس خواهد بود.سپاس فراوان از زحمات شما.

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *