دریاچه داده چیست؟

به گزارش اکونا پرس،

امروزه داده‌ها بسیار سریع در حال شکل‌گیری هستندف داده‌هایی که توسط وب‌سایت‌ها، صفحات شبکه‌های اجتماعی و غیره ایجاد می شوند. کارشناسان بر این عقیده هستند که رشد حجم بالای داده‌ها باعث شده تا مدل‌های ذخیره‌سازی و تحلیل‌های مبتنی بر رایانه‌های منفرد، پاسخ‌گوی آن‌ها نباشند. از سوی دیگر عوامل متعددی باعث شده تا مدل انبار داده سنتی به صورت جدی به چالش کشیده شود.

در این راستا مفاهیم دریاچه داده و دریاچه اطلاعات امنیتی تخصصی و نسبتاً جدید هستند؛ یک دریاچه داده یک مخزن طراحی‌شده برای ذخیره مقادیر زیادی از داده‌ها در شکل بومی است. بر اساس اطلاعات سایت پلیس فتا، این داده‌ها می‌توانند ساختار بندی شده، نیمه ساختار یافته یا بدون ساختار و شامل جداول، فایل‌های متنی، لاگ سیستم و بیشتر باشند.

این واژه توسط جیمز دیکسون، CTO، یک شرکت نرم‌افزاری هوش تجاری، به کار گرفته شد و هدف از آن ایجاد یک مخزن بزرگ است که مقادیر گسترده‌ای از داده‌ها را می توان در آن ریخت. کاربران کسب‌وکار تماماً می‌توانند وارد دریاچه داده‌ها شوند و نوع اطلاعاتی که برای کاربرد آن‌ها نیاز دارند را دریافت کنند. این مفهوم با انفجار داده‌های ماشینی و کاهش سریع هزینه ذخیره‌سازی به محبوبیت رسید.

در صورتی‌که بخواهیم تفاوت‌های رویکرد دریاچه داده و انبار داده در تحلیل داده‌ها را بیان کنیم، می‌توانیم با توجه به آنچه که در برخی از سایت‌های تخصصی این حوزه در تعریف این مفهوم مطرح شده، به موارد زیر به عنوان تفاوت‌های اساسی اشاره کنیم:

داده‌ها کاملاً در دریاچه داده قرار می‌گیرند و از هیچ داده‌ای صرف‌نظر نمی‌شود. این رویکرد برخلاف رویکرد انبار داده در ذخیره‌سازی و پالایش داده‌هاست که در آن تنها اطلاعاتی در انبار داده قرار می‌گیرد که بتواند در تحلیل‌ها مورد استفاده قرار گیرد.

داده‌های پایین‌ترین سطوح (مثلاً توضیحات یک فرد در یک مقاله یا یک وب سایت) بدون تغییر یا با حداقل تغییرات به دریاچه داده منتقل می‌شوند که این مهم، برخلاف رویکرد انبار داده است که تبدیل و تغییر (Transformation) یکی از پیش‌فرض‌های اساسی و اولیه ورود اطلاعات به آن محسوب می‌شود.

بر این اساس در مثال قبل ممکن است برای ذخیره‌سازی توضیحات یک فرد در یک مقاله یا وب‌سایت با مدل انبار داده تنها به استخراج کلید واژه‌ها از توضیحات و ذخیره‌سازی آن در یک جدول بانک اطلاعاتی بسنده کرد. در دریاچه داده توضیحات فرد، نحوه پیمایش یک سایت توسط کاربر و اطلاعات سنسورهایی که توسط دستگاه‌ها تولید شده است، بدون توجه به منبع و ساختار ذخیره می‌شوند.

این رویکرد ذخیره‌سازی داده‌ها که در آن داده، بدون توجه به ساختار و منبع ذخیره می‌شود، اصطلاحاً «خواندن با ساختار» (Schema On Read) نامیده می‌شود. این رویکردی متفاوت از ذخیره‌سازی داده‌ها در انبار داده است که در آن، ابتدا ساختاری که داده‌ها باید در آن قرار گیرد طراحی می‌شود و سپس داده ها در ساختار قرار می‌گیرند که به آن نوشتن با ساختار (Schema On Write) گفته می‌شود.

نزدیک به ۸۰ درصد از استفاده‌کنندگان از اطلاعات در بیشتر سازمان‌ها، استفاده‌کنندگان عملیاتی محسوب می‌شوند. نیاز این دسته از کاربران این است که گزارش‌ها و شاخص‌های مورد نیاز خود را مشاهده کنند. این موارد معمولاً دارای ساختاری از پیش تعریف‌شده هستند و رویکرد انبار داده به دلیل ساخت‌یافته بودن اطلاعات، برای این دسته از کاربران قابل درک و استفاده است.

درصد کمی از کاربران سازمان‌ها نیازمند تحلیل‌های عمیق و پیچیده بر روی داده‌ها هستند. دانشمندان و تحلیل‌گران داده (Data Scientists) جزو این دسته از کاربران قرار می‌گیرند. این گروه از کاربران، از انواع داده‌های ساخت‌یافته یا ساخت‌نیافته و ابزارهای تجزیه و تحلیل پیشرفته بر روی داده‌ها مانند داده‌کاوی، متن‌کاوی، تحلیل آماری، مدل‌های پیش‌بینی‌کننده، تحلیل جریان پیمایش یک سایت و روش‌های مشابه استفاده می‌کنند.

اما معمولا ۱۰ درصد از کاربران یک سازمان نیاز به تجزیه و تحلیل عمیق داده‌ها پیدا می‌کنند. این دسته از کاربران می‌توانند از انبار داده برای تجزیه و تحلیل‌های مورد نیاز خود استفاده کنند اما گاهی اوقات، نیاز به دسترسی به منبع اصلی داده مورد نیاز است و کاربران ناچارند به داده‌ها در سیستم‌های تولیدکننده آن مراجعه کنند.

با توجه به اینکه در فرآیند تحلیل‌های پیشرفته، تحلیل‌گر از قبل، درباره اینکه چه ویژگی‌ها یا داده‌هایی موردنیاز هستند و از کدام‌یک باید صرف‌نظر شود آگاه نیست، رویکرد خواندن با ساختار (Schema On Read) و عدم حذف یا تبدیل اطلاعات بهتر می‌تواند به نیاز تحلیلیِ این دسته از کاربران پاسخ دهد.

در هر حال تفاوت‌های کلیدی بین دریاچه‌های داده و انبارهای داده وجود دارد که به طور سنتی برای تحلیل داده‌ها مورد استفاده قرار گرفته‌اند. اول، انبارهای داده برای داده‌های ساختار یافته طراحی شده‌اند. یک واقعیت اینکه دریاچه‌های داده یک طرح را به داده‌ها تحمیل نمی‌کنند. در عوض، زمانی که داده‌ها خوانده ‌شده و یا از دریاچه داده‌ها بیرون کشیده می‌شوند، طرح مورد استفاده قرار می‌گیرد. در نهایت، دریاچه‌های داده در محبوبیت با افزایش داده‌های دانشمندان، که تمایل به کار بیشتر در یک تبلیغ دارند، نسبت به تحلیل‌گران کسب و کار قبلی، رشد کرده‌اند.