در دسترس بودن انبارهای دادههای ابری که دادهها را به صورت مقرون به صرفه ذخیره و پردازش میکنند، نحوه مدیریت دادههای تحلیلی شرکتها را تغییر میدهد. تغییر از سرورهای داخلی به انبارهای داده ابری باعث تغییر از ETL به ELT شده است. در این مقاله به این موضوع میپردازیم که ELT چیست و کدام ویژگیهای ELT (Extract، Load،Transform) است که موجب این انتقال شده است. پس با ما همراه باشید.
Extract، Load، Transformچیست؟
در دنیای داده محور، وجود یک فرآیند کارآمد برای جابجایی و تبدیل دادهها برای تجزیه و تحلیل به منظور رشد و نوآوری کسب و کار بسیار مهم است. بارگذاری یک انبار داده میتواند یک فرآیند بسیار وقتگیر باشد.
فرآیند استخراج، بارگذاری و تبدیل دادهها، انبار داده مدرن و مدیریت کلان دادهها را ساده میکند که کسب و کارها بتوانند بر استخراج دادههای خود برای دستیابی به نتایج تحلیل داده معنادار تمرکز کنند.
(ELT) مخفف استخراج، بارگذاری و تبدیل بوده و به معنای فرآیند استخراج داده از یک یا چند منبع و بارگیری آن در انبار داده هدف است. به جای تبدیل دادهها قبل از نوشتن، این فرایند از سیستم هدف برای انجام تبدیل دادهها استفاده میکند.
این رویکرد به منابع راه دور کمتری نسبت به سایر تکنیکها احتیاج پیدا میکند، زیرا فقط به دادههای خام و آماده نشده نیاز دارد.
ELT جایگزینی برای فرآیند سنتی استخراج، تبدیل و بارگذاری (ETL) است. این فرآیند مولفه تبدیل را برای عملکرد بهتر به پایگاه داده هدف هدایت میکند. این قابلیت برای پردازش مجموعه دادههای عظیم مورد نیاز برای هوش تجاری (BI) و تجزیه و تحلیل دادههای بزرگ بسیار مفید است.
از آنجایی که این فرایند از قابلیت پردازشی که قبلاً در زیرساخت ذخیرهسازی دادهها تعبیه شده است، استفاده میکند، زمانی را که دادهها در انتقال صرف میکنند را کاهش میدهد و موجب افزایش کارایی میشود. در ادامه این مقاله به تفاوتهای بین فرآیندهای ETL و ELT نگاه دقیقتری بیندازیم.
اگر چه فرآیند ELT مدتی است که مورد استفاده قرار میگیرد، اما با استفاده گستردهتر از Hadoop و دریاچههای داده بومی ابری در حال محبوبیت یافتن است.
ELT چگونه کار میکند؟
این موضوع که دادهها از منابع خود استخراج شده و سپس در انبار دادههای هدف بارگذاری شوند که به هوش تجاری عملی تبدیل شوند، به طور فزایندهای در حال ترویج یافتن است. این فرآیند شامل سه مرحله است.
۱. استخراج
این مرحله در هر دو رویکرد مدیریت داده به طور مشابه عمل میکند. جریانهای خام داده از زیرساختهای مجازی، نرمافزارها و برنامهها یا به طور کامل یا طبق قوانین از پیش تعریف شده جذب میشوند.
۲. بارگذاری
اینجا جایی است که ELT از پسر عموی خود ETL متمایز میشود. ELT به جای تحویل این حجم از دادههای خام و بارگذاری آن به یک سرور پردازش موقت برای تبدیل، آن را مستقیماً به محل ذخیرهسازی هدف تحویل میدهد. این امر چرخه بین استخراج و تحویل را کوتاه میکند.
۳. تبدیل
پایگاه داده یا انبار داده، دادهها را مرتب و عادی میکند، بخشی یا تمام آن را برای گزارشهای سفارشی در دسترس نگه میدارد. با اینکه هزینهها برای ذخیره این دادهها بیشتر است، اما فرصتهای بیشتری برای استخراج آن برای هوش تجاری مرتبط در زمان واقعی ارائه میدهد.
مزایای ELT را بدانید
افزایش ناگهانی در انواع و حجم دادههایی که کسبوکارها باید پردازش کنند، میتواند بر انبارهای داده سنتی فشار وارد کند. استفاده از فرآیند ETL برای مدیریت میلیونها رکورد در این قالبهای جدید میتواند زمانبر و پرهزینه باشد. اینجا است که مزیتهای ELT مشخص میشود که در زیر به آنها میپردازیم.
۱. ساده کردن مدیریت
ELT وظایف بارگذاری و تبدیل را از هم جدا میکند، وابستگی متقابل بین این فرآیندها را به حداقل میرساند، ریسک را کاهش میدهد و مدیریت پروژه را ساده میکند.
۲. مجموعه دادههای مورد تایید زمان آینده
پیادهسازیهای ELT را میتوان مستقیماً برای سیستمهای انبار داده استفاده کرد، اما اغلب از ELT در رویکرد دریاچه داده استفاده میشود که در آن دادهها از طیف وسیعی از منابع جمعآوری میشوند. این امر همراه با جداسازی فرآیند تبدیل، ایجاد تغییرات آتی در ساختار انبار را آسانتر میکند.
۳. استفاده از جدیدترین فناوریها
راهحلهای ELT از قدرت فناوریهای جدید بهره میبرند که پیشرفتها، امنیت و انطباق را در سراسر سازمان افزایش دهند. این فرایند همچنین از قابلیتهای بومی انبارهای داده ابری مدرن و چارچوبهای پردازش دادههای بزرگ استفاده میکند.
۴. کاهش هزینهها
مانند بسیاری از خدمات ابری،ELT مبتنی بر ابر میتواند منجر به کاهش هزینه کل خرید شود، زیرا سرمایهگذاری اولیه در سخت افزار اغلب غیر ضروری است.
۵. انعطافپذیری
فرآیند ELT سازگار و انعطافپذیر است، بنابراین برای انواع مشاغل، برنامهها و اهداف مناسب است.
۶. مقیاسپذیری
مقیاسپذیری زیر ساخت ابری و سرویسهای میزبانی شده مانند یکپارچهسازی پلتفرم به عنوان سرویس (iPaaS) و نرم افزار به عنوان سرویس (SaaS) به سازمانها این توانایی را میدهد که منابع را حین پردازش گسترش دهند. آنها زمان محاسباتی و فضای ذخیرهسازی لازم را برای حتی کارهای بزرگ تبدیل دادهها اضافه میکنند.
اگرچه ELT هنوز در حال تکامل است، اما نوید دسترسی نامحدود به دادهها، زمان توسعه کمتر و صرفهجویی قابل توجه در هزینه را ارائه میدهد. با این روش و راههای دیگر ابر، یکپارچهسازی دادهها را دوباره تعریف میکند.
ETL در مقایسه با ELT : درک تفاوت
هنگام بررسی موضوع ELT چیست، نمیتوان به تفاوت میان ELT و ETL نپرداخت. از تفاوتهای اصلی میان این دو این است که چه مقدار داده در انبارهای داده نگهداری میشود و کجا دادهها تبدیل میشوند.
باETL ، تبدیل دادهها قبل از بارگیری در انبار داده انجام میشود. این به تحلیلگران و کاربران تجاری این امکان را میدهد که بدون ایجاد تحولات پیچیده یا جداول مداوم در ابزار هوش تجاری خود، دادههای مورد نیاز خود را سریعتر دریافت کنند.
با استفاده از رویکردELT ، دادهها به همان شکلی که هستند در انبار یا دریاچه داده بارگیری میشوند، بدون هیچ تغییری قبل از بارگیری. این کار پیکربندی کارها را آسانتر میکند، زیرا فقط به مبدأ و مقصد نیاز دارد.
رویکردهای ETL و ELT برای یکپارچهسازی دادهها از چند جهت کلیدی متفاوت است که در ادامه به آنها اشاره میکنیم.
۱. زمان بارگذاری
دریافت دادهها از سیستمهای منبع به سیستم هدف با ETL بسیار بیشتر طول میکشد.
۲. زمان تبدیل ELT
با استفاده از قدرت محاسباتی سیستم هدف، ELT تبدیل دادهها را بر اساس تقاضا انجام میدهد و زمان انتظار برای تبدیل را کم میکند.
۳. پیچیدگی
ابزارهای ETL معمولاً دارای رابط کاربری گرافیکی با کاربری آسانی هستند که فرآیند را ساده میکند. ELT به دانش عمیق ابزارهای BI، انبوهی از دادههای خام و پایگاه دادهای نیاز دارد که بتواند آن را به طور موثر تغییر دهد.
۴. پشتیبانی از انبار داده ETL
برای انبارهای داده قدیمی و دادههای ساختار یافته مناسبتر است. ELT برای مقیاسپذیری ابر طراحی شده است.
۵. تعمیر و نگهداری ETL
به نگهداری قابل توجهی برای به روزرسانی دادهها در انبار داده نیاز دارد. با ELT، دادهها تقریباً همیشه در زمان واقعی در دسترس هستند.
هر دو فرآیند ETL و ELT جایگاه خود را در چشمانداز رقابتی امروزی دارند و درک نیازها و استراتژیهای منحصر به فرد یک کسبوکار برای تعیین اینکه کدام فرآیند بهترین نتایج را ارائه میدهد، کلیدی است.
ELT و Data Lakes: آینده یکپارچهسازی دادهها؟
فناوریهای زیرساختی مدرن و مبتنی بر ابر، حجم زیادی از ذخیرهسازی داده و توان محاسباتی مقیاسپذیر را با هزینههای کمتر ارائه میدهند. این موضوع هم امکان نگهداری پتابایتها از دادهها را در دریاچههای داده بزرگ و قابل گسترش و پردازش سریع آنها بر اساس تقاضا ممکن میسازد. گسترش دریاچههای داده این امکان را برای سازمانهای بیشتری فراهم کرده است که از ETL به سمت ELT حرکت کنند.
دریاچههای داده مزایای عمدهای را برای سازمانهایی که دادههای بزرگ و فرآیندهای کلان داده (Big Data) را از داخل محل به فضای ابری منتقل میکنند، ارائه میدهند.
آنها به همراه شناسهها و برچسبهای فراداده برای بازیابی سریعتر، دادهها را در قالبی انعطافپذیرتر برای استفاده در آینده نگه میدارند. آنها همچنین زمان بارگذاری سریعی را ارائه می دهند.
به نظر میرسد ELT آینده یکپارچهسازی دادهها باشد و مزایای زیادی نسبت به ETL که فرآیندی قدیمیتر و کندتر است، ارائه میدهد. حجم دادهها به طور تصاعدی برای سازمانها افزایش یافته است و ابزارهای ETL نمیتوانند به طور مؤثری ادغام همه این دادهها را در یک مخزن برای تجزیه و تحلیل انجام دهند.
ELT چابکی بهتری را ارائه میدهد و به تعمیر و نگهداری کمتری نیاز دارد و آن را راهی مقرون به صرفه برای کسبوکارها در هر اندازهای میکند که از ذخیرهسازی دادههای مبتنی بر ابر مانند دریاچههای داده استفاده کنند.
سخن آخر
دادهها نقش مهمی در هر عملیات تجاری ایفا میکنند. برای اینکه داده ارزشمند باشد، باید جابجا شده و برای استفاده آماده شود. همانطور که در این مقاله گفته شد، ELT یک بخش اساسی از فرآیند یکپارچهسازی داده است که رویکرد متفاوتی را نسبت به فرآیند سنتی ETL برای انتقال داده ارائه میدهد.