ETL (Extract - Transform - Load) và ELT (Extract - Load - Transform)

1. ETL (Extract - Transform - Load)
ETL là viết tắt của 3 bước trong quy trình xử lý dữ liệu:
Extract: Thu thập dữ liệu từ nhiều nguồn khác nhau (cơ sở dữ liệu, API, file, web,…).
Transform: Làm sạch, chuẩn hóa, tính toán, thay đổi định dạng dữ liệu.
Load: Nạp dữ liệu đã xử lý vào hệ thống lưu trữ chính (Data Warehouse)

2. ELT (Extract - Load - Transform)
ELT là viết tắt của 3 bước trong quy trình xử lý dữ liệu:
Extract: Thu thập dữ liệu từ nhiều nguồn khác nhau (cơ sở dữ liệu, API, file, web,…).
Load: Nạp dữ liệu thô vào Data Warehouse hoặc Data Lake (cloud)
Transform: Dùng các công cụ/SQL để xử lý trực tiếp dữ liệu trên hệ thống lưu trữ

3. So sánh
| ETL | ELT | |
| Trình tự | Trích xuất - Xử lý - Nạp | Trích xuất - Nạp - Xử lý |
| Xử lý dữ liệu | Trên server trung gian | Trực tiếp trong hệ thống lưu trữ (Data Warehouse, Data Lake) |
| Lưu dữ liệu thô | Không lưu — chỉ lưu dữ liệu đã xử lý | Có lưu dữ liệu thô |
| Phù hợp kiểu dữ liệu | Truyền thống, vừa và nhỏ | Hiện đại, cloud, dữ liệu lớn (Big Data) |
| Thời gian xử lý | Chậm nếu là dữ liệu lớn | Nhanh hơn do xử lý trực tiếp trên nền tảng mạnh |
4. Tổng quát
ETL (Extract - Trasform - Load) trích xuất dữ liệu từ nguồn, biến đổi (làm sạch, chuẩn hóa) trên server trung gian rồi nạp vào kho dữ liệu, còn ELT (Extract - Load - Trasform) trích xuất rồi nạp toàn bộ dữ liệu thô lên kho (thường là cloud Data Warehouse/Data Lake) và thực hiện biến đổi ngay tại đó để tận dụng sức mạnh tính toán và lưu trữ của nền tảng.

