Data Preprocessing (Tiền xử lý dữ liệu)

Bối cảnh
Trong thế giới dữ liệu ngày nay, chúng ta không làm việc với những bộ dữ liệu “hoàn hảo”. Thực tế, dữ liệu thực (real-world data) thường bị nhiễu, thiếu, và không nhất quán — hậu quả của:
Kích thước dữ liệu khổng lồ (từ vài GB đến hàng TB).
Nguồn dữ liệu đa dạng, không đồng nhất về định dạng và cấu trúc.
Sai sót trong quá trình thu thập, nhập liệu hay truyền tải.
Khi dữ liệu đầu vào “không sạch”, kết quả Khai phá dữ liệu (Data Mining) hay Học máy (Machine Learning) cũng sẽ kém chất lượng.
Vì vậy, trước khi nghĩ đến việc chọn mô hình, tối ưu thuật toán hay tinh chỉnh siêu tham số, bước quan trọng nhất chính là Tiền xử lý dữ liệu (Data Preprocessing) — bước giúp “biến dữ liệu thô thành vàng”.
Mục tiêu của Tiền xử lý dữ liệu (Data Preprocessing)
Tiền xử lý dữ liệu (Data Preprocessing) nhằm:
Làm cho dữ liệu sạch, đồng nhất, có cấu trúc.
Giúp các thuật toán khai phá hoạt động chính xác, hiệu quả hơn.
Rút ngắn thời gian tính toán bằng cách giảm kích thước dữ liệu.
Các kỹ thuật cốt lõi trong Tiền xử lý dữ liệu (Data Preprocessing Techniques)

1. 🧹 Data Cleaning – Làm sạch dữ liệu: Loại bỏ nhiễu và sửa các lỗi, sự không nhất quán trong dữ liệu.
2. 🔗 Data Integration – Tích hợp dữ liệu: Hợp nhất dữ liệu từ nhiều nguồn khác nhau thành một kho thống nhất (coherent data store), như data warehouse.
3. 🔄 Data Transformation – Biến đổi dữ liệu: Áp dụng các phép biến đổi như chuẩn hóa (normalization) để đưa dữ liệu về cùng thang đo.
4. 📉 Data Reduction – Giảm dữ liệu: Giảm kích thước dữ liệu bằng cách tổng hợp (aggregation), loại bỏ thuộc tính dư thừa (redundant features) hoặc gom cụm (clustering).

