BIGDATA

Bigdata (Dữ liệu lớn)
Là một thuật ngữ để chỉ các tập dữ liệu khổng lồ, phức tạp. Bao gồm các loại dữ liệu có cấu trúc, bán cấu trúc và phi cấu trúc được tạo ra với tốc độ nhanh từ các nguồn. Khối lượng dữ liệu được tạo ra đã vượt xa khả năng lưu trữ của các công cụ truyền thống.
It is a term used to refer to large and complex datasets, including structured, semi - structured, unstructured data, which are generated at high speed from various sources. The volume of data generated has surpassed the storage capacity of traditional tools.
Các đặc trưng của Bigdata (5Vs)
- Volumn (Khối lượng): Lượng dữ liệu khổng lồ (terabytes, petabytes, extrabytes,...) được tạo ra mỗi ngày.
- Velocity (Tốc độ): Dữ liệu được tạo ra, thu thập và xử lý cực nhanh, thường theo thời gian thực.
- Variety (Đa dạng): Dữ liệu được tạo ra từ nhiều định dạng khác nhau (văn bản, hình ảnh, âm thanh, video, dữ liệu cảm biến,...
- Veracity (Độ tin cậy): Mức độ chính xác, chân thật và đáng tin cậy của dữ liệu.
- Value (Giá trị): Giá trị tiềm ẩn có thể khai thác được thông qua phân tích.
- Translators of Bigdata (5Vs)
- Volume: Massives amounts of data (terabyte, perabyte, extrabyte,...) are generated everyday.
- Velocity: Data is generated, collected and processed at an extremelt fast pace, often in realtime.
- Variety: Data is generated in various formats from different sources (as text, images, sound, video, data from sensors,...
- Veracity: Accuracy, authenticity and reliability of the data.
- Value: The potential value that can extracted through analysis.
- Vai trò của Bigdata trong doanh nghiệp
- Giúp doanh nghiệp phân tích để thấu hiểu được hành vi mua sắm của khách hàng.
- Giúp doanh nghiệp điều chỉnh để sản phẩm phù hợp với thị trường mà không phải chi quá nhiều vào các chiến dịch marketing kém hiệu quả.
- Giúp doanh nghiệp tối ưu hóa giá cả, gia tăng lợi nhuận lâu dài.
- Roles of Bigdata in business
- Help enterprises analyze and understand customer shopping behavior.
- Help enterprises adjust their products to be approriate for the market and avoid wasting money on inefficient marketing campaigns.
Cách thức hoạt động của Bigdata
Operations of Bigdata
- Thu thập dữ liệu thô
+ Dữ liệu có thể đến từ các nguồn khác nhau: bản ghi hệ thống, giao dịch trực tuyến, thiết bị cảm biến, mạng xã hội,...
+ Các dữ liệu này có thể ở nhiều hình dạng khác nhau, bao gồm dữ liệu có cấu trúc (database), dữ liệu bán cấu trúc (JSON, XML) và dữ liệu phi cấu trúc (video, hình ảnh, văn bản).
- Raw data collection
+ Data can come from various sources, including system logs, online transactions, sensors, social media, etc.
+ Data can take many different forms, including structured data (databases), semi-structured data (JSON, XML), and unstructured data (videos, images, text).
- Lưu trữ dữ liệu
+ Dữ liệu phải được lưu trữ ở nơi có khả năng mở rộng vì Bigdata có thể đạt đến hàng "terabyte".
+ Các hệ thống lưu trữ phổ biến như Hadoop HDFS (Hadoop Distributed File System) hoặc Cloud Storage (AWS S3, Google Cloud Storage) cung cấp khả năng mở rộng và bảo mật cho dữ liệu.
+ Data Lakes là nơi lưu trữ dữ liệu thô mà chưa xử lý, giúp dễ dàng tiếp cận và phân tích dữ liệu ở mức độ lớn.
- Data storage
+ Data must be stored in scalable environments, as Bigdata can reach the scale of terabytes.
+ Popular storage systems such as Hadoop HDFS (Hadoop Distributed File System) or Cloud Storage (AWS S3, Google Cloud Storage) provide high scalability and security for data.
+ Data Lakes serves as repositories for raw, unprocessed data, enabling easy acces and large-scale data analysis.
- Xử lý dữ liệu
+ Lọc và làm sạch: loại bỏ những dữ liệu không chính xác, thừa và lỗi.
+ Phân tích: áp dụng các thuật toán phân tích để tìm ra mô hình, xu hướng hoặc thông tin ẩn chứa trong dữ liệu.
+ Học máy (Machine Learning): sử dụng các thuật toán để huấn luyện mô hình dựa trên dữ liệu và tạo ra dự đoán hoặc quyết định tự động.
- Data Processing
+ Filtering and cleaning: Removing inaccurate, redundant and erroneous data.
+ Analyzing: applying algorithms to identify patterns, trends or hidden insights within the data.
+ Machine Learning: utilizing algorithm to train models on data, enabling them to generate predictions or make automated decisions.
- Phân tích và trực quan hóa dữ liệu
+ Sau khi xử lý thì dữ liệu cần được phân tích và trực quan hóa để dễ dàng đưa ra quyết định.
+ Các công cụ thường được sử dụng như: Tableau, PowerBI, Python libraries (Matplotlib, Seaborn) giúp người dùng tạo ra các báo cáo và đồ thị để hiểu rõ hơn về dữ liệu.
- Data analysis and Viualization
+ After processing, data must be analyzed and visualized to facilitate effective decision-making.
+ Tools often used such as: Tableau, PowerBI, Python libraries (Matplotlib, Seaborn) enable users to create dashboards and charts for deeper data insight.

