Tải bản đầy đủ

Luận văn thạc sĩ công nghệ thông tin tổ chức và tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo trong viễn thông

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN
PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN CHUNG THÀNH HƯNG

TỔ CHỨC VÀ TÍCH HỢP
HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN

PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN THÔNG
Chuyên ngành: Hệ thống thông tin
Mã số: 8480104.01

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Cán bộ hướng dẫn: PGS. TS Phan Xuân Hiếu

Hà Nội - 2019


LỜI CẢM ƠN
Tôi xin trân trọng cảm ơn các thầy cô trong Khoa Công nghệ Thông tin đã tạo
điều kiện cho học viên lớp cao học K24CNTT một môi trường học tập thuận lợi,
đồng thời truyền đạt cho tôi một vốn kiến thức quý báu, một tư duy khoa học để
phục vụ cho quá trình học tập và công tác của tôi.
Đặc biệt, tôi xin được bày tỏ lòng biết ơn sâu sắc đến PGS.TS. PHAN XUÂN
HIẾU đã tận tình chỉ bảo cho tôi trong suốt quá trình học tập và nghiên cứu, giúp
tôi có nhận thức đúng đắn về kiến thức khoa học, tác phong học tập và làm việc.
Tôi xin gửi lời cảm ơn đến các bạn trong lớp Cao học Hệ thống Thông tin
K24CNTT khóa 2016- 2018 đã giúp đỡ tôi trong suốt thời gian học tập. Cuối
cùng, tôi xin được gửi lời cảm ơn tới gia đình, đồng nghiệp, người thân đã động
viên, giúp đỡ tôi trong quá trình hoàn thành luận văn.
Do vốn kiến thức lý luận và kinh nghiệm thực tiễn còn ít nên luận văn không
tránh khỏi những thiếu sót. Tôi xin trân trọng tiếp thu các ý kiến của các thầy, cô,
bạn bè để luận văn được hoàn thiện.
Trân trọng cám ơn.


LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả nghiên cứu, thực nghiệm được trình bày trong
luận văn này do tôi thực hiện dưới sự hướng dẫn của PGS.TS Phan Xuân Hiếu
và được thực hiện trong quá trình hợp tác nghiên cứu giữa Tập đoàn Công nghiệp
- Công nghệ Cao Viettel và đối tácra.
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn gốc
một cách rõ ràng từ danh mục tài liệu tham khảo của luận văn. Trong luận văn,
không có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không
chỉ rõ về tài liệu tham khảo.
Hà nội, ngày 12 tháng 11 năm 2019.
Học viên


Nguyễn Chung Thành Hưng.


MỤC LỤC
LỜI CẢM ƠN .................................................................................................................. i
LỜI CAM ĐOAN ............................................................................................................ i
MỤC LỤC ....................................................................................................................... i
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT ................................................... iv
DANH MỤC CÁC BẢNG .............................................................................................. i
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ .......................................................................iii
MỞ ĐẦU ........................................................................................................................ 1
CHƯƠNG 1. TỔNG QUAN .......................................................................................... 5
1.1. CÁC KHÁI NIỆM CƠ BẢN ................................................................................5
1.1.1. Khái niệm chung về dữ liệu lớn......................................................................5
1.1.2. Các khái niệm lưu trữ dữ liệu lớn ...................................................................6
1.1.3 Các khái niệm về xử lý dữ liệu lớn ................................................................ 10
1.1.4. Cái khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu ..............13
1.2. Hệ thống phân tích dữ liệu lớn ............................................................................17
1.2.1. Công nghệ lưu trữ dữ liệu trong BigData .....................................................17
1.2.1.1. Công nghệ lưu trữ trên đĩa cứng ............................................................17
1.2.1.2. Công nghệ lưu trữ trong bộ nhớ (In-Memory Databases)......................19
1.2.2. Xử lý dữ liệu trong BigData .........................................................................22
1.2.2.1. Xử lý dữ liệu với mô hình Map-Reduce ................................................22
1.2.2.2. Các tác vụ Map và Reduce .....................................................................23
1.2.3. Kỹ thuật phân tích bigdata hiện nay. ............................................................25
1.3. Các BÀI TOÁN PHÂN TÍCH DỰ BÁO ............................................................28
1.3.1. Bài toán phân tích dự báo .............................................................................28
1.3.2. Các mô hình dự báo cơ bản. .........................................................................28
1.3.2.1. Mô hình dự báo dựa trên thuật toán cây quyết định: .............................28
1.3.2.2. Mô hình dự báo Gradient Boosting. .......................................................30
1.3.3. Các kỹ thuật phân tích dự báo ......................................................................31
1.3.3.1. Tạo biến đặc trưng ..................................................................................31
1.3.3.2. Kỹ thuật lựa chọn đặc trưng ...................................................................32
1.3.3.3. Huấn luyện và xác thực trong các mô hình dự báo ................................ 34
1.3.3.4. Đánh giá mô hình dự báo .......................................................................35
1.3.4. Giới thiệu công cụ phân tích Rapidminer .....................................................42
CHƯƠNG 2. ................................................................................................................. 44


PHƯƠNG PHÁP TỔ CHỨC VÀ TÍCH HỢP DỮ LIỆU LỚN ................................... 44
2.1. CÁC HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN TRONG VIỄN THÔNG ......44
2.1.1. Một số ứng dụng hệ thống phân tích dữ liệu lớn phổ biến hiện nay ............44
2.1.1.1. Quản lý trải nghiệm khách hàng (Customer Experience Mgmt) ...........45
2.1.1.2. Giám sát, quản lý và tối ưu mạng lưới (Network OAM) .......................47
2.1.1.3. Phân tích hoạt động (Operation Analytics) ............................................48
2.1.1.4. Kiếm tiền từ dữ liệu (Data Monetization) ..............................................50
2.1.2. Hiện trạng của Viettel ...................................................................................50
2.1.2.1. Các nguồn dữ liệu lớn tại Viettel ...........................................................50
2.1.2.2. Các hệ thống phân tích dữ liệu lớn của Viettel ......................................51
2.2.1.1. Tầng Data Ingestion ...............................................................................53
2.2.1.2. Tầng Data Processing .............................................................................53
2.2.1.3. Tầng Data Analysis Layer ......................................................................54
2.2.1.4. Tầng Data Visualization .........................................................................54
2.2.1.5. Tầng Data Repository.............................................................................54
2.2.1.6. Tầng Data Govenance ............................................................................55
2.2.2. Mô hình tổ chức thực tế hệ thống BigData tại Viettel ..................................55
2.2.2.1. Tầng lưu trữ và xử lý dữ liệu..................................................................56
2.2.2.2. Tầng truy xuất dữ liệu ............................................................................57
2.2.3. Các công nghệ nền tảng về hệ thống dữ liệu lớn. .........................................57
2.2.4. Các phân hệ cài đặt của Cloudera BigData Enterprise flatform: ..................60
CHƯƠNG 3. ................................................................................................................. 62
THỰC NGHIỆM TÍCH HỢP HỆ THỐNG ................................................................. 62
DỰ BÁO THUÊ BAO RỜI MẠNG ............................................................................ 62
3.1. NỘI DUNG THỰC NGHIỆM ............................................................................62
3.1.1. Định nghĩa thuê bao rời mạng. .....................................................................62
3.1.2. Bài toán yêu cầu ............................................................................................62
3.1.3. Các bước thực nghiệm. .................................................................................63
3.2. TRIỂN KHAI HỆ THỐNG THỰC NGHIỆM ...................................................63
3.2.1. Xây dựng hệ thống phân tích BigData thực nghiệm. ...................................63
3.2.1.1. Mô hình triển khai Logic ........................................................................63
3.2.1.2. Mô hình triển khai vật lý và thông số hệ thống ......................................64
3.2.1.3. Cài đặt, cấu hình các thành phần hệ thống thực nghiệm ........................65
3.2.1.4. Nguồn dữ liệu .........................................................................................67


3.2.1.5. Luồng xử lý và khai phá dữ liệu.............................................................68
3.2.2. Xây dựng mô hình dự báo TBRM. ...............................................................69
3.3. CÁC KẾT QUẢ THỰC NGHIỆM MÔ HÌNH DỰ BÁO. .................................70
3.3.1. Khám phá dữ liệu và tạo các biến đặc trưng. ...............................................70
3.3.1.1. Bảng dữ liệu gọi đi của thuê bao (VOICE_OG) ....................................70
3.3.1.2. Dữ liệu gọi đến của thuê bao (VOICE_IC). ...........................................71
3.3.1.3. Dữ liệu nhắn tin đi của thuê bao (SMS_OG) .........................................71
3.3.1.4. Dữ liệu nhắn tin đến của thuê bao (SMS_IC) ........................................72
3.3.1.5. Dữ liệu về sử dụng Data của thuê bao (GPRS) ......................................72
3.3.1.6. Dữ liệu tiêu dùng hàng ngày của thuê bao (TOT_CHARGE_DAILY).73
3.3.1.7. Dữ liệu về thông tin nạp tiền (TOPUP)..................................................73
3.3.1.8. Dữ liệu số dư tài khoản (ACCOUNT2_DAY) .......................................74
3.3.1.9. Dữ liệu trừ cước phí các gói sử dụng theo chu kỳ (DAILYFEE) ..........74
3.3.1.10. Dữ liệu tổng hợp charge cước sử dụng các dịch vụ VAS
(VAS_CDR_DAY) .............................................................................................75
3.3.1.11. Dữ liệu home (HOME_ACC) ..............................................................75
3.3.1.12. Dữ liệu thông tin thuê bao, khách hàng (PRE-SUBS) .........................75
3.3.2. Lựa chọn đặc trưng và mô hình hóa .............................................................76
3.3.2.1. Lựa chọn các thuộc tính quan trọng bằng thuật toán Decision Tree ......76
3.3.2.2. Huấn luyện và xác nhận mô hình rời mạng. ..........................................79
3.3.3. Tối ưu mô hình dự báo. ................................................................................80
3.3.3.1. Tối ưu bằng cách phân nhóm khách hàng theo hành vi sử dụng. ..........81
3.3.3.2. Tìm tỷ lệ tối ưu của xác nhận phân tách. ...............................................81
3.3.3.3. Tìm cỡ mẫu tối ưu cho huấn luyện .........................................................82
3.3.3.4. Tối ưu mô hình bằng cách lựa chọn lại các đặc trưng ...........................82
3.3.3.5. Xác định lại các tham số của mô hình tối ưu .........................................82
3.3.3.6. Lựa chọn mô hình dự đoán tốt nhất .......................................................83
3.3.3.7. Chạy lại mô hình dự báo với thuật toán Gradien Booting. ....................83
3.4. ĐÁNH GIÁ THU HOẠCH .................................................................................84
3.4.1. Kết quả đầu ra của hệ thống phân tích, dự báo thuê bao rời mạng. .............84
3.4.2. Tri thức thu được sau thực nghiệm. ..............................................................84
KẾT LUẬN .................................................................................................................. 86
TÀI LIỆU THAM KHẢO ............................................................................................ 87
PHỤ LỤC 1.1. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ TRƯỚC PHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 90


PHỤ LỤC 1.2. ĐẶC ĐIỂM CỦA THUÊ BAO DỰ BÁO RỜI MẠNG TRẢ SAUPHÂN THEO 4 NHÓM HÀNH VI.............................................................................. 93

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
STT

Ký hiệu/chữ
viết tắt

1

ACID

2
3

AUC
AUROC

4

BASE

5

BLOB

6

CAP

7

CEM

8
9
10
11
12
13
14
15
16
17
18
19
20
21

CEP
CNN
DBM
DBN
DT
ETL
FN
FP
FPR
GBM
GBRT
ID3
IG
IMDB

22

IMDG

23
24
25
26

IOB
IoT
LS
M2M

27

MDA

Ý nghĩa
Atomicity, Consistency, Isolation, Durability (Nguyên tắc
thiết kế ACID)
Area Under the Curve
Area Under the Receiver Operating Characteristics
Basically Available, Soft state, Eventual consistency
(Nguyên tắc thiết kế BASE)
Binary Large Object
Consistency, Availability and Partition Tolerance (Nguyên
lý CAP)
Customer Experience Management (Quản lý trải nghiệm
khách hàng)
Complex Event Processing
Convolutional Neural Network
Deep Boltzmann Machine
Deep Belief Networks
Daytype
Extract Transform Load (Trích xuất dữ liệu)
False Negative
False Positive
False Positive Rate/Fall-out
Gradient Boosting Machines
Gradient Boosting Regression Trees
Interactive Dichotomizer 3
Information Gain (Độ tăng thông tin)
In-Memory Databases (Cơ sở dữ liệu trong bộ nhớ)
In-Memory Data Grids (Công nghệ lưu trữ dữ liệu trong bộ
nhớ)
In-of-bag
Internet Of Things
Learning Set (Tập huấn luyện)
Machine to Manchine
Mean Decrease Accuracy (Độ chính xác giảm bình quân
cho mỗi biến)


STT

Ký hiệu/chữ
viết tắt

28

MDG

29
30
31

OOB
POD
QC

32

RDBMS

33
34
35
36
37
38
39
40
41
42

RF
ROC
S/N
SVM
TB
TBRM
TN
TP
TPR
WFLD

Ý nghĩa
Mean Decrease Gini (Sự giảm bình quân hệ số Gini đối với
mỗi biến)
Out-of-bag
Period of Day
Quality Call
Relation DB Management Systems (Hệ thống lưu trữ cơ sở
dữ liệu quan hệ)
Random Forest
Receiver Operating Characteristics
Signal/Noise (Tỷ lệ tín hiệu trên nhiễu)
Support Vector Machines
Thuê bao
Thuê bao rời mạng
True Negative
True Positive
True Positive Rate/Sentivity/Recall
Weeks Before Last Date


DANH MỤC CÁC BẢNG
STT Chương

Mục

Bảng

1

1

1.3.3.1

Bảng 1.1

2

1

1.3.3.2

Bảng 1.2

3

3

3.2.1.2

Bảng 3.1

4

3

3.2.1.4

Bảng 3.2

5

3

3.3.1.1

Bảng 3.3

6

3

3.3.1.2

Bảng 3.4

7

3

3.3.1.3

Bảng 3.5

8

3

3.3.1.4

Bảng 3.6

9

3

3.3.1.5

Bảng 3.7

10

3

3.3.1.6

Bảng 3.8

11

3

3.3.1.7

Bảng 3.9

12

3

3.3.1.8

Bảng 3.10

13

3

3.3.1.9

Bảng 3.11

14

3

3.3.1.10

Bảng 3.12

15

3

3.3.1.11

Bảng 3.13

16

3

3.3.1.12

Bảng 3.14

17

3

3.3.2.1

Bảng 3.15

18

3

3.3.2.2

Bảng 3.16

19

3

3.3.2.2

Bảng 3.17

Tên bảng
Các thuộc tính ví dụ Ngày và Khách truy
cập và thuộc tính được trích xuất IsWeekendDayfDayg
Các phương pháp trích chọn thuộc tính
Cấu hình hệ thống phân tích BigData thực
nghiệm
Nguồn dữ liệu hệ thống phân tích BigData
thực nghiệm
Các biến đặc trưng cho dữ liệu gọi đi của
thuê bao
Các biến đặc trưng cho dữ liệu gọi đến của
thuê bao
Các biến đặc trưng cho dữ liệu nhắn tin đi
của thuê bao
Các biến đặc trưng cho dữ liệu nhắn tin đi
của thuê bao
Các biến đặc trưng cho dữ liệu sử dụng Data
của thuê bao
Các biến đặc trưng cho dữ liệu tiêu dùng
hàng ngày của thuê bao
Các biến đặc trưng cho dữ liệu nạp tiền của
thuê bao
Các biến đặc trưng cho dữ liệu số dư tài
khoản của thuê bao
Các biến đặc trưng cho dữ liệu cước phí các
gói sử dụng theo chu kỳ của thuê bao
Các biến đặc trưng cho dữ liệu tổng hợp
charge cước sử dụng các dịch vụ VAS của
thuê bao
Các biến đặc trưng cho dữ liệu home của
thuê bao
Các biến đặc trưng cho dữ liệu thông tin
thuê bao, khách hàng
Lựa chọn các thuộc tính quan trọng bằng
thuật toán Decision Tree
Validation of the Training Data Set (80% of
Total)
Validation of the Testing Data Set (20% of
Total)


STT Chương
Mục
20
3
3.3.2.2
21
3
3.3.2.2
22
3
3.3.2.2
23
3
3.3.3.1

Bảng
Bảng 3.18
Bảng 3.19
Bảng 3.20
Bảng 3.21

24

3

3.3.3.1

Bảng 3.22

25

3

3.3.3.4

Bảng 3.23

26

3

3.3.3.6

Bảng 3.24

27

3

3.3.3.7

Bảng 3.25

Tên bảng
Sử dụng Logistic Regression
Sử dụng Naïve Bayes
So sánh các kết quả
Kết quả phân cụm bằng thuật toán K-mean
Kết quả chi tiết phân cụm bằng thuật toán
K-mean
Tối ưu mô hình bằng cách lựa chọn lại các
đặc trung
Lựa chọn mô hình dự đoán tốt nhất
Mô hình dự báo với thuật toán Gradien
Booting


DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ
STT
1
2

Chương
1
1

Mục
1.1.1.4
1.1.1.4

Hình
Hình 1.1
Hình 1.2

3

1

1.1.1.4

Hình 1.3

4
5

1
1

1.1.1.4
1.1.1.4

Hình 1.4
Hình 1.5

6

1

1.1.1.5

Hình 1.6

7

1

1.1.1.5

Hình 1.7

8

1

1.1.1.5

Hình 1.8

9

1

1.1.1.5

Hình 1.9

10

1

1.1.2

Hình 1.10

11

1

1.2.1.2

Hình 1.11

12

1

1.2.1.2

Hình 1.12

13

1

1.2.1.2

Hình 1.13

14

1

1.2.1.2

Hình 1.14

15

1

1.2.1.2

Hình 1.15

16

1

1.2.2.2

Hình 1.16

17

1

1.2.2.2

Hình 1.17

18
19

1
1

1.3.2.1
1.3.2.1

Hình 1.18
Hình 1.19

20

1

1.3.2.3

Hình 1.20

21

1

1.3.2.3

Hình 1.21

Tên hình vẽ
Một ví dụ về lưu trữ dạng Key-value
Một ví dụ về lưu trữ dạng Document
Một ví dụ về lưu trữ dạng Columnfamily
Một ví dụ về lưu trữ dạng Graph
Sơ đồ Venn tóm tắt định lý CAP
Một quy trình ETL có thể trích xuất dữ
liệu từ nhiều nguồn và chuyển đổi nó
để tải vào một hệ thống đích duy nhất
Một tác vụ có thể được chia thành ba
tác vụ phụ được thực thi song song trên
ba bộ xử lý khác nhau trong cùng một
máy
Một ví dụ về xử lý dữ liệu phân tán
Hadoop là một khung đa năng cung cấp
cả khả năng xử lý và lưu trữ
Giá trị và độ phức tạp tăng từ phân tích
mô tả đến phân tích đề xuất
Thiết bị lưu trữ trong bộ nhớ có tốc độ
truyền dữ liệu nhanh hơn 80 lần so với
thiết bị lưu trữ trên đĩa
Một ví dụ mô tả việc truy xuất dữ liệu
từ IMDG
Một ví dụ về lưu trữ IMDG xử lý với
một truy vấn liên tục
Một ví dụ mô tả việc truy xuất dữ liệu
từ IMDB
Một ví dụ về lưu trữ IMDB được cấu
hình với một truy vấn liên tục
Một minh họa về công việc
MapReduce
Một ví dụ về MapReduce đang hoạt
động
Biểu diễn cây quyết định cơ bản
Cây quyết định cho việc chơi Tennis
Biểu đồ hàm Sigmoid (Ảnh: Tạp chí
Analytics Ấn Độ)
Biểu đồ hàm chi phí


STT
22

Chương
1

Mục
1.3.2.3

Hình
Hình 1.22

23

1

1.3.2.4

Hình 1.23

24
25
26
27
28
29
30

1
1
1
1
1
1
1

1.3.2.5
1.3.2.5
1.3.3.3
1.3.3.4
1.3.3.4
1.3.3.4
1.3.3.4

Hình 1.24
Hình 1.25
Hình 1.26
Hình 1.27
Hình 1.28
Hình 1.29
Hình 1.30

31

1

1.3.3.4

Hình 1.31

32

1

1.3.3.4

Hình 1.32

33

1

1.3.3.4

Hình 1.33

34

1

1.3.3.4

Hình 1.34

35

2

2.1.1

Hình 2.1

36

2

2.1.1

Hình 2.2

37

2

2.2.1

Hình 2.3

38

2

2.2.2

Hình 2.4

39
40

2
2

2.2.3.2
2.2.4

Hình 2.5
Hình 2.6

41

3

3.2.1.1

Hình 3.1

42

3

3.2.1.2

Hình 3.2

43

3

3.2.1.3

Hình 3.3

44
45

3
3

3.2.1.5
3.2.2

Hình 3.4
Hình 3.5

46

3

3.3.2.1

Hình 3.6

Tên hình vẽ
Mô phỏng Gradient Descent
Sơ đồ Cây quyết định (Nguồn: Basten
K., 2016)
Mô hình mạng nơron nhiều lớp
Tiến trình học
Vai trò của mô hình và từng tập dữ liệu
Overfitting, Underfitting
Confusion Matrix
Phương pháp Bias & Variance
Phương pháp đường cong AUC-ROC
Đánh giá mô hình qua chỉ số AUC.
Trường hợp tốt nhất khi 2 đường cong
không chồng lên nhau
Đánh giá mô hình qua chỉ số AUC.
Trường hợp khi 2 đường cong có chồng
lên nhau
Đánh giá mô hình qua chỉ số AUC.
Trường hợp tệ nhất khi 2 đường cong
hoàn toàn chồng lên nhau
Đánh giá mô hình qua chỉ số AUC.
Trường hợp khi AUC xấp xỉ 0
Các lĩnh vực phân tích dữ liệu lớn trong
viễn thông
Mức độ ứng dụng phân tích dữ liệu lớn
trong viễn thông
Phương pháp tổ chức hệ thống dữ liệu
lớn
Mô hình tổ chức thực tế hệ thống
BigData tại Viettel
So sánh CDH và HDP
Các phân hệ cài đặt Big Data của HDP
Mô hình triển khai hệ thống BigData
thực nghiệm
Mô hình đấu nối hệ thống
Luồng khai phá dữ liệu trong
Rapidminer
Luồng xử lý khai phá dữ liệu
Mô hình dự báo thuê bao rời mạng
Phương pháp huấn luyện một cây quyết
định cho mỗi nguồn dữ liệu


STT

Chương

Mục

Hình

47

3

3.3.2.1

Hình 3.7

48

3

3.3.2.1

Hình 3.8

49

3

3.3.2.1

Hình 3.9

50

3

3.3.3.5

Hình 3.10

Tên hình vẽ
Cắt bỏ các mức thấp và trích xuất các
nút từ các cấp cao hơn
Mô tả cây quyết định trên Rapidminer
Các thuộc tính quan trọng sau khi cắt
bỏ
Mô hình tối ưu


MỞ ĐẦU
Trên thế giới, dữ liệu lớn (BigData) đã và đang là một trong những vấn đề
trung tâm, nhận được nhiều sự quan tâm trong cuộc cách mạng công nghiệp lần
thứ tư. BigData chính là cốt lõi để sử dụng, phát triển internet vạn vật (IoT) và trí
tuệ nhân tạo (AI) [1]. Theo dự báo, cách mạng công nghiệp lần thứ tư sẽ tạo ra
một lượng lớn dữ liệu, dự kiến đến năm 2020, lượng dữ liệu sẽ tăng gấp 50 lần
hiện nay [4]. Thông qua thu thập, phân tích và xử lý lượng dữ liệu lớn này sẽ tạo
ra những tri thức mới, hỗ trợ việc đưa ra quyết định của các chủ thể trên thế giới
(doanh nghiệp, chính phủ, người dân) [1, 4].
Trong ngành viễn thông và CNTT, dữ liệu lớn trở thành công cụ hữu hiệu cho
các nhà cung cấp dịch vụ viễn thông trong kinh doanh cũng như công tác quản lý
vận hành khai thác dịch vụ. Các doanh nghiệp viễn thông ngày nay đã chủ động
ứng dụng công nghệ mới này đề xây dựng các hệ thống phân tích dữ liệu làm cơ
sở để giám sát, quản lý và ra các quyết định có tính chiến lược. Lĩnh vực áp dụng
dự liệu lớn trong viễn thông rất phong phú liên quan đến các công nghệ phân tích
dự báo, học máy (ML), trí tuệ nhân tạo (AI)…[2, 10]. Dựa vào các công cụ này
doanh nghiệp có thể nâng cao chất lượng dịch vụ cung cấp, đạt hiệu quả kinh
doanh. Phạm vi ứng dụng dữ liệu lớn trong viễn thông nói riêng rất rộng, các ứng
dụng có thể kể đến như hệ thống phân tích quản lý trải nghiệm khách hàng
(Customer Experience Mgmt), hệ thống giám sát, quản lý và tối ưu mạng lưới
(Network OAM), hệ thống phân tích hoạt động doanh nghiệp (Operation
Analytics) và thương mại dữ liệu (Data Monetization) …[7, 11]
Viettel là một doanh nghiệp hàng đầu Việt Nam luôn có chiến lược đổi mới,
tiên phong trong công nghệ. Việc ứng dụng một cách nhanh nhất, hiệu quả nhất
các công nghệ mới nói chung và nhất là các công nghệ liên quan đến dữ liệu lớn
nói riêng luôn là thách thức của đội ngũ kỹ thuật Viettel. Một trong những ứng
dụng phổ biến nhất hiện nay mà các nhà cung cấp dịch vụ viễn thông sử dụng đó
là hệ thống phân tích dự báo khách hàng rời mạng. Đây là hệ thống quan trọng
mà đội ngũ kỹ thuật Viettel tự nghiên cứu xây dựng dựa trên tư vấn của đối tác
cung cấp nền tảng dữ liệu lớn Cloudera.
Bản thân là một trong những thành viên tham gia dự án xây dựng bài toán,
tôi xin giới thiệu đề tài nghiên cứu: "TỔ CHỨC VÀ TÍCH HỢP HỆ THỐNG
1


PHÂN TÍCH DỮ LIỆU LỚN PHỤC VỤ CÔNG TÁC DỰ BÁO TRONG VIỄN
THÔNG". Với mong muốn hiểu được phương pháp phân tích dự báo và tự bản
thân tích hợp được một hệ thống dữ liệu lớn, tôi đã đặt mục tiêu nghiên cứu các
nội dung sau đây:
Tổng quan về vấn đề nghiên cứu:
 Tìm hiểu về dữ liệu lớn, các công nghệ liên quan đến dữ liệu lớn (công
nghệ xử lý và lưu trữ dữ liệu), các ứng dụng cho dữ liệu lớn. Tìm hiểu về
bài toán phân tích dự báo và phương pháp dự báo thuê bao rời mạng dựa
trên hành vi tiêu dùng và thói quen sử dụng dịch vụ của khách hàng.
 Xây dựng tích hợp hệ thống phân tích dữ liệu lớn phục vụ công tác dự báo
thuê bao rời mạng tại Viettel.

Mục đích nghiên cứu: Tìm hiểu dữ liệu lớn và xây dựng ứng dụng vào
thực tiễn phục vụ công tác kinh doanh của Viettel.
Đối tượng nghiên cứu:
 Dữ liệu lớn (khái niệm, cách hoạt động và công nghệ hỗ trợ).
 Ứng dụng dữ liệu lớn vào thực tiễn tại Viettel.
Phạm vi nghiên cứu:
 Các khái niệm cơ bản về dữ liệu lớn.
 Giải pháp mã nguồn mở cho BigData dựa trên Cloudera Flatform.
 Xây dựng hệ thống dữ liệu lớn cho một ứng dụng phân tích dự báo cụ thể..

Phương pháp nghiên cứu:
 Nghiên cứu lý thuyết về dữ liệu lớn trong hệ thống Công nghệ thông tin với
mục tiêu là hiểu được nền tảng cơ bản.
 Nghiên cứu các công nghệ cho hệ thống dữ liệu lớn với mục tiêu là hiểu và
triển khai được công nghệ.
 Tìm hiểu về các hệ thống dữ liệu phục vụ sản xuất kinh doanh của Viettel

phục vụ cho sản xuất kinh doanh của doanh nghiệp với mục tiêu nắm vững
các nguồn dữ liệu lớn đang có và triển khai việc xây dựng BigData.

2


Phương pháp thực nghiệm: Xây dựng tích hợp một hệ thống dữ liệu lớn
dựa trên nền tảng Cloudera Flatform phục vụ cho một ứng dụng cụ thể là phân
tích dự báo thuê bao rời mạng của Viettel.
Với các mục tiêu xác định cụ thể như trên, kết quả của luận văn dự kiến sẽ
cho ra đời một hệ thống phân tích dữ liệu lớn phục vụ cho công tác dự báo thuê
bao rời mạng mới (thay thế cho hệ thống vBI cũ). Hệ thống phân tích mới này
dựa trên các thuật toán dự báo tiên tiến kết hợp với công nghệ xử lý dữ liệu lớn sẽ
cho ra kết quả phân tích nhanh hơn và có độ chính xác hơn. Qua đó, công cụ này
sẽ giúp Viettel đưa ra quyết định kịp thời và hiệu quả hơn trong việc gìn giữ khách
hàng của mình.
Luận văn được cấu trúc như sau:
CHƯƠNG 1: TỔNG QUAN.
Chương này trình bày các khái niệm cơ bản về dữ liệu lớn, công nghệ lưu trữ
và xử lý dữ liệu lớn. Các bài toán phân tích dự báo, mô hình dự báo, giới thiệu
các kỹ thuật phân tích dự báo và công cụ phân tích dữ liệu Rapidminer cũng là
một trong những nội dung quan trọng của phần này.
CHƯƠNG 2: TỔ CHỨC MỘT HỆ THỐNG PHÂN TÍCH DỮ LIỆU LỚN.
Đây là chương khá quan trọng được chia làm 02 phần. Phần thứ nhất giới thiệu
các ứng dụng phân tích dữ liệu lớn phổ biến hiện nay, hiện trạng các nguồn dữ
liệu lớn cùng với các hệ thống ứng dụng phân tích dữ liệu lớn tại Viettel. Phần
còn lại sẽ chia sẻ phương pháp tổ chức hệ thống dữ liệu lớn tập trung, cách thiết
kế kiến trúc hạ tầng dữ liệu lớn hiện tại của Viettel.
CHƯƠNG 3: THỰC NGHIỆM TÍCH HỢP HỆ THỐNG DỰ BÁO THUÊ
BAO RỜI MẠNG
Chương 3 là chương chuyển thể các kiến thức nghiên cứu được thành nội dung
ứng dụng thực tế. Chương này đưa ra thực nghiệm tích hợp một hệ thống phân
tích dự báo thuê bao rời mạng với một hệ thống xử lý dữ liệu lớn thành một công
cụ có áp dụng dự báo cụ thể. Hệ thống này bước đầu cho ra các kết quả sơ bộ về
đặc điểm thuê bao rời mạng với độ chính xác >80% sau khi tối ưu các bước dự
báo.
Tuy nhiên, để kết quả thực nghiệm là một công cụ áp dụng hiệu quả trong thực
tế kinh doanh của Viettel, ngoài việc tối ưu lại hệ thống thì còn phải thực hiện tối
3


ưu mô hình liên tục. Kết quả thực nghiệm của chương trình này chỉ mang tính
chất tham khảo, chưa thể áp dụng trong thực tế.
Trên đây là giới thiệu cơ bản nội dung về luận văn tốt nghiệm của bản thân.
Nội dung thực hiện chỉ mới là quan điểm và tư duy cá nhân, sẽ còn nhiều tồn tại
và thiết sót. Do vậy, rất mong quý thầy cô, bạn học và nhất là hội đồng tốt nghiệp
cho ý kiến đóng góp để luận văn được hoàn thiện, kết quả luận văn là công cụ dự
báo được áp dụng hiệu quả trong thực tế.

4


CHƯƠNG 1. TỔNG QUAN
1.1. CÁC KHÁI NIỆM CƠ BẢN
1.1.1. Khái niệm chung về dữ liệu lớn
Bộ dữ liệu (Data sets)
Nhiều tập dữ liệu hay nhiều nhóm dữ liệu có liên quan đến nhau được gọi là
bộ dữ liệu [5]. Trong đó mỗi nhóm hoặc tập con dữ liệu đó có cùng thuộc tính
giống nhau. Một số ví dụ về bộ dữ liệu ở 03 định dạng khác nhau:
+ Dữ liệu Tweets được lưu giữ trong tập tin phẳng (flat file).
+ Trích xuất các hàng từ bảng dữ liệu (database table) được lưu giữ trong tệp
định dạng CSV. Bộ sưu tập ảnh được lưu trong thư mục.
+ Các thông tin quan sát về lịch sử thời tiết được lưu dưới dạng XML
Đặc điểm dữ liệu lớn 5V (Volume, Velocity, Variety, Veracity, Value)
Dữ liệu lớn BigData có 05 đặc điểm hay còn gọi là 5V: Volume-Khối lượng
lớn; Velocity-Tốc độ; Variety-Tính đa dạng; Veracity-Tính xác thực và ValueMang lại giá trị. Hầu hết các đặc điểm về dữ liệu lớn được Doug Laney xác định
vào năm 2001 khi đăng bài viết về dữ liệu doanh nghiệp (Volume, Velocity,
Variety). Tính xác thực (Veracity) được bổ sung để tính tỷ lệ signal-to-noise khi
so sánh dữ liệu phi cấu trúc với dữ liệu có cấu trúc. Cuối cùng, Value- để xác định
các kết quả phân tích dữ liệu lớn mang lại giá trị gì? [8].
Phân biệt các loại dữ liệu
Dữ liệu có cấu trúc (Structured Data): Dữ liệu có cấu trúc phù hợp với mô
hình dữ liệu được lưu trữ ở dạng bảng. Chúng được sử dụng để mô tả mối quan
hệ giữa các thực thể khác nhau và do đó thường được lưu trữ trong cơ sở dữ liệu
quan hệ. Dữ liệu có cấu trúc thường được tạo bởi các ứng dụng doanh nghiệp và
hệ thống thông tin như hệ thống ERP và CRM. Ví dụ về loại dữ liệu này bao gồm
các giao dịch ngân hàng, hóa đơn và hồ sơ khách hàng.
Dữ liệu phi cấu trúc (Unstructured Data): Dữ liệu không phù hợp với mô hình
dữ liệu hoặc lược đồ dữ liệu được gọi là dữ liệu phi cấu trúc. Người ta ước tính
rằng dữ liệu phi cấu trúc chiếm tới 80% dữ liệu trong bất kỳ doanh nghiệp nào.
Ngày nay, dữ liệu phi cấu trúc có tốc độ tăng trưởng nhanh hơn dữ liệu có cấu
trúc. Một số loại dữ liệu phi cấu trúc phổ biến như dữ liệu có dạng văn bản (text)
hoặc nhị phân (binary).
5


Dữ liệu phi cấu trúc không thể được xử lý hoặc truy vấn trực tiếp bằng cơ sở
dữ liệu quan hệ SQL. Nếu muốn lưu trữ dữ liệu phi cấu trúc trong cơ sở dữ liệu
quan hệ, thì phải được lưu trữ trong một bảng dưới dạng BLOB (Binary Large
Object). Ngoài ra, cơ sở dữ liệu NonSQL có thể được sử dụng để lưu trữ dữ liệu
phi cấu trúc.
Dữ liệu bán cấu trúc (Semi-structured Data): Dữ liệu bán cấu trúc thường là
dữ liệu có cấu trúc nhưng không đồng nhất. Thay vào đó, dữ liệu bán cấu trúc có
dạng phân cấp (hierarchical) hoặc đồ thị (graphbased). Loại dữ liệu này thường
được lưu trữ trong các tệp có chứa văn bản. Ví dụ như các tệp XML và JSON là
các dạng phổ biến của dữ liệu bán cấu trúc. Do tính chất văn bản của dữ liệu này
và sự phù hợp của nó với một mức độ cấu trúc nào đó, nó dễ dàng khai thác hơn
dữ liệu phi cấu trúc.
Các nguồn phổ biến của dữ liệu bán cấu trúc bao gồm các tệp trao đổi dữ liệu
điện tử (EDI), bảng tính, nguồn dữ liệu từ các bộ cảm biến. Dữ liệu bán cấu trúc
thường có các yêu cầu lưu trữ và xử lý trước đặc biệt, đặc biệt nếu định dạng cơ
bản không dựa trên văn bản. Một ví dụ về tiền xử lý dữ liệu bán cấu trúc sẽ là xác
thực tệp XML để đảm bảo rằng nó tuân thủ theo lược đồ của nó.
Siêu dữ liệu (Metadata): Siêu dữ liệu cung cấp thông tin về các đặc điểm và
cấu trúc của bộ dữ liệu. Loại dữ liệu này chủ yếu được tạo bằng máy và có thể
được thêm vào dữ liệu. Việc theo dõi siêu dữ liệu rất quan trọng đối với việc xử
lý, lưu trữ và phân tích dữ liệu lớn vì nó cung cấp thông tin về phả hệ của dữ liệu
và nguồn gốc của nó trong quá trình xử lý. Ví dụ về siêu dữ liệu bao gồm: Thẻ
XML cung cấp ngày xác thực và ngày tạo tài liệu; Các thuộc tính cung cấp kích
thước tệp và độ phân giải của ảnh kỹ thuật số; Các giải pháp dữ liệu lớn thường
dựa trên siêu dữ liệu, đặc biệt khi xử lý dữ liệu bán cấu trúc và không cấu trúc
[5].
1.1.2. Các khái niệm lưu trữ dữ liệu lớn
Các dữ liệu thu được từ các nguồn bên ngoài thường không ở định dạng hoặc
cấu trúc có thể xử lý ngay được. Để khắc phục được tình trạng này, việc sắp xếp
lưu trữ dữ liệu là vô cùng cần thiết. Xử lý sắp xếp lưu trữ dữ liệu bao gồm các
bước: Lọc dữ liệu, làm sạch dữ liệu và chuẩn bị dữ liệu. Do nhu cầu lưu trữ dữ
liệu trong BigData, nên có nhiều công nghệ tiên tiến được tạo ra để hướng tới việc
lưu trữ hiệu quả và có khả năng mở rộng cao [5].
6


Cụm dữ liệu (Clusters)
Trong điện toán, một cụm là một tập hợp các máy chủ hoặc các nút được liên
kết chặt chẽ. Các máy chủ này thường có cùng phần cứng và được kết nối với
nhau thông qua một mạng để hoạt động như một đơn vị lưu trữ và xử lý dữ liệu.
Mỗi nút trong cụm có các tài nguyên riêng biệt, chẳng hạn như bộ nhớ, bộ xử lý
và ổ cứng. Một cụm có thể thực thi một tác vụ bằng cách chia nó thành các phần
nhỏ và phân phối thực thi của chúng trên các máy tính khác nhau thuộc cụm.
Hệ thống lưu trữ file, hệ thống lưu trữ file phân tán
Hệ thống lưu trữ file (gọi tắt là hệ thống file) là hệ thống sử dụng phương pháp
lưu trữ và sắp xếp dữ liệu trên thiết bị lưu trữ (ổ đĩa flash, DVD, ổ cứng…). File
(tệp) là một đơn vị lưu trữ dữ liệu nhỏ nhất được quản lý bởi hệ thống file. Về mặt
logic, hệ thống file có cấu trúc như một cây thư mục. Các hệ điều hành sử dụng
hệ thống file để lưu trữ và truy xuất dữ liệu cho các ứng dụng. Mỗi một hệ điều
hành có thể có một hoặc nhiều hệ thống file, ví dụ hệ thống file NTFS trên hệ điều
hành Microsoft Windows và hệ thống file EXT trên Linux.
Một hệ thống lưu trữ file phân tán (hệ thống file phân tán) là một hệ thống file
có thể lưu trữ các file (tệp) có dung lượng lớn được phân tán đều trên các nút của
cụm dữ liệu. Nó cho phép các file được truy cập từ nhiều vị trí khác nhau. Ví dụ,
hệ thống file phân tán của Google (GFS) và hệ thống file phân tán Hadoop
(HDFS) [5].
Cơ sở dữ liệu không quan hệ (Non-SQL)
Cơ sở dữ liệu Non-SQL là CSDL không quan hệ, có khả năng mở rộng cao,
tính chịu lỗi và được thiết kế đặc biệt cho dữ liệu không có cấu trúc hoặc bán cấu
trúc. CSDL Non-SQL này thường được cung cấp giao diện truy vấn API và có thể
được gọi từ bên trong ứng dụng. CSDL Non-SQL còn có khả năng hỗ trợ các truy
vấn có cấu trúc (SQL).
CSDL Non-SQL có thể được phân thành bốn loại dựa trên cách chúng lưu trữ
dữ liệu, như trong Hình 1.1 – 1.4: Dạng key-value (khóa-giá trị); Dạng document
(tài liệu); Dạng column-family; Dạng graph (đồ thị) [5].

7


Hình 1.1. Một ví dụ về lưu trữ dạng Key-value.

Hình 1.2. Một ví dụ về lưu trữ dạng Document.

Hình 1.3. Một ví dụ về lưu trữ dạng Column-family.

Hình 1.4. Một ví dụ về lưu trữ dạng Graph.
Phân đoạn dữ liệu (Sharding)
Phân đoạn dữ liệu là quá trình phân vùng dữ liệu theo chiều ngang, từ một tập
dữ liệu lớn thành một tập hợp các bộ dữ liệu nhỏ hơn, dễ quản lý hơn được gọi là
phân đoạn. Các phân đoạn được phân phối trên nhiều nút, trong đó mỗi một nút
là máy chủ. Mỗi phân đoạn được lưu trữ trên một nút riêng biệt và mỗi nút chỉ
chịu trách nhiệm cho dữ liệu được lưu trữ trên đó. Mỗi phân đoạn có cùng một
lược đồ (schema) và tất cả các phân đoạn đều đại diện cho một bộ dữ liệu hoàn
chỉnh [5].
Việc xử lý phân đoạn dữ liệu thường trong suốt với các máy client, phân đoạn dữ
liệu cho phép phân phối tải xử lý trên nhiều nút (node) để có khả năng mở rộng lưu
trữ dữ liệu theo chiều ngang. Đây là phương pháp để tăng năng lực của hệ thống
8


bằng cách thêm các tài nguyên (node). Khi đó mỗi một node chỉ chịu trách nhiệm
cho một phần của toàn bộ tập dữ liệu, do vậy thời gian đọc/ghi được cải thiện rất
nhiều. Một lợi ích khác của phân đoạn dữ liệu là khả năng chịu lỗi. Trong trường hợp
một node bị lỗi, chỉ có dữ liệu trên node đó bị ảnh hưởng [5].
Sao lưu dữ liệu (Repilication)
Sao lưu dữ liệu là quá trình tạo ra nhiều bản sao cho một tập dữ liệu nằm ở trên
nhiều node. Sao lưu dữ liệu cung cấp khả năng mở rộng và tính khả dụng của dữ
liệu do được lưu trên nhiều node khác nhau. Khả năng chịu được lỗi cũng được
cải thiện do có dự phòng dữ liệu – dữ liệu không bị mất đi khi một node riêng lẻ
bị lỗi. Hiện nay, có 02 mô hình sao lưu dữ liệu là sao lưu chủ – tớ (master-slave)
và sao lưu ngang hàng (peer-to-peer) [5].
Nguyên lý CAP (Consistency, Availability, and Partition tolerance)
Nguyên lý CAP [5] còn được
gọi là nguyên lý Brewer, thể hiện
với ba ràng buộc liên quan đến các
hệ thống cơ sở dữ liệu phân tán đó
là tính nhất quán (C-Consistency),
độ khả dụng (Availability) và
ngưỡng

phân

vùng

(Partition

tolerance). Nguyên lý nói rằng một
hệ thống cơ sở dữ liệu phân tán,
chạy trên một cụm, chỉ có thể đáp
ứng hai trong ba thuộc tính sau:

Hình 1.5. Sơ đồ Venn - định lý CAP.

+ Tính nhất quán:Việc đọc từ bất kỳ nút nào đều có dữ liệu đầu ra như nhau
+ Tính khả dụng: Yêu cầu đọc/ghi sẽ luôn được xác nhận dưới hai dạng: thành
công hay thất bại.
+ Ngưỡng phân vùng: Hệ thống cơ sở dữ liệu có thể chịu đựng được mất điện
liên lạc chia cụm thành nhiều silo và vẫn có thể phục vụ các yêu cầu đọc/ghi.
Nguyên tắc thiết kế ACID
ACID là một nguyên tắc thiết kế cơ sở dữ liệu liên quan đến quản lý giao dịch.
Nó là từ viết tắt của tính nguyên tử (Atomicity), tính nhất quán (Consistency), độ
cách ly (Isolation) và độ bền (Durability)

9


ACID là một phương pháp quản lý các giao dịch đồng thời, kiểm soát thông
qua khóa bản ghi (record locks) để đảm bảo tính nhất quán được duy trì. ACID là
phương pháp truyền thống để quản lý cơ sở dữ liệu giao dịch trong các hệ thống
quản lý cơ sở dữ liệu quan hệ (RDBMS).
+ Tính nguyên tử đảm bảo rằng tất cả các giao dịch sẽ luôn luôn thành công
hoặc thất bại hoàn toàn. Nói cách khác, không có giao dịch một phần.
+ Tính nhất quán đảm bảo rằng dữ liệu phải luôn luôn phù hợp với định dạng
để có thể được ghi được vào CSDL. Một CSDL ở trạng thái nhất quán sẽ
vẫn ở trạng thái nhất quán sau khi giao dịch thành công.
+ Độ cách ly đảm bảo rằng kết quả của một giao dịch đang thực hiện không
thể ảnh hưởng bởi một giao dịch khác cho đến khi giao dịch đó hoàn thành.
+ Độ bền đảm bảo rằng kết quả của một giao dịch là vĩnh viễn. Nói cách khác,
một khi giao dịch đã được thực hiện, nó không thể được khôi phục dù cho
hệ thống có thể xảy ra lỗi [5].
1.1.3 Các khái niệm về xử lý dữ liệu lớn
Xử lý giao dịch trực tuyến (OLTP)
OLTP là một hệ thống phần mềm xử lý dữ liệu theo hướng giao dịch. Thuật
ngữ giao dịch trực tuyến dùng để chỉ các hành động xử lý theo hướng thời gian
thực (real time). Dữ liệu được lưu giữ trong hệ thống OLTP được chuẩn hóa, cơ
bản có cấu trúc và là đầu vào cho các xử lý phân tích.
Các truy vấn được xử lý trong hệ thống OLTP bao gồm các thao tác chèn, xóa
và cập nhật đơn giản với thời gian phản hồi mức mili giây. Ví dụ bao gồm hệ
thống đặt vé, ngân hàng và hệ thống điểm bán hàng [5].
* Xử lý phân tích trực tuyến (OLAP)
Các hệ thống xử lý phân tích trực tuyến (OLAP) được sử dụng để xử lý các
truy vấn phân tích dữ liệu. OLAP là một phần không thể thiếu của BI, khai phá
dữ liệu và học máy. OLAP có liên quan đến BigData ở chỗ chúng có thể đóng vai
trò là nguồn dữ liệu đầu vào cũng như nguồn dữ liệu đầu ra của BigData. Chúng
được sử dụng trong phân tích chẩn đoán, phân tích dự đoán và phân tích đề xuất.
Các hệ thống OLAP thực hiện các truy vấn phức tạp, dài hạn đối với cơ sở dữ liệu
đa chiều có cấu trúc được tối ưu hóa để thực hiện các phân tích nâng cao.
Hệ thống OLAP lưu trữ dữ liệu lịch sử dưới dạng không được chuẩn hóa để
hỗ trợ khả năng báo cáo nhanh. OLAP cũng có khả năng lưu trữ các dữ liệu này

10


dưới dạng cấu trúc đa chiều để đáp ứng các truy vấn phức tạp dựa trên mối quan
hệ dữ liệu [5].
* Trích xuất dữ liệu (ETL)
Trích xuất dữ liệu (ETL - Extract Transform Load) là quá trình chuyển tải từ
hệ thống nguồn đến hệ thống đích. Hệ thống nguồn ở đây có thể là CSDL, tệp
hoặc ứng dụng. Tương tự hệ thống đích có thể là CSDL hoặc các hệ thống lưu trữ
khác. ETL là các xử lý chính trong kho dữ liệu (Data warehouse). Trong BigData,
ETL được sử dụng để chuyển đổi giữa các loại dữ liệu khác nhau. Hình 1.6 cho
thấy dữ liệu trích xuất được lấy từ các nguồn khác nhau, được chuyển đổi trước
khi được đưa vào hệ thống đích [5].

Hình 1.6. Một quy trình ETL có thể trích xuất dữ liệu từ nhiều nguồn và chuyển
đổi nó để tải vào một hệ thống đích duy nhất.
Xử lý dữ liệu song song
Xử lý dữ liệu song song là việc chia một nhiệm vụ lớn hơn thành nhiều nhiệm vụ
nhỏ hơn chạy đồng thời với mục tiêu là giảm thời gian thực hiện. Mặc dù cơ chế xử lý
dữ liệu song song có thể đạt được thông qua nhiều máy được nối mạng, nhưng thông
thường được áp dụng trong phạm vi một máy chủ có nhiều bộ xử lý hoặc lõi, mỗi một
bộ xử lý sẽ thực hiện một tác vụ khác nhau (Hình 1.7) [5].

Hình 1.7. Một tác vụ có thể được chia thành ba tác vụ phụ được thực thi song
song trên ba bộ xử lý khác nhau trong cùng một máy.
11


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×