Tải bản đầy đủ

Nghiên cứu cải tiến các kỹ thuật rút gọn đặc trưng cho phân lớp dữ liệu

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Hà Văn Sang

NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT GỌN
ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

HÀ NỘI – 2018


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Hà Văn Sang

NGHIÊN CỨU CẢI TIẾN CÁC KỸ THUẬT RÚT
GỌN ĐẶC TRƯNG CHO PHÂN LỚP DỮ LIỆU


Chuyên ngành: Hệ thống thông tin
Mã số: 62.48.01.04
LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS. TS. NGUYỄN HÀ NAM
2. PGS. TS. NGUYỄN HẢI CHÂU

Hà Nội – 2018


LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướng
dẫn của PGS.TS. Nguyễn Hà Nam và PGS.TS. Nguyễn Hải Châu tại Bộ môn các Hệ
thống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học
Quốc gia Hà nội. Các số liệu và kết quả trình bày trong luận án là trung thực và chưa
được công bố trong bất cứ các công trình nào khác trước đây.
Tác giả

Hà Văn Sang

i


LỜI CẢM ƠN
Luận án được thực hiện tại Bộ môn Hệ thống Thông tin-Khoa CNTT, Trường
Đại học Công nghệ, Đại học Quốc gia Hà Nội, dưới sự hướng dẫn của PGS.TS.
Nguyễn Hà Nam và PGS.TS. Nguyễn Hải Châu.
Trước tiên, tôi xin bày tỏ lòng biết ơn sâu sắc tới PGS.TS. Nguyễn Hà Nam
và PGS.TS. Nguyễn Hải Châu. Hai Thầy đã tận tụy chỉ dạy, giúp đỡ tôi từ định hướng
nghiên cứu đến việc giải quyết những vấn đề khó khăn nhất trong quá trình nghiên
cứu. Không chỉ về lĩnh vực nghiên cứu khoa học, các Thầy còn chỉ bảo cho tôi nhiều
điều trong cuộc sống. Đó là những bài học vô cùng quý giá và hữu ích cho chính bản
thân tôi trong thời gian tới.
Tôi cũng xin gửi lời cảm ơn tới tập thể các Thầy, Cô giáo, các nhà khoa học
trong khoa CNTT đã truyền đạt cho tôi những kiến thức quý báu và đã tạo điều kiện
thuận lợi cho tôi trong quá trình học tập và nghiên cứu.
Tôi xin gửi lời cảm ơn tới các Thầy, Cô giáo ở Bộ môn Tin học Tài chính kế
toán, khoa Hệ thống Thông tin kinh tế, Học viện Tài chính, những người đồng nghiệp
đã tạo điều kiện giúp đỡ tôi về mặt thời gian cũng như sắp xếp công việc trong quá


trình tôi làm nghiên cứu sinh.
Tôi cũng gửi lời cảm ơn tất cả bạn bè, những người đã giúp đỡ và hỗ trợ tôi
trong suốt quá trình nghiên cứu.
Cuối cùng, tôi vô cùng biết ơn gia đình, bố mẹ tôi, anh chị em, đặc biệt là vợ
của tôi, những người đã động viên, tạo mọi điều kiện thuận lợi để tôi có thể hoàn
thành chương trình nghiên cứu sinh của mình.
Hà Văn Sang

Hà Nội, 1-12-2017

ii


TÓM TẮT
Rút gọn đặc trưng ngày càng được sử dụng rộng rãi nhằm tăng hiệu năng cũng
như giảm chi phí trong quá trình phân tích dữ liệu. Mục tiêu của việc rút gọn đặc
trưng là xác định và giảm bớt đặc trưng của dữ liệu gốc dựa trên việc biến đổi không
gian đặc trưng hoặc lựa chọn những đặc trưng quan trọng, loại bỏ các đặc trưng không
liên quan, dư thừa nhằm giảm kích thước dữ liệu, từ đó cải thiện hiệu quả, độ chính
xác của các mô hình phân tích dữ liệu. Các kỹ thuật rút gọn đặc trưng đã được áp
dụng rộng rãi trong nhiều ứng dụng khác nhau như: cho điểm tín dụng, phân tích dữ
liệu ung thư, tìm kiếm thông tin, phân lớp văn bản. Tuy nhiên, không tồn tại một kỹ
thuật rút gọn đặc trưng mà hiệu quả trên mọi miền dữ liệu. Trong luận án này, chúng
tôi tập trung vào việc tìm hiểu, phân tích và cải tiến một số kỹ thuật rút gọn đặc trưng
nhằm tăng hiệu năng của kỹ thuật phân tích dữ liệu hiện có theo hai hướng tiếp cận
là lựa chọn đặc trưng và trích xuất đặc trưng.
Có nhiều cách tiếp cận rút gọn đặc trưng khác nhau đã được giới thiệu, tuy
nhiên các cách tiếp cận này vẫn tồn tại một số hạn chế khi áp dụng với các miền dữ
liệu khác nhau. Chúng tôi đã đề xuất phương pháp lựa chọn đặc trưng có tên FRFE
(Fast Recursive Feature Elimination) dựa trên hướng tiếp cận đóng gói (wrapper) với
lõi là một thủ tục loại bỏ đặc trưng đệ quy. Để tăng hiệu quả của việc lựa chọn đặc
trưng, chúng tôi đã đề xuất một hàm đánh giá (ranking) đặc trưng và thủ tục lựa chọn
đặc trưng tương ứng. Hơn nữa, do đặc điểm của phương pháp lựa chọn đặc trưng
đóng gói là chi phí tính toán cao, vì vậy chúng tôi đã áp dụng các thư viện xử lý phân
tán để cải thiện hiệu năng của thuật toán đề xuất. Kết quả thực nghiệm thuật toán
FRFE (được viết bằng ngôn ngữ R) trên hai bộ dữ liệu tín dụng Đức và Úc cho thấy
thuật toán đề xuất đã cải thiện được thời gian chạy so với thuật toán cơ sở và đạt kết
quả khả quan so với các kỹ thuật hiện có.
Theo hướng tiếp cận trích xuất đặc trưng, chúng tôi đã đề xuất phương pháp
trích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số lượng
đặc trưng dựa trên kỹ thuật hàm nhân PCA. Đóng góp chính của phương pháp đề xuất

iii


là xây dựng một hàm nhân mới dựa trên việc kết hợp có định hướng một số hàm nhân
cơ bản [67]. Kết quả thực nghiệm thuật toán C-KPCA trên bốn bộ dữ liệu ung thư
cho thấy thuật toán đề xuất cho kết quả ổn định và tốt hơn so với các phương pháp
khác trong nhiều trường hợp.
Từ khóa: khai phá dữ liệu, học máy, lựa chọn đặc trưng, trích xuất đặc trưng,
rút gọn đặc trưng, KPCA

iv


MỤC LỤC
LỜI CAM ĐOAN ............................................................................................................... I
LỜI CẢM ƠN................................................................................................................... II
TÓM TẮT ........................................................................................................................ III
MỤC LỤC ........................................................................................................................ V
DANH MỤC TỪ VIẾT TẮT ....................................................................................... VII
DANH MỤC HÌNH ẢNH............................................................................................... IX
DANH MỤC BẢNG BIỂU ............................................................................................. XI
MỞ ĐẦU ............................................................................................................................ 1
Tính cấp thiết của luận án ................................................................................................... 1
Mục tiêu của luận án ........................................................................................................... 3
Đối tượng và phạm vi nghiên cứu ...................................................................................... 4
Phương pháp nghiên cứu .................................................................................................... 4
Đóng góp của luận án ......................................................................................................... 4
Bố cục của luận án .............................................................................................................. 5
CHƯƠNG 1.

TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG ................................... 7

1.1

Rút gọn đặc trưng ...................................................................................................... 7

1.2

Lựa chọn đặc trưng.................................................................................................... 7

1.3

1.4

1.2.1

Mục tiêu của lựa chọn đặc trưng ..................................................................... 8

1.2.2

Phân loại các kỹ thuật lựa chọn đặc trưng ...................................................... 8

1.2.3

Các thành phần chính của lựa chọn đặc trưng ................................................ 9

1.2.4

Thủ tục lựa chọn đặc trưng ........................................................................... 12

1.2.5

Các mô hình lựa chọn đặc trưng ................................................................... 13

Trích xuất đặc trưng ................................................................................................ 16
1.3.1

Mục tiêu của trích xuất đặc trưng ................................................................. 17

1.3.2

Phân loại các kỹ thuật trích xuất đặc trưng ................................................... 17

Một số nghiên cứu về rút gọn đặc trưng ................................................................. 19
1.4.1

Hướng nghiên cứu về lựa chọn đặc trưng ..................................................... 19

1.4.2

Hướng nghiên cứu về trích xuất đặc trưng.................................................... 27

1.4.3

Phân tích và đánh giá .................................................................................... 30
v


1.5

Kết luận chương ...................................................................................................... 31

CHƯƠNG 2.

KỸ THUẬT LỰA CHỌN ĐẶC TRƯNG TRONG BÀI TOÁN CHO

ĐIỂM TÍN DỤNG ............................................................................................... 32
2.1

Bài toán cho điểm tín dụng ..................................................................................... 32

2.2

Các nghiên cứu liên quan ........................................................................................ 35

2.3

Phương pháp đề xuất ............................................................................................... 37

2.4

2.5

2.3.1

Sơ đồ hệ thống lựa chọn đặc trưng................................................................ 37

2.3.2

Đề xuất hàm đánh giá và chiến lược tìm kiếm đặc trưng phù hợp ............... 38

2.3.3

Cải tiến tốc độ xử lý bằng thư viện H20 ....................................................... 45

Thực nghiệm và kết quả .......................................................................................... 48
2.4.1

Thiết lập thực nghiệm ................................................................................... 48

2.4.2

Dữ liệu thực nghiệm ...................................................................................... 49

2.4.3

Đánh giá hiệu năng phân lớp......................................................................... 49

2.4.4

Kết quả thực nghiệm ..................................................................................... 53

Kết luận chương ...................................................................................................... 66

CHƯƠNG 3.

KỸ THUẬT TRÍCH XUẤT ĐẶC TRƯNG TRONG BÀI TOÁN

PHÂN TÍCH DỮ LIỆU UNG THƯ .................................................................. 67
3.1

Bài toán phân tích dữ liệu ung thư .......................................................................... 67

3.2

Các nghiên cứu liên quan ........................................................................................ 69

3.3

Phương pháp giải quyết ........................................................................................... 71

3.4

3.5

3.3.1

Sơ đồ hệ thống trích xuất đặc trưng .............................................................. 71

3.3.2

Hàm nhân tùy chọn cho PCA ........................................................................ 73

3.3.3

Xây dựng hàm nhân tùy chọn ....................................................................... 77

Thực nghiệm và kết quả .......................................................................................... 82
3.4.1

Thiết lập thực nghiệm ................................................................................... 82

3.4.2

Dữ liệu thực nghiệm ...................................................................................... 82

3.4.3

Kết quả thực nghiệm ..................................................................................... 84

Kết luận chương ...................................................................................................... 96

KẾT LUẬN ...................................................................................................................... 97
DANH MỤC CÔNG TRÌNH KHOA HỌC LIÊN QUAN ĐẾN LUẬN ÁN.............. 99
TÀI LIỆU THAM KHẢO ............................................................................................ 100

vi


DANH MỤC TỪ VIẾT TẮT
Từ viết tắt
ACO
AUC
BG
CFS
DL
DT
FCFS
FRFE
GA
ICA
IG
KDD
k-NN
LDA
LR
MLP
mRMR
OLTP
PCA
PSO
RF
RG
SA
SBE
SBG
SBS
SFG

Từ gốc

Giải nghĩa

Ant Colony Optimization
Area under curve
Bidirectional Generation
Correlation-based Feature
Selection
Deep Learning
Decision Tree
Fast Correlation-based Feature
Selection
Fast Recursive Feature Elimination
Genetic Algorithm
Independent component analysis
Information Gain
Knowledge Discovery in
Databases
k-Nearest Neighbors
Linear discriminant analysis
Logistic Regression
Multi-layer Perceptron
minimum Redundancy Maximum
Relevance
Online transaction processing
Principal Component Analysis
Particle Swarm Optimization
Random Forest
Random Generation
Simulated Annealing
Sequential Backward Elimination
Sequential Backward Generation
Sequential Sackward Search
Sequential Forward Generation

Tối ưu đàn kiến
Diện tích dưới đường cong
Sinh tập con từ hai hướng
Lựa chọn đặc trưng dựa trên
tương quan
Học sâu
Cây quyết định
Lựa chọn đặc trưng dựa trên
tương quan nhanh
Loại bỏ đặc trưng đệ quy nhanh
Thuật toán di truyền
Phân tích thành phần độc lập
Độ lợi thông tin
Khám phá tri thức

vii

k-láng giềng gần nhất
Phân tích biệt thức tuyến tính
Hồi qui logistic
Perceptron nhiều tầng
Phù hợp nhiều nhất-dư thừa ít
nhất
Xử lý giao dịch trực tuyến
Phân tích thành phần chính
Tối ưu hóa bầy đàn
Rừng ngẫu nhiên
Sinh tập con ngẫu nhiên
Thuật toán mô phỏng tôi luyện
Loại bỏ lùi tuần tự
Sinh tập con lùi tuần tự
Tìm kiếm lùi tuần tự
Sinh tập con tiến tuần tự


SFS
SVD
SVM

Sequential forward search
Singular Value Decomposition
Support Vector Machine

viii

Tìm kiếm tiến tuần tự
Phân tích giá trị riêng
Máy véc tơ hỗ trợ


DANH MỤC HÌNH ẢNH
Hình 1.1 Lựa chọn đặc trưng. ................................................................................................ 7
Hình 1.2 Ba thành phần chính của lựa chọn đặc trưng[59] ................................................... 9
Hình 1.3 Thủ tục lựa chọn đặc trưng[86] ............................................................................ 12
Hình 1.4 Mô hình chọn lựa đặc trưng Lọc........................................................................... 13
Hình 1.5 Mô hình chọn lựa đặc trưng đóng gói ................................................................... 14
Hình 1.6 Trích xuất đặc trưng. ............................................................................................. 16
Hình 2.1 Quy trình lựa chọn đặc trưng của bài toán cho điểm tín dụng .............................. 37
Hình 2.2 Sơ đồ khối của thuật toán lựa chọn đặc trưng theo hướng tiến ............................ 39
Hình 2.3 Sơ đồ khối của lựa chọn đặc trưng theo hướng lui ............................................... 41
Hình 2.4 Chiến lược lựa chọn đặc trưng FRFE ................................................................... 44
Hình 2.5 Kiến trúc của thư viện H20 ................................................................................... 46
Hình 2.6 Phân lớp Random forest........................................................................................ 47
Hình 2.7 Ví dụ về đường cong AUC [27] ........................................................................... 51
Hình 2.8 Kiểm chứng chéo 5 lần ......................................................................................... 52
Hình 2.9 Danh sách các đặc trưng được sắp xếp theo độ lợi thông tin (IG) giảm dần ........ 53
Hình 2.10 Danh sách các đặc trưng được sắp xếp theo độ đo Relief-F giảm dần ............... 54
Hình 2.11 Danh sách các đặc trưng được sắp xếp theo độ tương quan giảm dần ............... 55
Hình 2.12 So sánh kết quả dự đoán sử dụng 5, 10, 15, 20 đặc trưng có thứ hạng cao nhất
trên bộ dữ liệu của Đức ................................................................................................ 56
Hình 2.13 Độ chính xác phân lớp với bộ dữ liệu Đức ......................................................... 56
Hình 2.14 Độ chính xác phân lớp trên bộ dữ liệu Đức theo hướng quay lui ....................... 58
Hình 2.15 So sánh kết quả sử dụng đặc trưng được lựa chọn trên bộ dữ liệu Đức ............. 58
Hình 2.16 Xếp hạng đặc trưng theo độ lợi thông tin (IG) trên bộ dữ liệu tín dụng của Úc. 60
ix


Hình 2.17 Xếp hạng đặc trưng theo độ đo Relief-F trên bộ dữ liệu tín dụng của Úc .......... 61
Hình 2.18 Xếp hạng đặc trưng theo độ tương quan trên bộ dữ liệu tín dụng của Úc .......... 62
Hình 2.19 So sánh kết quả dự đoán sử dụng 5, 7, 10 đặc trưng có thứ hạng cao nhất trên bộ
dữ liệu tín dụng của Úc................................................................................................. 63
Hình 2.20 Độ chính xác phân lớp với bộ dữ liệu Úc ........................................................... 63
Hình 2.21 Độ chính xác dự đoán trên bộ dữ liệu tín dụng Úc ............................................. 65
Hình 2.22 Độ chính xác dự đoán sử dụng đặc trưng được lựa chọn trên bộ dữ liệu Úc ..... 65
Hình 3.1 Phân tích dữ liệu ung thư ...................................................................................... 68
Hình 3.2 Quy trình trích xuất đặc trưng cho bài toán phân tích dữ liệu ung thư ................. 71
Hình 3.3 Chuyển dữ liệu sang không gian có chiều lớn hơn[21] ........................................ 74
Hình 3.4 Độ chính xác phân lớp với bộ dữ liệu ung thư ruột kết ........................................ 85
Hình 3.5 Độ chính xác phân lớp với bộ dữ liệu ung thư bạch cầu ...................................... 87
Hình 3.6 Độ chính xác phân lớp với bộ dữ liệu lymphoma................................................. 89
Hình 3.7 So sánh độ chính xác phân lớp với bộ dữ liệu ung thư tuyến tiền liệt .................. 91
Hình 3.8 So sánh hiệu năng phân lớp trên bốn bộ dữ liệu ung thư...................................... 93

x


DANH MỤC BẢNG BIỂU
Bảng 1.1 Chiến lược tìm kiếm và hướng tìm kiếm[59] ....................................................... 11
Bảng 1.2 Ưu nhược điểm của mô hình Lọc[8] .................................................................... 14
Bảng 1.3 Ưu nhược điểm của mô hình Đóng gói [8] .......................................................... 15
Bảng 1.4 So sánh ba mô hình[33] ........................................................................................ 16
Bảng 2.1 Ý nghĩa của diện tích dưới đường cong AUC ...................................................... 51
Bảng 2.2 So sánh hiệu năng của các bộ phân lớp [55] trên bộ dữ liệu tín dụng của Đức ... 57
Bảng 2.3. Hiệu năng của các bộ phân lớp khác nhau [55] với bộ dữ liệu tín dụng Đức ... 59
Bảng 2.4 So sánh hiệu năng của các bộ phân lớp trên bộ dữ liệu tín dụng của Úc ............. 64
Bảng 2.5 Hiệu năng của các bộ phân lớp khác nhau trên bộ dữ liệu tín dụng của Úc ........ 66
Bảng 3.1 Cấu trúc bảng dữ liệu ung thư ruột kết ................................................................. 72
Bảng 3.2 Các hàm nhân được sử dụng ................................................................................ 82
Bảng 3.3 Tổng hợp các bộ dữ liệu ung thư được sử dụng trong thực nghiệm .................... 83
Bảng 3.4 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư ruột kết ......................... 84
Bảng 3.5 So sánh hàm nhân mới với hàm nhân cơ sở trên dữ liệu ung thư ruột kết ........... 85
Bảng 3.6 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư ruột kết ..................... 86
Bảng 3.7 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư bạch cầu ........................ 86
Bảng 3.8 So sánh với hàm nhân cơ sở trên bộ dữ liệu ung thư bạch cầu ............................ 87
Bảng 3.9 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư bạch cầu ................... 88
Bảng 3.10 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư máu trắng .................... 88
Bảng 3.11 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu máu trắng ...... 89
Bảng 3.12 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu lymphoma ........................... 90
Bảng 3.13 Kết quả huấn luyện lựa chọn hàm nhân với bộ ung thư tuyến tiền liệt .............. 90
xi


Bảng 3.14 So sánh hàm nhân tùy chọn với hàm nhân cơ sở trên bộ dữ liệu ung thư tiền liệt
tuyến ............................................................................................................................. 91
Bảng 3.15 So sánh kết quả phân lớp dự đoán trên bộ dữ liệu ung thư tuyến tiền liệt ......... 92
Bảng 3.16 So sánh phương pháp đề xuất(C-KPCA) với các phương pháp lựa chọn đặc
trưng khác ..................................................................................................................... 94
Bảng 3.17 So sánh C-KPCA với các phương pháp khác trên hai bộ dữ liệu Colon và
Prostate ......................................................................................................................... 95
Bảng 3.18 So sánh C-KPCA với các phương pháp khác trên hai bộ dữ liệu Lymphoma và
Prostate ......................................................................................................................... 95

xii


MỞ ĐẦU
Tính cấp thiết của luận án
Trong những năm gần đây, dữ liệu trong thực tế đã gia tăng một cách nhanh
chóng cả về dung lượng lẫn về chủng loại. Dữ liệu với số chiều lớn đã trở thành thách
thức đối với các kỹ thuật xử lý, phân tích dữ liệu hiện có. Học máy (machine learning)
và khai phá dữ liệu (data mining) cung cấp các công cụ giúp con người giải quyết vấn
đề quản lý, bóc tách thông tin và tri thức bằng cách tự động phân tích một lượng lớn
dữ liệu. Tuy nhiên, các kỹ thuật phân tích dữ liệu như phân lớp, dự báo có thể dẫn
đến kết quả thấp hoặc không chính xác do không phải lúc nào dữ liệu cũng được xử
lý đầy đủ, vẫn có nhiều dữ liệu dư thừa, không liên quan, hay nhiễu. Ngoài ra, các
thuật toán phân lớp chạy mất nhiều thời gian, thậm chí có thể không thể thực hiện
được nếu dữ liệu chưa được tiền xử lý một cách thích hợp.
Rút gọn đặc trưng là kỹ thuật giải quyết vấn đề thu gọn chiều dữ liệu nhằm
giải quyết các vấn đề nêu trên. Rút gọn đặc trưng được phân loại thành “lựa chọn đặc
trưng” và “trích xuất đặc trưng”. Trong đó, lựa chọn đặc trưng có thể chọn ra một
nhóm con các đặc trưng phù hợp, liên quan từ tập dữ liệu gốc bằng cách loại bỏ các
đặc trưng nhiễu, dư thừa không liên quan trong khi đó trích xuất đặc trưng sẽ trích rút
ra các đặc trưng mới bằng một phép chuyển đổi. Rút gọn đặc trưng tạo điều kiện cho
các kỹ thuật phân tích xử lý dữ liệu cải tiến hiệu năng theo nghĩa nâng cao hiệu suất
mà vẫn giữ nguyên hoặc nâng cao được hiệu quả.
Nhiều kỹ thuật rút gọn đặc trưng đã được cộng đồng nghiên cứu trên thế giới
công bố [9][12][69][99]. Theo thống kê từ năm 2010 tới năm 2017 trên cơ sở dữ liệu
của Google scholar (https://scholar.google.com) thì có tới 88.500 tài liệu liên quan
tới chủ đề lựa chọn đặc trưng (tìm kiếm từ khóa “Feature Selection”), và có tới
159.000 tài liệu liên quan tới chủ đề trích xuất đặc trưng (tìm kiếm từ khóa “Feature
Extraction”). Cũng trong khoảng thời gian từ 2010-2017 trên cơ sở dữ liệu của trang

1


Sciencedirect1 thì chủ đề lựa chọn đặc trưng có trên 11.880 bài báo khoa học, trong
khi chủ đề trích chọn đặc trưng có hơn 32.980 bài báo liên quan.
Trong những năm gần đây, nhiều nghiên cứu đã tập trung vào cải tiến hiệu
năng của kỹ thuật rút gọn đặc trưng bằng cách lựa chọn tập con đặc trưng có ích, hoặc
trích xuất đặc trưng. Điển hình như luận án của Hall [34] đề xuất phương pháp lựa
chọn đặc trưng dựa trên tương quan cho học máy; Diao và cộng sự [23] sử dụng tìm
kiếm hài hòa (Harmony Search) cho việc xây dựng phương pháp lựa chọn đặc trưng.
Osiris Villacampa [91] nghiên cứu phương pháp lựa chọn đặc trưng và phân lớp cho
việc ra quyết định của công ty; Nziga [69] sử dụng phương pháp trích xuất đặc trưng
PCA thưa cho dòng dữ liệu. Verónica Bolón-Canedo cùng cộng sự [90] giới thiệu về
dữ liệu có số thuộc tính lớn và các phương pháp lựa chọn đặc trưng cho dữ liệu tin
sinh. Basant Agarwal và Namita Mittal [5] nghiên cứu trích xuất đặc trưng nổi bật
trong việc phân tích quan điểm. Urszula và Lakhmi [83] giới thiệu xu hướng nghiên
cứu về lựa chọn đặc trưng trong nhận dạng mẫu. Liang cùng cộng sự [56] nghiên cứu
về rút gọn đặc trưng cho bài toán học đa nhãn. Florian Eyben [26] trích xuất không
gian đặc trưng nhằm phân lớp dữ liệu âm thanh trực tuyến. Mark Nixon [68] sử dụng
các kỹ thuật trích xuất đặc trưng trong việc xử lý ảnh. Tuy nhiên, các phương pháp
rút gọn đặc trưng khác nhau sẽ cho kết quả khác nhau với từng miền ứng dụng tương
ứng.
Cộng đồng nghiên cứu tại Việt Nam đã quan tâm và công bố nhiều công trình
khoa học liên quan tới học máy và khai phá dữ liệu. Tuy nhiên, hướng nghiên cứu về
rút gọn đặc trưng chưa được quan tâm nhiều. Cụ thể, việc tìm kiếm từ khóa “lựa chọn

1

http://www.sciencedirect.com

2


đặc trưng”, “lựa chọn thuộc tính”, hay “trích chọn đặc trưng” trên Google Scholar2
cho kết quả chỉ khoảng vài chục tài liệu. Tài liệu liên quan tới lựa chọn đặc trưng,
trích xuất đặc trưng là kết quả nghiên cứu của một số trường đại học. Chẳng hạn gần
đây có một số luận án liên quan tới chủ đề rút gọn thuộc tính như: trong năm 2015,
Hà Đại Dương [2] nghiên cứu một số phương pháp trích chọn đặc trưng nhằm phát
hiện đám cháy qua dữ liệu ảnh; Vũ Văn Định [1] thực hiện việc rút gọn thuộc tính
trong bảng quyết định không đầy đủ theo hướng tiếp cận tập thô; Nguyễn Thị Lan
Hương [3] nghiên cứu và rút gọn thuộc tính trong bảng quyết định động theo hướng
tiếp cận tập thô. Các luận án này đã đề xuất việc áp dụng một kỹ thuật lựa chọn hoặc
trích xuất đặc trưng vào bài toán của mình, tập trung chủ yếu tới bài toán xử lí ảnh.
Như vậy, có thể nhận thấy rằng rút gọn đặc trưng hiện vẫn là chủ đề để các
nhà nghiên cứu trong và ngoài nước tiếp tục nghiên cứu và phát triển.

Mục tiêu của luận án
Mục tiêu của luận án là nghiên cứu cải tiến một số kỹ thuật rút gọn đặc trưng
tiên tiến trong phân lớp dữ liệu đối với một số miền ứng dụng.
Hướng tiếp cận lựa chọn đặc trưng xác định một tập con đặc trưng tốt nhất có
thể từ tập đặc trưng ban đầu mà không làm giảm kết quả phân lớp. Để giải quyết mục
tiêu này, luận án tập trung giải quyết một số vấn đề sau:
-

Xây dựng một hàm đánh giá đặc trưng phù hợp với dữ liệu cần phân tích.

-

Áp dụng chiến lược tìm kiếm theo kinh nghiệm nhằm làm giảm không gian tìm
kiếm.

2

https://scholar.google.com.vn/

3


Hướng tiếp cận trích xuất đặc trưng xác định một phép biến đổi đặc trưng hiệu
quả để thu được tập đặc trưng mới phù hợp với bộ phân lớp tương ứng. Để giải quyết
mục tiêu này, luận án tập trung giải quyết một số vấn đề sau:
-

Tìm hiểu kỹ thuật hàm nhân trong việc biến đổi không gian đặc trưng.

-

Xây dựng hàm nhân mới phù hợp với dữ liệu cần phân tích.
Với mục tiêu cải tiến hiệu năng của các kỹ thuật phân tích dữ liệu, chúng tôi

đã lựa chọn đề tài của luận án với tiêu đề: "Nghiên cứu cải tiến các kỹ thuật rút gọn
đặc trưng cho phân lớp dữ liệu”.

Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận án là kỹ thuật rút gọn đặc trưng cho bài toán
phân lớp, theo hai hướng tiếp cận lựa chọn đặc trưng và trích xuất đặc trưng.
Phạm vi áp dụng các kỹ thuật rút gọn đặc trưng vào các miền ứng dụng là
tương đối rộng. Trong luận án này, chúng tôi giới hạn phạm vi với hai miền ứng dụng
là bài toán cho điểm tín dụng và phân tích dữ liệu ung thư.

Phương pháp nghiên cứu
Luận án sử dụng các phương pháp phân tích, tổng hợp lý thuyết, phương pháp
mô hình hóa và phương pháp nghiên cứu thực nghiệm. Trong đó, lý thuyết cơ sở được
phân tích và phương pháp đề xuất được mô hình hóa. Cuối cùng phương pháp nghiên
cứu thực nghiệm được dùng để đánh giá, kiểm chứng kết quả của phương pháp đề
xuất.

Đóng góp của luận án
Luận án đề xuất phương pháp rút gọn đặc trưng nhằm tăng hiệu năng của các
kỹ thuật phân lớp theo hai hướng tiếp cận chính là lựa chọn đặc trưng và trích xuất
đặc trưng:
Lựa chọn đặc trưng: chúng tôi đã đề xuất phương pháp lựa chọn đặc trưng (FRFE)
dựa trên hướng tiếp cận đóng gói. Nội dung chính của phương pháp đề xuất là việc
loại bỏ đặc trưng đệ quy và việc cải tiến hàm đánh giá đặc trưng. Hàm đánh giá đặc
trưng đề xuất có ưu điểm là giúp tăng hiệu quả phân lớp và giúp cho kết quả này

4


được ổn định hơn. Phương pháp đề xuất giúp tự động tìm ra tập con đặc trưng tối
ưu cho mỗi bộ dữ liệu. Một vấn đề khác mà các phương pháp lựa chọn đặc trưng
phải đối mặt đó là các phương pháp lựa chọn đặc trưng đóng gói (wrapper) có chi
phí tính toán lớn. Để giải quyết vấn đề này chúng tôi sử dụng bộ phân lớp rừng ngẫu
nhiên (random forest) với khả năng xử lý song song nhằm làm giảm thời gian thực
hiện của phương pháp đề xuất. Thực nghiệm trên bộ dữ liệu tín dụng cho thấy
phương pháp lựa chọn đặc trưng đề xuất này có khả năng đạt được mục tiêu mà luận
án đặt ra. Những đóng góp dựa trên hướng tiếp cận lựa chọn đặc trưng cho bài toán
cho điểm tín dụng được báo cáo trong các công bố [SANGHV1, SANGHV2,
SANGHV3, SANGHV5].
Trích xuất đặc trưng: Ngoài cách tiếp cận lựa chọn đặc trưng, một hướng tiếp cận
khác là trích xuất đặc trưng đã và đang được nhiều nhóm nghiên cứu quan tâm phát
triển khi các kỹ thuật lựa chọn đặc trưng trở nên ít hiệu quả. Chúng tôi đã đề xuất kỹ
thuật trích xuất đặc trưng có tên C-KPCA (Custom-Kernel PCA) nhằm làm giảm số
lượng đặc trưng dựa trên kỹ thuật hàm nhân PCA. Cải tiến chính trong đề xuất của
chúng tôi là xây dựng một hàm nhân mới dựa trên việc kết hợp một số hàm nhân cơ
bản[40]. Chúng tôi đã tiến hành thực nghiệm trên 04 bộ dữ liệu ung thư và so sánh
kết quả khi sử dụng hàm nhân đề xuất với hàm nhân cơ bản cũng như so sánh với
một số phương pháp lựa chọn đặc trưng phổ biến khác. Thực nghiệm cho thấy CKPCA cho kết quả ổn định và tốt hơn so với các phương pháp khác trong nhiều
trường hợp. Hướng tiếp cận trích xuất đặc trưng cho bài toán phân tích dữ liệu ung
thư được công bố trong [SANGHV4].
Các kết quả nghiên cứu trình bày trong luận án được công bố trong 05 công
trình. Trong đó có 02 bài báo đăng ở tạp chí nước ngoài [SANGHV1, SANGHV2];
03 bài báo hội thảo quốc tế được công bố có chỉ số Scopus, trong đó 02 bài báo được
Springer xuất bản và đưa vào danh mục LNCS.

Bố cục của luận án
Ngoài phần mở đầu, mục lục, kết luận và tài liệu tham khảo, nội dung chính
của luận án này được chia thành 03 chương, cụ thể như sau:
5


Chương 1: Phần đầu giới thiệu về lý thuyết cơ bản liên quan tới rút gọn đặc
trưng, lựa chọn đặc trưng và trích xuất đặc trưng, đồng thời điểm lại một số nghiên
cứu gần đây. Sau phần phân tích, đánh giá là kết luận của chương.
Chương 2: Đề xuất một hàm đánh giá đặc trưng và áp dụng chiến lược tìm
kiếm theo kinh nghiệm dựa trên hàm đánh giá này nhằm nâng hiệu quả của việc lựa
chọn đặc trưng. Sau khi trình bày về quy trình, giải pháp đề xuất, luận án áp dụng
phương pháp đề xuất cho bộ dữ liệu tín dụng. Phần còn lại của chương thực hiện thực
nghiệm trên các bộ dữ liệu tín dụng và so sánh kết quả với một số phương pháp lựa
chọn đặc trưng khác.
Chương 3: Đề xuất một phương pháp trích xuất đặc trưng dựa trên việc xây
dựng một hàm nhân mới trên cơ sở kết hợp một số hàm nhân cơ bản nhằm biến đổi
không gian đặc trưng phù hợp với miền dữ liệu. Sau khi trình bày về quy trình,
phương pháp đề xuất, phương pháp đề xuất được tiến hành trên bốn bộ dữ liệu ung
thư. Việc thực nghiệm và so sánh với một số kỹ thuật khác được thực hiện ở phần
còn lại của chương.

6


Chương 1.

TỔNG QUAN VỀ RÚT GỌN ĐẶC TRƯNG

Hầu hết các lĩnh vực khoa học và công nghệ ngày nay đều đòi hỏi phân tích
dữ liệu nhằm bóc tách các tri thức hữu ích giúp cải tiến hay nâng cao hiệu quả của
các lĩnh vực này. Dữ liệu quan sát và thu thập được từ những ứng dụng trong thực tế
thường chứa nhiều thông tin nhiễu, dư thừa, đặc biệt với tập dữ liệu có số lượng thuộc
tính lớn có thể dẫn tới việc tốn kém tài nguyên khi áp dụng kỹ thuật phân tích dữ liệu,
và nhiều trường hợp không thể thực hiện được. Xuất phát từ nhu cầu thực tiễn đó, các
kỹ thuật rút gọn đặc trưng được nghiên cứu và phát triển để giải quyết những vấn đề
trên. Nội dung chương này nhằm giới thiệu tổng quan về vấn đề rút gọn đặc trưng và
điểm lại một số hướng nghiên cứu về rút gọn đặc trưng tiêu biểu hiện nay. Phần cuối
của chương sẽ đưa ra một số phân tích, đánh giá một số kỹ thuật rút gọn đặc trưng
thường được áp dụng hiện nay.

1.1

Rút gọn đặc trưng

Rút gọn đặc trưng được hiểu là quá trình thu gọn hoặc biến đổi không gian
biểu diễn dữ liệu ban đầu thành một không gian con hoặc một không gian mới có số
đặc trưng nhỏ hơn không gian ban đầu mà vẫn giữ được các đặc tính của dữ liệu gốc.
Trong nhiều trường hợp, tập dữ liệu ban đầu có chứa nhiều đặc trưng không liên quan
cho sự mô tả bản chất của hiện tượng mà ta quan tâm, khi đó có thể loại bỏ các đặc
trưng không liên quan này và chỉ giữ lại các đặc trưng quan trọng. Có hai phương
pháp để rút gọn đặc trưng gồm lựa chọn đặc trưng và trích xuất đặc trưng.

1.2
-

Lựa chọn đặc trưng

Lựa chọn đặc trưng (Feature Selection): chọn lựa một tập con các đặc trưng
từ các đặc trưng ban đầu mà không có sự thay đổi về giá trị của đặc trưng.
x 𝑖1
x1
x2 𝑙ự𝑎 𝑐ℎọ𝑛 đặ𝑐 𝑡𝑟ư𝑛𝑔 x𝑖2
[ ⋮ ]→
[ ⋮ ]
xN
x 𝑖M

(𝑀 < 𝑁)

Hình 1.1 Lựa chọn đặc trưng.

7


Lựa chọn đặc trưng là một trong những phương pháp hết sức tự nhiên để giải
quyết vấn đề loại bỏ các đặc trưng dư thừa, trùng lặp và không liên quan trong dữ
liệu. Kết quả của lựa chọn đặc trưng là một tập con các đặc trưng từ tập đặc trưng ban
đầu nhưng vẫn đảm bảo các tính chất của dữ liệu gốc. Lựa chọn đặc trưng giúp: (1)
cải tiến hiệu năng (về tốc độ, khả năng dự đoán, và đơn giản hóa mô hình); (2) trực
quan hóa dữ liệu cho việc lựa chọn mô hình; (3) giảm chiều và loại bỏ nhiễu.
1.2.1

Mục tiêu của lựa chọn đặc trưng

Mục tiêu chính của lựa chọn đặc trưng là xác định các đặc trưng quan trọng và
loại bỏ các đặc trưng không liên quan hoặc không phù hợp. Các thuật toán lựa chọn
đặc trưng khác nhau sẽ có thể có các mục tiêu khác nhau. Một số mục tiêu thường
được sử dụng:
-

Tìm ra tập con các đặc trưng có kích cỡ nhỏ nhất có thể, mà nó là cần và đủ
cho việc phân tích dữ liệu (cụ thể ở đây là phân lớp)

-

Chọn một tập con có M đặc trưng từ một tập gồm N đặc trưng ban đầu (Mtrong đó giá trị của hàm mục tiêu được tối ưu trên tập con kích cỡ M.

-

Chọn một tập con các đặc trưng nhằm cải tiến độ chính xác dự đoán hoặc làm
giảm kích cỡ của tập dữ liệu mà không làm giảm độ chính xác dự đoán của bộ
phân lớp.
1.2.2

Phân loại các kỹ thuật lựa chọn đặc trưng

Dựa vào tính sẵn có của thông tin nhãn lớp (label), kỹ thuật lựa chọn đặc trưng
có thể được chia thành ba loại: phương pháp có giám sát, bán giám sát, và không
giám sát. Thông tin nhãn có sẵn của lớp giúp cho các thuật toán lựa chọn đặc trưng
có giám sát lựa chọn được các đặc trưng phù hợp. Khi chỉ có một số ít dữ liệu đã
được gán nhãn, có thể sử dụng lựa chọn đặc trưng bán giám sát, trong đó có thể tận
dụng được lợi thế của cả dữ liệu được gán nhãn và dữ liệu không được gán nhãn. Hầu
hết các thuật toán lựa chọn đặc trưng bán giám sát đều dựa trên việc xây dựng ma
trận tương tự và lựa chọn các đặc trưng phù hợp nhất với ma trận tương tự đó.

8


1.2.3

Các thành phần chính của lựa chọn đặc trưng

Liu và Motoda [59] chỉ ra ba thành phần chính của lựa chọn đặc trưng là: (1)
Chiến lược tìm kiếm tập con, (2) Hướng tìm kiếm hay nguyên tắc lựa chọn, bổ sung,
loại bỏ hoặc thay đổi đặc trưng trong quá trình tìm kiếm, và (3) Tiêu chí đánh giá các
tập con khác nhau. Hình 1.2 dưới đây thể hiện lựa chọn đặc trưng theo 3 thành phần
nói trên.
Tiêu chí đánh giá
Chính xác
Nhất quán
Toàn bộ Kinh nghiệm

Cơ bản

Tiến

Không xác định

Chiến lược tìm kiếm

Lùi
Ngẫu nhiên
Hướng tìm kiếm

Hình 1.2 Ba thành phần chính của lựa chọn đặc trưng[59]

(1) Chiến lược tìm kiếm
Do số tập con là 2N nên không gian tìm kiếm sẽ tăng theo hàm mũ khi N tăng
lên. Không gian tìm kiếm sẽ là tương đối nhỏ khi số lượng đặc trưng N là nhỏ. Khi
không gian tìm kiếm lớn thì chiến lược tìm kiếm được sử dụng sẽ ảnh hưởng lớn tới
hiệu năng của nó. Kết quả tìm kiếm phụ thuộc vào việc lựa chọn chiến lược tìm kiếm.
Mục tiêu là tìm được một tập con các đặc trưng tối ưu trong thời gian ít nhất có thể
theo các tiêu chí cho trước. Các chiến lược tìm kiếm có thể được chia thành 3 nhóm
dưới đây.
Tìm kiếm toàn bộ (chiến lược vét cạn): trong chiến lược này, tất cả các khả
năng có thể của các tập con sẽ được kiểm tra. Kết quả cuối cùng một tập con tốt nhất
9


theo tiêu chí tìm kiếm. Độ phức tạp không gian của chiến lược này trong trường hợp
tổng quát nhất là 𝛰(2𝑁 ). Khi biết trước được hướng tìm kiếm, thì không gian tìm

𝑁
) Trong đó, M là số lượng đặc trưng tối thiểu của một
kiếm sẽ là (𝑁0) + (𝑁1) + ⋯ + (𝑀

tập con thỏa mãn một số tiêu chí đánh giá nào đó.

Tìm kiếm theo kinh nghiệm: là quá trình tìm kiếm sử dụng hàm đánh giá để
hướng dẫn sự tìm kiếm. Mục tiêu của hàm đánh giá nhằm xác định theo kinh nghiệm
định hướng để tìm được tập con tối ưu. Chiến lược tìm kiếm theo kinh nghiệm chỉ
thực hiện theo một lộ trình cụ thể và tìm ra một tập con gần tối ưu nên nó cho kết quả
nhanh hơn so với chiến lược tìm kiếm vét cạn.
Tìm kiếm không xác định: chiến lược này khác với hai chiến lược kể trên ở
chỗ nó tìm kiếm tập con kế tiếp một cách ngẫu nhiên. Chiến lược này thường được
áp dụng trong không gian tìm kiếm khá lớn và tồn tại nhiều giá trị tối ưu cục bộ. Ưu
điểm chính là của chiến lược này là tránh được các tối ưu cục bộ và tương đối dễ cài
đặt.
(2)Hướng tìm kiếm
Việc tìm kiếm tập con các đặc trưng tối ưu trong không gian tìm kiếm có thể
bắt đầu từ một tập rỗng sau đó lần lượt thêm từng đặc trưng hoặc bắt đầu từ một tập
đủ các đặc trưng rồi loại bỏ từng đặc trưng. Với việc tìm kiếm như vậy thì thời gian
trung bình để tìm ra tập con tối ưu giữa các hướng tìm kiếm khác nhau không có sự
khác biệt. Việc tạo ra tập con các đặc trưng có mối liên hệ chặt chẽ với hướng tìm
kiếm.
Tìm kiếm tiến tuần tự (Sequential Forward Generation-SFG): Bắt đầu từ một
tập rỗng các đặc trưng Sselect Tại mỗi bước tìm kiếm, dựa trên một số tiêu chí nhất
định, một đặc trưng được thêm vào tập Sselect. Quá trình tìm kiếm này sẽ dừng lại khi
tất cả các đặc trưng trong tập đặc trưng ban đầu được thêm vào Sselect . Kết quả là một
danh sách xếp hạng các đặc trưng được tạo ra theo thứ tự được thêm vào Sselect.
Tìm kiếm lùi tuần tự (Sequential Backward Generation-SBG): Bắt đầu với
một tập đủ các đặc trưng. Tại mỗi bước tìm kiếm dựa vào một số tiêu chí nào đó, một
đặc trưng ít quan trọng nhất sẽ bị loại bỏ. Các đặc trưng trong tập đặc trưng sẽ dần bị

10


loại bỏ cho tới khi trong tập đặc trưng chỉ còn lại một đặc trưng. Kết quả là một danh
sách xếp hạng các đặc trưng theo thứ tự bị loại được tạo ra.
SBG và SFG là hai phương pháp bổ sung cho nhau vì đôi khi tìm ra đặc trưng
quan trọng nhất là dễ dàng hơn so với tìm ra đặc trưng ít quan trọng và ngược lại.
Tìm kiếm theo hai hướng (Birectional Generation-BG): Nếu trong trường hợp
tập đặc trưng tối ưu không nằm trong khu vực giữa của không gian tìm kiếm, thì việc
bắt đầu tìm kiếm từ cả hai phía của không gian tìm kiếm là giải pháp phù hợp. Quá
trình tìm kiếm sẽ được bắt đầu từ hai hướng một cách đồng thời. Khi một trong hai
chiều tìm kiếm tìm được M đặc trưng tốt nhất trước khi đi đến điểm giữa trong không
gian tìm kiếm thì quá trình dừng lại. Nếu cả hai chiều tìm kiếm tiến đến điểm giữa
trong không gian tìm kiếm thì quá trình cũng kết thúc.
Khi số lượng các đặc trưng liên quan M là nhỏ hơn N/2, SFG chạy nhanh hơn,
ngược lại nếu M lớn hơn N/2 khi đó SBG chạy nhanh hơn. Thường thì giá trị của M
là không biết trước nên ta không thể biết chiến lược nào chạy nhanh hơn. Khi đó BG
có ý nghĩa.
Tìm kiếm ngẫu nhiên (Random Generation-RG): việc tìm kiếm được bắt đầu
theo một hướng ngẫu nhiên. Trong khi tìm kiếm việc thêm hay loại bỏ bớt một đặc
trưng cũng được thực hiện một cách ngẫu nhiên. Do chiến lược tìm kiếm không đi
theo một chiều cố định nào đó trong việc tạo ra tập đặc trưng tối ưu nên phương pháp
này tránh được các tối ưu địa phương. Mối quan hệ giữa hướng tìm kiếm và chiến
lược tìm kiếm được mô tả trong Bảng 1.1. Ký hiệu × thể hiện sự kết hợp giữa chiến
lược tìm kiếm và hướng tìm kiếm là không khả thi.
Bảng 1.1 Chiến lược tìm kiếm và hướng tìm kiếm[59]

Chiến lược tìm kiếm
Toàn bộ Kinh nghiệm Không xác định
Tìm kiếm tiến tuần tự


×
Tìm kiếm lùi tuần tự


×
Tìm kiếm theo hai hướng


×
Tìm kiếm ngẫu nhiên
×


Hướng tìm kiếm

11


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×