Tải bản đầy đủ (.pdf) (55 trang)

Ứng dụng phương pháp phân cụm mờ cho bài toán phân tích thông tin rủi ro quản lý thuế doanh nghiệp

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.09 MB, 55 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

VŨ THỊ THU HƢƠNG

ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM MỜ
CHO BÀI TOÁN PHÂN TÍCH THÔNG TIN RỦI
RO QUẢN LÝ THUẾ DOANH NGHIỆP

LUẬN VĂN THẠC SĨ QUẢN LÝ HỆ THỐNG THÔNG TIN

Hà Nội – 2017


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

VŨ THỊ THU HƢƠNG

ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM MỜ
CHO BÀI TOÁN PHÂN TÍCH THÔNG TIN RỦI
RO QUẢN LÝ THUẾ DOANH NGHIỆP

Ngành: Công nghệ thông tin
Chuyên ngành: Quản lý Hệ thống thông tin
Mã số:

LUẬN VĂN THẠC SĨ QUẢN LÝ HỆ THỐNG THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS. TS. Nguyễn Đình Hóa


Hà Nội – 2017


2

LỜI CAM ĐOAN
Tôi xin cam đoan luận văn là công trình nghiên cứu của riêng cá nhân
tôi, không sao chép của ai do tôi tự nghiên cứu, đọc, dịch tài liệu, tổng hợp và
thực hiện. Nội dung lý thuyết trong trong luận văn tôi có sử dụng một số tài liệu
tham khảo như đã trình bày trong phần tài liệu tham khảo. Các số liệu, chương
trình phần mềm và những kết quả trong luận văn là trung thực và chưa được
công bố trong bất kỳ một công trình nào khác.

Hà Nội, tháng 10 năm 2017
Học viên thực hiện

Vũ Thị Thu Hƣơng


3

LỜI CẢM ƠN
Lời đầu tiên, em xin gửi lời biết ơn sâu sắc đến PGS.TS. Nguyễn Đình
Hóa, TS. Lê Hoàng Sơn người đã tạo điều kiện thuận lợi, tận tình hướng dẫn, chỉ
bảo, giúp đỡ em trong suốt quá trình làm luận văn.
Em cũng xin gửi lời cảm ơn đến các thầy cô giáo trường Đại học Công
nghệ - Đại học Quốc Gia Hà Nội, các thầy cô khoa Công nghệ thông tin đã
truyền đạt những kiến thức và giúp đỡ em trong suốt quá trình học của mình.
Và cuối cùng em xin gửi lời cảm ơn tới các đồng nghiệp, gia đình và bạn
bè, những người đã luôn ủng hộ, động viên và tạo mọi điều kiện giúp đỡ để

em có được kết quả như ngày hôm nay.
Hà Nội, tháng 10 năm 2017
Học viên

Vũ Thị Thu Hƣơng


4

MỤC LỤC
LỜI CAM ĐOAN.......................................................................................................... 2
LỜI CẢM ƠN ............................................................................................................. 3
DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT........................................... 6
DANH MỤC HÌNH MINH HOẠ VÀ BẢNG BIỂU.................................................. 7
MỞ ĐẦU

............................................................................................................. 9

CHƢƠNG 1:

TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU ................................... 11

1.1. Giới thiệu về khai phá dữ liệu ..................................................................... 11
1.1.1. Khai phá dữ liệu là gì? ............................................................................. 11
1.1.2. Các giai đoạn của quá trình khai phá dữ liệu ........................................ 12
1.2. Tổng quan về phân cụm dữ liệu .................................................................. 12
1.2.1. Khái niệm phân cụm dữ liệu ................................................................... 13
1.2.2. Các mục tiêu của phân cụm dữ liệu ........................................................ 13
1.2.3. Một số ứng dụng của phân cụm dữ liệu ................................................. 15
1.2.4. Các yêu cầu của phân cụm dữ liệu ......................................................... 15

1.3. Một số kỹ thuật tiếp cận trong phân cụm dữ liệu...................................... 16
1.3.1. Phương pháp phân cụm phân hoạch ...................................................... 16
1.3.2. Phương pháp phân cụm phân cấp .......................................................... 17
1.3.3. Phương pháp tiếp cận dựa trên mật độ ................................................... 19
1.3.4. Phương pháp phân cụm dựa trên lưới .................................................... 20
1.3.5. Phương pháp phân cụm dựa trên mô hình............................................. 20
CHƢƠNG 2: GIỚI THIỆU BÀI TOÁN PHÂN CỤM MỜ VÀ CÁC PHƢƠNG
PHÁP XÁC ĐỊNH SỐ CỤM TRONG GOM CỤM DỮ LIỆU .............................. 22
2.1. Bài toán phân cụm mờ ................................................................................. 22
2.1.1. Giới thiệu về phân cụm mờ ...................................................................... 22
2.1.2. Thuật toán Fuzzy C-Mean (FCM) .......................................................... 22
2.1.2.1. Hàm mục tiêu ....................................................................................... 22
2.1.2.2. Thuật toán FCM .................................................................................. 25
2.1.2.3. Đánh giá ............................................................................................... 27
2.2. Các phƣơng pháp xác định số cụm trong gom cụm dữ liệu ..................... 27
2.2.1. Xác định số cụm dựa trên phương pháp truyền thống .......................... 28
2.2.2. Xác định số cụm bằng phương pháp Eblow ........................................... 29


5

2.2.3. Xác định số cụm dựa trên phương pháp phê duyệt chéo ....................... 30
2.2.4. Xác định số cụm dựa trên độ chồng và độ nén của dữ liệu ................... 32
2.3. Đề xuất phƣơng án áp dụng thuật toán FCM và phƣơng pháp xác định số
cụm vào bài toán lựa chọn nhóm doanh nghiệp rủi ro vi phạm thuế cao......... 34
CHƢƠNG 3: ỨNG DỤNG PHƢƠNG PHÁP PHÂN CỤM MỜ CHO BÀI
TOÁN PHÂN TÍCH THÔNG TIN RỦI RO QUẢN LÝ THUẾ DOANH NGHIỆP
........................................................................................................... 36
3.1. Mô tả bài toán ............................................................................................... 36
3.2. Dữ liệu đầu vào ............................................................................................. 37

3.3. Lựa chọn công cụ, môi trƣờng thực nghiệm .............................................. 39
3.4. Phƣơng pháp phân cụm và lựa chọn số cụm ............................................. 40
3.4.1. Xác định phương pháp phân cụm ........................................................... 40
3.4.2. Lựa chọn số cụm ...................................................................................... 40
3.5. Kết quả thực nghiệm .................................................................................... 43
3.5.1. Kết quả phân loại doanh nghiệp ............................................................. 43
3.5.1.1. Kết quả phân cụm trên tập dữ liệu data.csv ....................................... 43
3.5.1.2. So sánh kết quả phân cụm doanh nghiệp với mức rủi ro vi phạm thuế
tương ứng được đánh giá từ kinh nghiệp của chuyên gia .............................. 44
3.5.1.3. Xác định doanh nghiệp thuộc cụm ..................................................... 45
3.5.2. Kết luận ..................................................................................................... 46
3.6. Ứng dụng kết quả thực nghiệm vào bài toán khoanh vùng, lựa chọn
nhóm doanh nghiệp có khả năng rủi ro vi phạm thuế cao .................................47
KẾT LUẬN VÀ HƢỚNG PHÁT TRIỂN ................................................................ 50
TÀI LIỆU THAM KHẢO .......................................................................................... 52


6

DANH MỤC CÁC KÝ HIỆU VÀ CÁC TỪ VIẾT TẮT
Viết tắt

Thuật ngữ

Giải thích

(Anh/Việt)
FCM

Fuzzy C-Mean


Một thuật toán phân cụm mờ

GTGT

Giá trị gia tăng

Tờ khai thuế giá trị gia tăng

Mã số thuế

Mã số thuế doanh nghiệp

MST


7

DANH MỤC HÌNH MINH HOẠ VÀ BẢNG BIỂU
Hình 1.1. Quá trình phát hiện tri thức
Hình 1.2. Quá trình khai há dữ liệu
Hình 1.3. Ví dụ về Phân cụm dữ liệu
Hình 1.4. Ví dụ phân cụm các ngôi nhà dựa trên khoảng cách
Hình 1.5. Ví dụ phân cụm các ngôi nhà dựa trên kích cỡ
Hình 1.6. Ví dụ phương pháp phân cụm phân cấp
Hình 1.7. Ví dụ về phân cụm theo mật độ (1)
Hình 1.8. Ví dụ về phân cụm theo mật độ (2)
Hình 1.9. Cấu trúc phân cụm dựa trên lưới
Hình 1.10. Ví dụ về phân cụm dựa trên mô hình
Hình 2.1. Thuật toán FCM

Hình 2.2. Phân cụm tập dữ liệu với số lượng cụm khác nhau
Hình 2.3. Minh họa cho phương pháp xác định số cụm dựa trên phương
pháp truyền thống
Hình 2.4. Ví dụ minh họa cách xác định số cụm bằng phương pháp Elbow
Hình 2.5. Mô tả phương pháp Holdout
Hình 2.6. Quá trình ước lượng số cụm tối ưu dựa trên độ chồng và độ nén
của dữ liệu
Hình 2.7. Đề xuất phương án lựa chọn nhóm doanh nghiệp rủi ro vi phạm
thuế cao
Hình 3.1. Kết quả phân cụm dữ liệu với số cụm c = [3, 7]
Hình 3.2. Kết quả phân cụm dữ liệu với tập dữ liệu data.csv
Hình 3.3. Xác định doanh nghiệp thuộc cụm
Hình 3.4. Mô phỏng tập dữ liệu X’(1)
Hình 3.5. Mô phỏng tập dữ liệu X’(2)
Hình 3.6. Mô phỏng tập dữ liệu X’(3)


8

Bảng 3.1. Mô tả thông tin các chỉ tiêu các cột dữ liệu thuộc tập dữ liệu
data.csv
Bảng 3.2. Kết quả tính F với số cụm c=[3,7]
Bảng 3.3. Kết quả phân cụm doanh nghiệp trên tập dữ liệu data_cum.csv
Bảng 3.4. So sánh kết quả phân cụm dữ liệu data.csv với thông tin rủi ro
vi phạm thuế


9

MỞ ĐẦU

Công tác thanh, kiểm tra thuế là một trong những nhiệm vụ trọng tâm
nhằm ngăn ngừa, phát hiện và xử lý kịp thời những vi phạm về thuế. Thực hiện
tốt công tác thanh, kiểm tra thuế sẽ góp phần tăng nguồn thu cho ngân sách, tạo
sự bình đ ng và công bằng xã hội về ngh a vụ thuế của đối tượng nộp thuế. Hiện
nay nhu cầu tin học hóa các quy trình nghiệp vụ của ngành Thuế nói chung và
hiện đại hoá công tác thanh, kiểm tra thuế nói riêng, góp phần nâng cao hiệu quả
công tác quản lý thuế ngày càng cao. Với tính chất đa dạng và phức tạp của dữ
liệu trong kho dữ liệu Người nộp thuế, cần thiết phải có hướng nghiên cứu và
cách tổ chức các kho dữ liệu để trích xuất thông tin phù hợp. Khai phá dữ liệu là
một trong những hướng nghiên cứu phổ biến hiện nay, và phân cụm là công cụ
hữu hiệu trong các bài toán khai phá dữ liệu, phân tích thông tin [3].
Mục tiêu của phân cụm là chia nhỏ các đối tượng vào các cụm sao cho
các đối tượng cùng cụm là tương đồng với nhau nhất. Phân cụm có nhiều ứng
dụng trong thương mại, giúp các nhà cung cấp biết được nhóm khách hàng quan
trọng có các đặc trưng tương đồng nhau và đặc tả họ từ các mẫu trong cơ sở dữ
liệu khách hàng. Phân cụm mờ là phương pháp phân cụm dữ liệu mở rộng trong
đó mỗi điểm dữ liệu có thể thuộc về hai hay nhiều cụm với các giá trị hàm thuộc
tương ứng. Năm 1969, Ruspini [17] đã giới thiệu khái niệm phân hoạch mờ để
mô tả cấu trúc của một cụm mờ. Năm 1973, Dunn [18] đã mở rộng phương pháp
phân cụm và đã phát triển thuật toán phân cụm mờ. Ý tưởng của thuật toán là
xây dựng một phương pháp phân cụm mờ dựa trên tối thiểu hóa hàm mục tiêu.
Sau đó, Bezdek [16] đã cải tiến và tổng quát hóa hàm mục tiêu mờ bằng cách
thêm trọng số mũ. Cho đến nay, có rất nhiều biến thể của phân cụm mờ được
ứng dụng trong các bài toán khác nhau [16].
Mục tiêu của đề tài là ứng dụng thuật toán phân cụm mờ trong phân tích
thông tin rủi ro quản lý thuế doanh nghiệp. Một cơ sở dữ liệu mẫu về thông tin
tờ khai thuế, báo cáo tài chính doanh nghiệp, mức độ rủi ro của 644 doanh
nghiệp được sử dụng để làm đầu vào cho hệ thống phân tích rủi ro sử dụng
phương pháp phân cụm mờ. Hệ thống phân tích sẽ được triển khai xây dựng và
thử nghiệm kiểm chứng.

Các phần chính trong luận văn:
Chƣơng 1: Tổng quan về phân cụm dữ liệu


10

Chương này giới thiệu tổng quan về khai phá dữ liệu, các giai đoạn của
khai phá dữ liệu, tổng quan về phân cụm dữ liệu, các mục tiêu, một số yêu cầu
của phân cụm dữ liệu và một số kỹ thuật tiếp cận trong phân cụm dữ liệu.
Chƣơng 2: Giới thiệu bài toán phân cụm mờ và các phương pháp xác
định số cụm trong gom cụm dữ liệu
Chương này đề cập đến thuật toán phân cụm mờ Fuzzy C-Mean (FCM)
và các phương pháp xác định số cụm trong gom cụm dữ liệu.
Chƣơng 3: Ứng dụng phương pháp phân cụm mờ cho bài toán phân tích
thông tin quản lý rủi ro thuế doanh nghiệp
Chương này đề cập đến bài toán phân cụm doanh nghiệp dựa trên tập dữ
liệu mẫu về thông tin tờ khai thuế, báo cáo tài chính doanh nghiệp của 644
doanh nghiệp. Và đưa ra kết quả khoanh vùng, lựa chọn các nhóm doanh
nghiệp, các mức rủi ro quản lý thuế.


11

CHƢƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU
1.1. Giới thiệu về khai phá dữ liệu
1.1.1.

Khai phá dữ liệu là gì?

Cũng giống như khai thác tài nguyên khoáng sản, đào vàng, kim cương.

Khai phá dữ liệu là quá trình khám phá tri thức có ích từ lượng dữ liệu lớn [25].
Việc khai phá dữ liệu có thể được tiến hành trên một lượng lớn dữ liệu có trong
cơ sở dữ liệu, các kho dữ liệu hoặc trong các loại lưu trữ thông tin khác. Những
công cụ khai phá dữ liệu có thể phát hiện những xu hướng trong tương lai, các
tri thức mà khai phá dữ liệu mang lại có thể ra quyết định kịp thời [13]. Ở đây
chúng ta có thể coi khai phá dữ liệu là cốt lõi của quá trình phát hiện tri thức.
Quá trình phát hiện tri thức gồm các bước [14]:
Bước 1: Trích chọn dữ liệu: Là bước chọn ra những tập dữ liệu phù hợp,
cần được khai phá từ các tập dữ liệu lớn [14]
Bước 2: Tiền xử lý dữ liệu: Là bước làm sạch dữ liệu như xử lý dữ liệu
không đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán, v.v [14]
Bước 3: Chuyển đổi dữ liệu: Là bước chuẩn hóa và làm mịn dữ liệu để
đưa dữ liệu về dạng phù hợp, thuận lợi nhất cho quá trình khai phá dữ liệu [14]
Bước 4: Khai phá dữ liệu: Đây là bước quan trọng và tốn nhiều thời gian
nhất của quá trình khám phá tri thức, sử dụng các giải thuật để đưa ra những mô
hình dữ liệu [14]
Bước 5: Mô hình biểu diễn tri thức và đánh giá: Dùng các kỹ thuật hiển
thị dữ liệu để trình bày các mẫu thông tin (tri thức) và mối liên hệ đặc biệt trong
dữ liệu đã được khai thác biểu diễn theo dạng gần gũi với người sử dụng như đồ
thị, cây, bảng biểu, luật, v.v. Đồng thời bước này cũng đánh giá những tri thức
khám phá được theo những tiêu chí nhất định [14], xác định xem liệu mô hình
dữ liệu mà mình vừa tìm được có chứa thông tin hữu ích hay không, tri thức
trong đó có đúng hay không?


12

u diễn
ình biể
5. Mô h à đánh giá

v
tri thức

chọn
1. Trích
dữ liệu

ển
3. Chuy
ệu
đổi dữ li

xử lý
2. Tiền
dữ liệu

đã chọn
Dữ liệu
K

ệu
ho dữ li

Dữ liệu

đã sạch

phá
4. Khai
dữ liệu


đã
Dữ liệu i
đổ
chuyển

u
Các mẫ

Các tri

thức

Hình 1.1. Quá trình phát hiện tri thức [27]
1.1.2.

Các giai đoạn của quá trình khai phá dữ liệu

Các giải thuật khai phá dữ liệu thường được miêu tả như những chương
trình hoạt động trực tiếp trên tệp dữ liệu. Quá trình khai phá dữ liệu được thể
hiện bởi mô hình sau:

Hình 1.2. Quá trình khai phá dữ liệu [15]
- Xác định nhiệm vụ: Xác định chính xác vấn đề cần giải quyết [15]
- Xác định dữ liệu liên quan: xác định các dữ liệu liên quan dùng để xây
dựng giải pháp [15]
- Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu có liên quan và xử lý
chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu được
[15]
- Giải thuật khai phá dữ liệu: chọn thuật toán khai phá dữ liệu thích hợp và

thực hiện việc khai phá dữ liệu nhằm tìm được các mẫu có ý ngh a, các
mẫu này được biểu diễn dưới dạng tương ứng với ý ngh a của nó [15]
1.2. Tổng quan về phân cụm dữ liệu


13

1.2.1.

Khái niệm phân cụm dữ liệu

Phân cụm có ý ngh a rất quan trọng trong hoạt động của con người. Ngay
từ lúc bé, con người đã học cách làm thế nào để phân biệt giữa mèo và chó, giữa
động vật và thực vật và liên tục đưa vào sơ đồ phân loại trong tiềm thức của
mình. Phân cụm được sử dụng rộng rãi trong nhiều ứng dụng, bao gồm nhận
dạng mẫu, phân tích dữ liệu, xử lý ảnh, nghiên cứu thị trường, v.v. Với tư cách
là một chức năng khai phá dữ liệu, phân cụm có thể được sử dụng như một công
cụ độc lập chuẩn để quan sát đặc trưng của mỗi cụm thu được bên trong sự phân
bố của dữ liệu và tập trung vào một tập riêng biệt của các cụm để giúp cho việc
phân tích đạt kết quả.
Phân cụm dữ liệu là một k thuật trong khai phá dữ liệu nhằm tìm kiếm,
phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn và quan trọng trong tập
dữ liệu lớn để từ đó cung cấp thông tin, tri thức cho việc ra quyết định [10].
Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn ban đầu
thành các nhóm dữ liệu trong đó các đối tượng cùng nhóm tương tự như nhau.
Trong mỗi nhóm, một số chi tiết có thể không quan tâm đến để đổi lấy dữ
liệu đơn giản hóa. Hay ta có thể hiểu “Phân cụm dữ liệu là quá trình tổ chức
các đối tượng thành từng nhóm mà các đối tượng ở mỗi nhóm đều tương tự
nhau theo một tính chất nào đó, những đối tượng không tương tự tính chất sẽ ở
nhóm khác” [11].

Chúng ta có thể thấy điều này với một ví dụ đơn giản như sau:

Hình 1.3. Ví dụ về phân cụm dữ liệu [22]
Trong trường hợp này, chúng ta dễ dàng xác định dữ liệu được chia
thành 4 cụm dựa vào các dữ liệu đã cho, các tiêu chí tương tự để phân cụm
trong trường hợp này là khoảng cách: hai hoặc nhiều đối tượng thuộc nhóm
được gom lại theo một khoảng cách nhất định.
1.2.2.

Các mục tiêu của phân cụm dữ liệu


14

Mục tiêu của phân cụm dữ liệu là chia nhỏ các đối tượng vào các cụm sao
cho các đối tượng cùng cụm là tương đồng với nhau.

Hình 1.4. Ví dụ phân cụm các ngôi nhà dựa trên khoảng cách [12]
Một vấn đề thường gặp trong phân cụm là hầu hết các dữ liệu cần cho
phân cụm đều có chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác
hoặc thiếu đầy đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lí dữ
liệu nhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển sang giai đoạn phân
tích cụm dữ liệu. Nhiễu ở đây được hiểu là các đối tượng dữ liệu không chính
xác, không tường minh hoặc là các đối tượng dữ liệu khuyết thiếu thông tin
về một số thuộc tính, v.v. Một trong các kỹ thuật xử lí nhiễu phổ biến là
việc thay thế giá trị các thuộc tính của đối tượng nhiễu bằng giá trị thuộc
tính tương ứng. Ngoài ra, dò tìm đối tượng ngoại lai cũng là một trong
những hướng nghiên cứu quan trọng trong phân cụm, chức năng của nó là xác
định một nhóm nhỏ các đối tượng dữ liệu khác thường so với các dữ liệu trong
cơ sở dữ liệu, tức là các đối tượng dữ liệu không tuân theo các hành vi hoặc mô

hình dữ liệu nhằm tránh sự ảnh hưởng của chúng tới quá trình và kết quả của
phân cụm [12].

Hình 1.5. Ví dụ phân cụm các ngôi nhà dựa trên kích cỡ [12]
Theo các nghiên cứu đến thời điểm hiện nay thì chưa có một phương
pháp phân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng


15

cấu trúc dữ liệu. Hơn nữa, đối với các phương pháp phân cụm cần có cách thức
biểu diễn cấu trúc của dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có
tương ứng một thuật toán phân cụm phù hợp [15]. Vì vậy phân cụm dữ liệu
vẫn đang là một vấn đề khó và mở, vì phải giải quyết nhiều vấn đề cơ bản
một cách trọn vẹn và phù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là
đối với dữ liệu hỗn hợp đang ngày càng tăng trong các hệ quản trị dữ liệu và
đây cũng là một trong những thách thức lớn trong l nh vực khai phá dữ liệu
[15].
Tóm lại, phân cụm dữ liệu cần phải giải quyết các vần đề cơ bản như sau
[4]:
- Biểu diễn dữ liệu
- Xây dựng hàm tính độ tương tự
- Xây dựng các tiêu chuẩn phân cụm
- Xây dựng mô hình cho cấu trúc cụm dữ liệu
- Xây dựng thuật toán phân cụm và xác lập các điều kiện khởi tạo
- Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm
1.2.3.

Một số ứng dụng của phân cụm dữ liệu


Một số ứng dụng của phân cụm dữ liệu cụ thể như sau:
- Thương mại: Phân loại nhóm khách hàng, dữ liệu khách hàng
- Sinh học: Phân loại các gen với các chức năng tương đồng
- Thư viện: Phân loại các cụm sách có nội dung và ý ngh a tương đồng
nhau
- Y học: Chuẩn đoán triệu chứng, phương pháp trong điều trị y học
- Tài chính và thị trường chứng khoán: dùng để phân tích tình hình tài
chính, phân tích đầu tư, phân tích cổ phiếu.
- Khai thác dữ liệu web.
- Trong công nghiệp viễn thông: Phân tích nhu cầu và phân tích các mẫu
gian lận và xác định các mẫu khác thường.
1.2.4.

Các yêu cầu của phân cụm dữ liệu


16

Theo Hoàng Thị Giao Lan và Trần Tuấn Tài [15], thuật toán phân cụm dữ
liệu cần phải:
- Có khả năng mở rộng
- Có khả năng thích nghi với các kiểu dữ liệu khác nhau: kiểu số, kiểu nhị
phân, dữ liệu định dạng, hạng mục, hỗn hợp, v.v
- Khám phá các cụm với hình dạng bất kỳ, do hầu hết các cơ sở dữ liệu có
chứa nhiều cụm dữ liệu với các hình thù khác nhau như hình lõm, hình
cầu, hình que, v.v
- Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào
- Ít nhạy cảm với thứ tự của dữ liệu vào: cùng một tập dữ liệu, khi đưa vào
xử lý cho thuật toán phân cụm dữ liệu với các thứ tự đầu vào của dữ liệu ở
các lần thực hiện khác nhau thì không ảnh hưởng đến kết quả phân cụm

- Khả năng thích nghi với dữ liệu nhiễu cao: dữ liệu nhiễu là dữ liệu lỗi,
không đầy đủ, dữ liệu rác
- Khả năng thích nghi với dữ liệu đa chiều: Thuật toán có khả năng áp dụng
hiệu quả cho dữ liệu có số chiều khác nhau
- Dễ hiều, dễ cài đặt và sử dụng
1.3. Một số kỹ thuật tiếp cận trong phân cụm dữ liệu
1.3.1.

Phương pháp phân cụm phân hoạch

Với một tập dữ liệu gồm n phần tử và k (k  n) là số cụm được tạo thành.
Một thuật toán phân hoạch tổ chức các phần tử dữ liệu vào k phân vùng, mỗi
phân vùng thể hiện một cụm dữ liệu và thỏa mãn: mỗi cụm phải chứa ít nhất một
phần tử dữ liệu và mỗi phần tử dữ liệu chỉ thuộc vào một cụm. Để đưa ra được k
phân mảnh, một phương pháp phân mảnh tạo ra một phân mảnh khởi tạo, sau đó
sử dụng kỹ thuật lặp để cải thiện phân mảnh bằng cách di chuyển các phần tử dữ
liệu từ cụm này sang cụm khác. Tiêu chuẩn tổng quát của quá trình phân mảnh
tốt là các phần tử thuộc cùng một cụm thì “gần gũi” hoặc có liên quan đến nhau,
các phần tử khác cụm thì “xa nhau” hoặc rất khác nhau. Có nhiều tiêu chuẩn
khác nhau để đánh giá chất lượng của các phân mảnh [8].
Tuy nhiên, phương pháp này không thể xử lí các cụm có hình dạng kỳ dị
hoặc các cụm có mật độ các điểm dầy đặc. Các thuật toán phân hoạch dữ liệu có


17

độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ
liệu, do nó phải tìm kiếm tất cả các cách phân hoạch có thể được. Chính vì vậy,
trên thực tế thường đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử
dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như để hướng

dẫn cho quá trình tìm kiếm phân hoạch dữ liệu. Như vậy, ý tưởng chính của
thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham để
tìm kiếm lời giải [4].
1.3.2.

Phương pháp phân cụm phân cấp

Quá trình thực hiện phân cụm theo phương pháp này được mô tả bởi một
đồ thị có cấu trúc cây, vì vậy nó còn được gọi là phương pháp phân cụm cây.
Trong đó, tập dữ liệu được sắp xếp thành một cấu trúc có dạng hình cây gọi là
cây phân cụm [2]. Có hai cách tiếp cận phổ biến của kỹ thuật này đó là: hòa
nhập nhóm (hay trộn các cụm), thường được gọi là tiếp cận dưới lên và phân
chia nhóm (hay phân tách các cụm), thường được gọi là tiếp cận trên xuống.
Quá trình thực hiện thuật toán được biểu diễn thành cây và quyết định
phân dữ liệu thành bao nhiêu cụm sẽ do người dùng quyết định. Người dùng
cũng dựa trên cây này để nhận được kết quả phân cụm.
Ví dụ về phương pháp phân cụm phân cấp xem tại hình 1.6 dưới đây.
Bước 1

Bước 2

Bước 3

Bước 4

Bước 5

Bước 6
Dưới lên


a

a, b

b
a, b, c

c
d

a, b, c, d, e, f
d, e

e

d, e, f

f
Trên xuống
Bước 6

Bước 5

Bước 4

Bước 3

Bước 2

Bước 1


Hình 1.6. Ví dụ phương pháp phân cụm phân cấp
- Phương pháp “dưới lên”: Phương pháp này bắt đầu với mỗi đối tượng
được khởi tạo tương ứng với các cụm riêng biệt, sau đó tiến hành nhóm
các đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung
tâm của hai nhóm), quá trình này được thực hiện cho đến khi tất cả các
nhóm được hòa nhập vào một nhóm (mức cao nhất của cây phân cấp)


18

hoặc cho đến khi các điều kiện kết thúc thỏa mãn. Như vậy, cách tiếp cận
này sử dụng chiến lược ăn tham trong quá trình phân cụm.
Cụ thể, phương pháp phân cụm phân cấp dưới lên bao gồm các bước sau
[2]:
o Khởi tạo mỗi phần tử là một cụm: c i = {xi}, c = n
Trong đó: c là số cụm, ci biểu diễn cụm thứ i
x là phần tử của cụm
n là số phần tử của tập dữ liệu
o Khi c # 1 thực hiện lặp:
 Chọn hai cụm gần nhất ci và cj theo quy tắc đã chọn
 Trộn ci và cj thành cij = ci ∪ cj
 c ← c-1

Ví dụ trong hình 1.6: quá trình thực hiện phương pháp dưới lên cụ thể như
sau:
o Bước 1: Khởi tạo mỗi phần tử a, b, c, d, e, f là một cụm. Như vậy
có 6 cụm ban đầu là {a}, {b}, {c}, {d}, {e}, {f}
o Bước 2: Gộp cụm {a}, {b} thành cụm {a, b}. Các cụm thu được là:
{a, b}, {c}, {d}, {e}, {f}

o Bước 3: Gộp cụm {a, b} và cụm {c} thành cụm {a, b, c}. Các cụm
thu được là: {a, b, c}, {d}, {e}, {f}
o Bước 4: Gộp cụm {d} và cụm {e} thành cụm {d, e}. Các cụm thu
được là: {a, b, c}, {d, e}, {f}
o Bước 5: Gộp cụm {d, e} và cụm {f} thành cụm {d, e, f}. Các cụm
thu được là: {a, b, c}, {d, e, f}
o Bước 6: Gộp cụm {d, e, f} và cụm {a, b, c} thành cụm {a, b, c, d, e,
f}. Cụm thu được là: {a, b, c, d, e, f}
- Phương pháp “trên xuống”: Bắt đầu với trạng thái là tất cả các đối tượng
được xếp trong cùng một cụm. Mỗi vòng lặp thành công, một cụm được
tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào
đó cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện


19

dừng thỏa mãn. Cách tiếp cận này sử dụng chiến lược chia để trị trong quá
trình phân cụm.
Phương pháp trên xuống thực hiện theo quy trình ngược với phương pháp
dưới lên. Phương pháp này phức tạp và lâu hơn phương pháp dưới lên,
thường chỉ được áp dụng khi người ta có thêm thông tin về phân bố cụm
để có phương pháp tách phù hợp.
1.3.3.

Phương pháp tiếp cận dựa trên mật độ

Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định,
mật độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một ngh a nào
đó. Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được
phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này

phải lớn hơn một ngưỡng đã được xác định trước. Phương pháp phân cụm dựa
trên mật độ của các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra
các cụm dữ liệu với hình thù bất kỳ [4]. Kỹ thuật này có thể khắc phục được các
phần tử ngoại lai hoặc giá trị nhiễu rất tốt, tuy nhiên việc xác định các tham số
mật độ của thuật toán là rất khó khăn, trong khi các tham số này lại có tác động
rất lớn đến kết quả phân cụm.

H nh 1 7. Ví dụ về phân cụm theo mật độ (1) [19]


20

Hình 1.8. Ví dụ về phân cụm theo mật độ (2) [19]
1.3.4.

Phương pháp phân cụm dựa trên lưới

Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa
trên cấu trúc dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp
dụng cho lớp dữ liệu không gian. Mục tiêu của phương pháp này là lượng hóa
dữ liệu thành các ô tạo thành cấu trúc dữ liệu lưới. Sau đó, các thao tác phân
cụm chỉ cần làm việc với các đối tượng trong từng ô trên lưới chứ không phải
các đối tượng dữ liệu. Cách tiếp cận dựa trên lưới này không di chuyển các đối
tượng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối tượng
trong một ô. Phương pháp này gần giống với phương pháp phân cụm phân cấp
nhưng chúng không trộn các ô, đồng thời giải quyết khắc phục yêu cầu đối với
dữ liệu nhiều chiều mà phương pháp phân phân cụm dựa trên mật độ không giải
quyết được. ưu điểm của phương pháp phân cụm dựa trên lưới là thời gian xử lí
nhanh và độc lập với số đối tượng dữ liệu trong tập dữ liệu ban đầu, thay vào đó
là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lưới. [15]


Hình 1.9. Cấu trúc phân cụm dựa trên lưới [19]
1.3.5.

Phương pháp phân cụm dựa trên mô hình


21

Phương pháp phân cụm dựa trên mô hình cố gắng để tối ưu hóa sự phù
hợp giữa dữ liệu cho trước và một số mô hình toán học. Những phương pháp
này thường được dựa trên giả định rằng các dữ liệu được tạo ra bởi sự hòa nhập
của các phân bố xác suất cơ bản. [8]

Hình 1.10. Ví dụ về phân cụm dựa trên mô h nh [19]
Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu
với mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn
hợp phân phối xác suất cơ bản. Các thuật toán phân cụm dựa trên mô hình có hai
cách tiếp cận chính: mô hình thống kê và mạng nơron. Phương pháp này gần
giống với phương pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm
riêng biệt nhằm cải tiến các mô hình đã được xác định trước đó, nhưng đôi khi
nó không bắt đầu với một số cụm cố định và không sử dụng cùng một khái niệm
mật độ cho các cụm. [15]


22

CHƢƠNG 2: GIỚI THIỆU BÀI TOÁN PHÂN CỤM MỜ VÀ CÁC
PHƢƠNG PHÁP XÁC ĐỊNH SỐ CỤM TRONG GOM CỤM DỮ LIỆU
2.1. Bài toán phân cụm mờ

2.1.1.

Giới thiệu về phân cụm mờ

Phân cụm mờ là phương pháp phân cụm dữ liệu mở rộng trong đó mỗi
điểm dữ liệu có thể thuộc về hai hay nhiều cụm thông qua giá trị hàm thuộc.
Nhiều vấn đề đã dẫn đến bài toán phân cụm mờ và ứng dụng được nói
nhiều trong bài toán phân cụm mờ là: nhận dạng ảnh, xử lý thông tin, phân loại
khách hàng trong ngân hàng, v.v.
Ưu điểm của phân cụm mờ so với phân cụm rõ được thể hiện trong thực
tế khi mà không thể chỉ ra ranh giới rõ ràng giữa các cụm. Phân cụm rõ bắt buộc
các điểm chỉ được phép thuộc vào duy nhất một cụm. Còn phân cụm mờ cho
phép các điểm dữ liệu linh hoạt hơn, một điểm dữ liệu có thể thuộc vào nhiều
cụm và ta đưa ra khái niệm độ thuộc để chỉ mức độ liên quan của điểm dữ liệu
vào cụm mà nó thuộc. Giá trị độ thuộc nằm trong khoảng (0,1), trường hợp điểm
dữ liệu không thuộc một cụm nào hay chỉ thuộc vào duy nhất một cụm là rất
hiếm.
2.1.2.
2.1.2.1.

Thuật toán Fuzzy C-Mean (FCM)
Hàm mục tiêu

Kỹ thuật này phân hoạch một tập n vectơ đối tượng dữ liệu X =
x1,….,xn  Rs thành c các nhóm mờ dựa trên tính toán tối thiểu hóa hàm mục
tiêu để đo chất lượng của phân hoạch và tìm trung tâm cụm trong mỗi nhóm, sao
cho chi phí hàm đo độ phi tương tự là nhỏ nhất. Một phân hoạch mờ vectơ điểm
dữ liệu X = x1,….,xn  Rs là đặc trưng đầu vào được biểu diễn bởi ma trận U
uik sao cho điểm dữ liệu đã cho chỉ có thể thuộc về một số nhóm với bậc
được xác định bởi mức độ thuộc giữa [0,1]. Như vậy, ma trận U được sử dụng

để mô tả cấu trúc cụm của X bằng cách giải thích u ik như bậc thành viên xk với
cụm i. [4,8]
Cho U = (u1, u2, ….uc) là phân hoạch mờ gồm c cụm. Mã trận Ucxn như
sau: [4, 8]


23

Ucxn = [

]

Dunn định ngh a hàm liên tục mờ như sau: uikd2 (xk, vi)
Jm(U,V) = ∑



Bezdek khái quát hóa hàm mục tiêu mờ bằng cách đưa ra trọng số mũ
m>1 là bất kỳ số thực nào như sau:
Jm(U,V) = ∑

Trong đó:



, 1≤m≤ ∞

(1)

X = [x1,….., xn]  Rs là n đối tượng dữ liệu trong không gian Rs.

m [1, +] là tham số mờ.
vi  Rs là trung tâm cụm thứ i.
d(xk, vi) = dik là khuôn mẫu để đo khoảng cách giữa dữ liệu x k với trung
tâm cụm thứ i.
uik  [0,1] là bậc của phần tử dữ liệu xk thuộc về cụm thứ i.
V = [vij] = [vl,…, vc] Rsxc là ma trận biểu diễn các giá trị đối tượng tâm
của cụm.
U = [uik] là ma tra phân hoạch mờ ngẫu nhiên của X trong C phần.
Một trong các nhân tố chính ảnh hưởng tới quyết định phân cụm hợp lý
các điểm là vấn đề chọn phép đo độ phi tương tự. Thực vậy, tính toán bậc thành
viên uik phụ thuộc vào định ngh a của phép đo khoảng cách d ik mà là tích vô
hướng trên Rs . Bình phương khoảng cách giữa vectơ mẫu xk và trung tâm vị trí
của cụm thứ i được định ngh a như sau: [4, 8]
d(xk, vi) = ‖xk - vi‖ = √
d2(xk, vi) = ‖xk - vi‖2 =

Trong đó:
A là ma trận hữu hạn dương đối xứng (p x p) bất kỳ.
‖xk - vi‖2 biểu diễn độ lệch của dữ liệu xk với vi , d(xk, vi) là tích vô hướng
trên Rs.


24

Bậc của thành viên của xk với cụm i thỏa mãn ràng buộc sau:
{






(2)

Để thuận tiện, coi mảng đối tượng dữ liệu x1,....,xn  là các cột trong ma
trận đối tượng dữ liệu X = [xjk] = [x1,….,xn]  Rsxc. Ma trận phân hoạch U là
một công cụ tiện lợi để mô tả cấu trúc cụm trong dữ liệu {x 1,…xn}. Định ngh a
tập tất cả các ma trận thực không suy biến cấp c x n thực hiện phân hoạch mờ n
đối tượng c thành cụm dữ liệu trong không gian R cxn là:
[

Mfcn = {U

] ∑

}

(3)

Rcxn là không gian của tất cả các ma trận thực cấp c x n
Thông thường người ta gọi bài toán phân cụm mờ là bài toán tìm các độ
thuộc uij nhằm tối thiểu hàm mục tiêu ở trên Jm(U,V.
Định lý 1: Nếu m và c là các tham số cố định và Ik là một tập được định
nghĩa như sau: [4, 8]
Với mọi số k thỏa mãn 1 ≤ k ≤ n: Ik = {i|1 ≤ i ≤ c, d ik = 0}

(4)

thì hàm mục tiêu Jm(U,V) đạt giá trị tối thiểu:
khi và chỉ khi:


min{Jm(U,V) = ∑

}



: uik =

vi =



{
{ ∑





(5)

1≤i≤c

(6)

Định lý đã được Bezdek chứng minh (nếu m 1, d2ik > 0, 1 ≤ i ≤ c) là
đúng đắn.
Như vậy, một phân hoạch được gọi là tối ưu thì hàm mục tiêu phải đạt giá
trị tối thiểu, điều này tương đương với hai điều kiện (5) và (6) phải thỏa mãn. Từ



Xem Thêm

×