Tải bản đầy đủ

Kết hợp mô hình học máy thống kê với mô hình học dựa trên luật đề khử nhập nhằng nghĩa từ tiếng việt

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƢỜNG ĐẠI HỌC CÔNG NGHỆ

ĐINH PHÚ HÙNG

KẾT HỢP MÔ HÌNH HỌC MÁY THỐNG KÊ VỚI
MÔ HÌNH HỌC DỰA TRÊN LUẬT ĐỂ KHỬ
NHẬP NHẰNG NGHĨA TỪ TIẾNG VIỆT

Ngành
Chuyên ngành
Mã số

: Công nghệ thông tin
: Hệ thống thông tin
: 60.48.05

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS. LÊ ANH CƢỜNG


HÀ NỘI - 2013


i

LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân. Các số liệu, kết
quả trình bày trong luận văn này là trung thực và chƣa từng đƣợc ai công bố trong bất
kỳ công trình luận văn nào trƣớc đây.
Học Viên
Đinh Phú Hùng


ii

TÓM TẮT KHÓA LUẬN

Một từ có thể có hơn một nghĩa phân biệt và nó có thể đƣợc dịch theo nhiều
cách khác nhau phụ thuộc vào ngữ cảnh mà nó xuất hiện. Khử nhập nhằng nghĩa của
từ là bài toán xác định nghĩa đúng của một từ đa nghĩa trong một ngữ cảnh xác định.
Vấn đề này đƣợc nêu lên nhƣ một bài toán riêng biệt lần đầu tiên vào cuối những năm
1940 và nó đƣợc coi là một trong những vấn đề lâu đời nhất của lĩnh vực xử lý ngôn
ngữ tự nhiên. Bài toán này nhận đƣợc nhiều sự quan tâm từ sớm nhƣ vậy là do xử lý
nhập nhằng nghĩa của từ đóng vai trò quan trọng trong nhiều bài toán khác của xử lý
ngôn ngữ tự nhiên nhƣ dịch máy, tìm kiếm thông tin, v...v.
Đã có rất nhiều các nghiên cứu khử nhập nhằng nghĩa của từ trên các ngôn ngữ
khác nhau nhƣ tiếng Anh, tiếng Trung Quốc, v...v. Tuy nhiên, theo hiểu biết của chúng
tôi, chƣa có nhiều các nghiên cứu khử nhập nhằng nghĩa của từ tiếng Việt. Chính vì
vậy, việc nghiên cứu khử nhập nhằng nghĩa của từ tiếng Việt là cần thiết. Trong nhiều
cách tiếp cận để giải quyết bài toán khử nhập nhằng này, phƣơng pháp học máy thống
kê đã cho thấy những ƣu điểm khi so sánh với các phƣơng pháp khác. Tuy nhiên, đối
với các mô hình học máy thống kê xây dựng để khử nhập nhằng nghĩa của từ vẫn còn
tồn tại vấn đề nhƣ các mô hình này xây dựng trên nguyên lý thống kê chung và không
thể giải quyết đƣợc vài trƣờng hợp ngoại lệ không tuân theo quy luật thống kê.
Luận văn này đề xuất một mô hình mới với mục đích cải thiện hiệu năng của
các mô hình học máy thống kê hiện tại, trong đó chúng tôi sử dụng các luật đƣợc sinh
ra bởi phƣơng pháp học dựa trên luật chuyển (Transformation based learning -TBL) để
sửa lỗi sai (những trƣờng hợp phân lớp sai) của mô hình học máy thống kê. Chúng tôi
phát triển phƣơng pháp này cho vấn về khử nhập nhằng nghĩa của từ tiếng Việt và đã
đạt đƣợc kết quả tốt nhất khi so sánh với các phƣơng pháp Naive Bayes, Support


Vector Machines, và Transformation Based Learning. Hơn nữa, kết quả nghiên cứu
của chúng tôi đã đƣợc đăng tại hội nghị quốc tế IEEE-RIVF 2012.


iii

LỜI CẢM ƠN

Lời đầu tiên, tôi xin bày tỏ lòng biết ơn chân thành đến các thầy cô giáo trƣờng
Đại học Công Nghệ, Đại học Quốc Gia Hà Nội nói chung và các thầy cô trong bộ môn
Khoa học Máy Tính nói riêng. Trong suốt hai năm học tập trong trƣờng, các thầy cô
không những tận tình truyền đạt kiến thức mà còn luôn động viên giúp đỡ tôi trong
học tập, nghiên cứu cũng nhƣ trong cuộc sống.
Đặc biệt, tôi muốn gửi lời cảm ơn sâu sắc đến thầy giáo, PGS. TS. Lê Anh
Cƣờng, ngƣời đã tận tình chỉ bảo, hƣớng dẫn tôi trong suốt quá trình nghiên cứu cũng
nhƣ quá trình hoàn thiện luận văn tốt nghiệp.
Tôi cũng xin cảm ơn các bạn học viên cao học lớp KHMT - K16, đã luôn cùng
tôi nghiên cứu và học tập, đã cho tôi những ý kiến đóng góp giá trị trong suốt thời gian
học tập cũng nhƣ trong quá trình nghiên cứu thực hiện luận văn tốt nghiệp.
Tôi cũng xin đƣợc gửi lời cảm ơn đến Trƣờng Đại học Thủy Lợi, Khoa CNTT
và đặc biệt là bộ môn Kỹ Thuật Máy Tính & Mạng đã tạo điều kiện cho tôi đƣợc học
tập, nghiên cứu và hoàn thiện khóa luận tốt nghiệp.
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc đến gia đình và bạn bè, những ngƣời
luôn động viên giúp đỡ tôi vƣợt qua những khó khăn trong cuộc sống.
Hà Nội, ngày 5 tháng 7 năm 2013
Học viên
Đinh Phú Hùng


iv

MỤC LỤC

LỜI CAM ĐOAN................................................................................................. i
TÓM TẮT KHÓA LUẬN .................................................................................. ii
LỜI CẢM ƠN .................................................................................................... iii
DANH MỤC HÌNH VẼ .................................................................................... vii
DANH MỤC BẢNG BIỂU.............................................................................. viii
CHƢƠNG I. TỔNG QUAN VỀ BÀI TOÁN KHỬ NHẬP NHẰNG ............. 1
1.1. Giới thiệu ................................................................................................... 1
1.1.1. Vấn đề khử nhập nhằng nghĩa của từ ................................................... 1
1.1.2. Các ứng dụng của việc khử nhập nhằng............................................... 2
1.2. Đặt vấn đề.................................................................................................. 4
1.3. Mục tiêu của đề tài ................................................................................... 5
1.4. Đối tƣợng và phƣơng pháp nghiên cứu .................................................. 5
1.5. Những đóng góp của luận văn ................................................................. 6
1.6. Bố cục luận văn ......................................................................................... 6
CHƢƠNG II. KIẾN THỨC CƠ SỞ ................................................................. 8
2.1. Các nghiên cứu khử nhập nhằng nghĩa của từ trong quá khứ. ........... 8
2.1.1. Cách tiếp cận dựa trên tri thức ............................................................. 8
2.1.2. Cách tiếp cận dựa trên kho ngữ liệu ................................................... 10
2.2. Các mô hình học có giám sát ................................................................. 11
2.2.1. Mô hình Naive Bayes ......................................................................... 11
2.2.2. Mô hình Support Vector Machine ...................................................... 15
2.2.3. Mô hình học dựa trên luật .................................................................. 21
CHƢƠNG III. ĐỀ XUẤT MÔ HÌNH KHỬ NHẬP NHẰNG NGHĨA........ 24
CỦA TỪ ............................................................................................................. 24
3.1. Đề xuất mô hình ...................................................................................... 24
3.1.1. Quá trình huấn luyện .......................................................................... 24
3.1.2. Quá trình kiểm tra .............................................................................. 27
3.2. Biểu diễn ngữ cảnh, lựa chọn đặc trƣng và tập luật mẫu ................... 28
3.2.1. Biểu diễn ngữ cảnh ............................................................................. 29
3.2.2. Lựa chọn đặc trƣng............................................................................. 30
3.2.3. Lựa chọn tập luật mẫu ........................................................................ 31
CHƢƠNG IV. THỰC NGHIỆM..................................................................... 33


v

4.1. Chuẩn bị kho ngữ liệu ............................................................................ 33
4.2. Kết quả thực nghiệm .............................................................................. 35
KẾT LUẬN ....................................................................................................... 38
DANH MỤC CÁC CÔNG TRÌNH LIÊN QUAN ĐẾN LUẬN VĂN .......... 39
TÀI LIỆU THAM KHẢO................................................................................ 40


vi

DANH MỤC CÁC KÝ HIỆU VIẾT TẮT

Từ hoặc cụm từ

Viết tắt

Machine Learning

ML

Naive Bayes

NB

Natural Language Processing

NLP

Support Vector Machines

SVM

Transformation Based Learning

TBL

Word Sense Disambiguation

WSD


vii

DANH MỤC HÌNH VẼ

Hình 2.1. Minh họa bằng hình học SVM ........................................................... 15
Hình 2.2. Tập mẫu phân hoạch tuyến tính .......................................................... 16
Hình 2.3. Tập mẫu không phân hoạch tuyến tính............................................... 18
Hình 2.4. Ánh xạ từ không gian 𝑅𝑛 vào không gian 𝑅𝑑 .................................... 20
Hình 2.5. Sơ đồ mô tả quá trình huấn luyên của thuật toán TBL. ...................... 22
Hình 2.6. Sơ đồ mô tả quá trình kiểm tra của thuật toán TBL. .......................... 23
Hình 3.1. Sơ đồ mô tả quá trình huấn luyện ở giải đoạn thứ nhất ...................... 25
Hình 3.2. Sơ đồ mô tả quá trình huấn luyện ở giải đoạn thứ hai ........................ 26
Hình 3.3. Sơ đồ mô tả quá trình huấn luyện ở giải đoạn thứ ba ......................... 27
Hình 3.4. Sơ đồ mô tả quá trình kiểm tra ........................................................... 28
Hình 3.5. Các mẫu luật chuyển........................................................................... 32
Hình 4.1. Một số luật chuyển cho từ bạc ............................................................ 36


viii

DANH MỤC BẢNG BIỂU
Bảng 4.1. Bảng thống kê trên các dữ liệu đƣợc gán nhãn .................................. 34
Bảng 4.2. Thống kê trên tập mẫu đƣợc phân chia .............................................. 35
Bảng 4.3. Kết quả của mô hình Naive Bayes ..................................................... 35
Bảng 4.4. Kết quả của mô hình NB&TBL đối với từ nhập nhằng "Bạc" ......... 36
Bảng 4.5. Kết quả thực nghiệm trên các mô hình .............................................. 37


1

CHƢƠNG I. TỔNG QUAN VỀ BÀI TOÁN KHỬ NHẬP NHẰNG
Trong chƣơng này, chúng tôi giới thiệu về bài toán khử nhập nhằng nghĩa của
từ, một số ứng dụng cần thiết phải giải quyết bài toán này, cùng với một số phƣơng
pháp tiếp cận để giải quyết bài toán. Bên cạnh đó, chƣơng này cũng nêu bật tính cấp
thiết của đề tài và từ đó đề xuất một mô hình mới cho phép giải quyết bài toán khử
nhập nhằng nghĩa của từ với độ chính xác cao hơn các phƣơng pháp tiếp cận trƣớc đó.
Ngoài ra, bố cục của luận văn cũng đƣợc đề cập trong chƣơng này.
1.1. Giới thiệu
1.1.1. Vấn đề khử nhập nhằng nghĩa của từ
Một từ với từ loại của nó đã xác định mà có nhiều nghĩa đƣợc gọi là từ đa
nghĩa. Ví dụ nhƣ danh từ "bank" trong tiếng Anh có ít nhất hai nghĩa khác biệt là
"ngân hàng" và "bờ (của con sông)". Bên cạnh đó, từ đa nghĩa cũng xuất hiện trong
tiếng Việt. Hãy xem xét hai ví dụ sau đây:
 Anh ta đang câu cá ở ao.
 Đại bác câu trúng lô cốt.
Động từ "câu" trong hai câu trên mang hai ý nghĩa khác nhau. Trong câu thứ
nhất, động từ "câu" hàm ý chỉ hành động của ngƣời dùng cần câu, có mắc mồi ở lƣỡi
câu để bắt cá. Còn trong câu thứ hai, động từ câu chỉ hành động của một vật mang đạn
bắn cho đạn đi theo hình cầu vồng rồi rơi xuống đích ở xa. Nhƣ vậy, việc khử nhập
nhằng nghĩa của từ chính là bài toán xác định nghĩa đúng của từ đa nghĩa trong một
ngữ cảnh xác định. Giải quyết tốt bài toán này sẽ mang lại nhiều lợi ích cho các bài
toán khác của xử lý ngôn ngữ tự nhiên nhƣ: Dịch máy, tìm kiếm thông tin, trích rút
thông tin, v...v.
Khử nhập nhằng nghĩa của từ là một trong các bài toán của xử lý ngôn ngữ tự
nhiên. Trên thực tế, nó đã đƣợc hình thành nhƣ là một nhiệm vụ cơ bản của dịch máy
(Machine Translation - MT) từ cuối những năm 1940. Vào thời gian đó, các nhà
nghiên cứu đã có những ý tƣởng về các thành phần cần thiết cho việc khử nhập nhằng
nhƣ ngữ cảnh có chứa từ nhập nhằng, thống kê các thông tin về từ và nghĩa, nguồn tri
thức v...v.
Nghiên cứu của Yehoshua[42] đã chỉ ra rằng vấn đề này là một trong những trở
ngại chính làm cản trở việc phát triển dịch máy vào những năm 1960. Trong suốt
những năm 1970, vấn đề khử nhập nhằng nghĩa của từ đã đƣợc tiếp cận để giải quyết
bằng trí tuệ nhân tạo nhƣ theo nghiên cứu của Wilks[45]. Tuy nhiên các kết quả đạt
đƣợc chƣa khả quan do thiếu nguồn tri thức có quy mô lớn. Việc khử nhập nhằng đã


2

có bƣớc ngoặt vào những năm 1980 với sự ra đời của các nguồn tài nguyên về từ vựng
có quy mô lớn mà nó cho phép các phƣơng pháp tự động trích rút tri thức nhƣ nghiên
cứu của Wilks[46]. Từ những năm 1990 cho đến nay, vấn đề khử nhập nhằng đã đƣợc
tiếp cận bằng các phƣơng pháp dựa trên kho ngữ liệu.
Các phƣơng pháp tiếp cận để giải quyết bài toán khử nhập nhằng nghĩa của từ
có thể đƣợc phân vào hai nhóm tiếp cận chính là: Tiếp cận dựa trên tri thức
(knowledge-based) và tiếp cận dựa trên học máy (machine learning).
Các phƣơng pháp dựa trên tri thức phụ thuộc vào nguồn tri thức về ngôn ngữ
thu đƣợc trƣớc đó. Vì vậy, bài toán khử nhập nhằng sẽ đƣợc giải quyết bằng cách so
sánh ngữ cảnh mà từ nhập nhằng xuất hiện với các thông tin có trong nguồn tri thức.
Các phƣơng pháp trong cách tiếp cận này đều dựa trên nguồn tri thức nhƣ từ điển
WordNet, từ điển máy có thể đọc (Machine Readable Dictionary - MRD) cũng nhƣ là
các luật về ngữ pháp để khử nhập nhằng.
Cách tiếp cận học máy đã thu hút đƣợc nhiều nghiên cứu trong lĩnh vực xử lý
ngôn ngữ tự nhiên từ những năm 1990. Nhiều phƣơng pháp học máy đã đƣợc áp dụng
cho các bài toán của xử lý ngôn ngữ tự nhiên (bao gồm cả vấn đề khử nhập nhằng) và
đã đạt đƣợc những thành công đáng kể. Các phƣơng pháp trong cách tiếp cận này sử
dụng các phƣơng pháp thống kê và học máy để xây dựng mô hình từ các mẫu văn bản
lớn. Các phƣơng pháp này đều dựa trên các dữ liệu đƣợc gán nhãn, chƣa đƣợc gán
nhãn hoặc cả hai. Các phƣơng pháp dựa trên học máy có thể đƣợc phân vào 3 nhóm
bao gồm: Học có giám sát, học không giám sát và học bán giám sát. Bởi vì hệ thống
học có giám sát dựa trên các dữ liệu đƣợc gán nhãn nên nó đạt đƣợc kết quả tốt. Nhiều
phƣơng pháp học máy đã đƣợc áp dụng để giải quyết bài toán khử nhập nhằng nghĩa
của từ nhƣ: Phƣơng pháp Maximum Entropy [3][37], phƣơng pháp Support Vector
Machines [18], phƣơng pháp Decision List [39], phƣơng pháp Naive Bayesian[9][33].
Các nghiên cứu khác đã cố gắng sử dụng tri thức ngữ nghĩa trong từ điển [20][28].
1.1.2. Các ứng dụng của việc khử nhập nhằng
Việc khử nhập nhằng nghĩa của từ là cần thiết cho nhiều ứng dụng. Sau đây
chúng tôi giới thiệu một số ứng dụng mà cần thiết phải giải quyết bài toán khử nhập
nhằng nghĩa của từ:
 Dịch máy (Machine Translation - MT):
Nhƣ chúng ta đã biết, để có thể dịch từ ngôn ngữ nguồn sang một ngôn ngữ
đích thì chúng ta cần biết từng từ trong ngôn ngữ nguồn sẽ tƣơng đƣơng với từng từ
nào trong ngôn ngữ đích. Trên thực tế, tồn tại một số từ trong ngôn ngữ nguồn là từ đa
nghĩa. Vì vậy, với mỗi từ đa nghĩa đó thì nó có thể tƣơng đƣơng với nhiều từ trong


3

ngôn ngữ đích. Do đó, cần phải giải quyết bài toán khử nhập nhằng nghĩa của từ, với
mục đích chọn ra đƣợc nghĩa chính xác tƣơng ứng cho quá trình dịch. Ví dụ trong từ
điển Việt - Anh, động từ "câu" có thể đƣợc dịch thành một trong các từ (to fish, to
draw, to lob, v...v) trong tiếng Anh phụ thuộc vào ngữ cảnh của từ "câu" xuất hiện.
Ngoài ra, chúng ta cũng có thể xem trong từ điển Pháp - Anh, từ "grille" trong tiếng
Pháp có thể đƣợc dịch thành một trong các từ (railings, gate, bar, grid, scale,
schedule, v...v) trong tiếng Anh mà phụ thuộc vào ngữ cảnh mà từ grille xuất hiện
(vấn đề này có thể xem thêm nghiên cứu Weaver[44], nghiên cứu của Yngve[43]).
 Tìm kiếm thông tin (Information Retrieval - IR):
Khi chúng ta tìm kiếm cho một từ khóa cụ thể, điều mà chúng ta mong muốn là
chƣơng trình tìm kiếm loại bỏ sự xuất hiện của các tài liệu mà có chứa các từ hoặc
cụm từ không phù hợp với mục đích tìm kiếm ban đầu của chúng ta. Do đó, vấn đề
khử nhập nhằng cũng cần thiết đƣợc giải quyết trong các câu truy vấn. Ví dụ, khi
chúng ta tìm kiếm từ khóa "depression" hệ thống tìm kiếm nên trả lại cho chúng ta
những tài liệu về illness (bệnh tật), weather systems (hệ thống thời tiết), hay
economics (kinh tế)?. Điều này phụ thuộc vào ngữ cảnh mà ngƣời tìm kiếm cung cấp
có đủ thông tin cần thiết hay không, ví dụ khi ngữ cảnh là "tropical depression" thì hệ
thống sẽ trả lại các thông tin liên quan về thời tiết.
 Trích rút thông tin (Information Extraction - IE)
Khử nhập nhằng cũng đƣợc yêu cầu cho việc phân tích chính xác văn bản trong
một số ứng dụng. Ví dụ, đối với một hệ thống thu thập thông minh có thể yêu cầu một
biến trạng thái để thông báo rằng tất cả các tham chiếu tới các loại thuốc bất hợp pháp
(illegal drugs) chứ không phải là thuốc y tế (medical drugs).
Nghiên cứu của Jacquemin[11] đã trình bày một phƣơng pháp dựa trên từ điển
(dictionary-based) mà nó bao gồm việc áp dụng các luật khử nhập nhằng ở các mức độ
nhƣ từ vựng, lĩnh vực, cú pháp và ngữ nghĩa. Nghiên cứu của Malin[22] đã đề xuất áp
dụng một phƣơng pháp dựa trên đƣờng đi ngẫu nhiên (random walks) để giải quyết
nhập nhằng tên thực thể.
Một số bài toán tại workshop Semeval-2007 ít nhiều trực tiếp xử lý nhập nhằng
cho việc trích rút thông tin. Cụ thể, bài toán hoán dụ theo nghiên cứu của Markert[23],
các hệ thống đƣợc yêu cầu kết hợp các hoán dụ thích hợp với mục tiêu đặt tên các thực
thể. Ví dụ, trong câu "the BMW slowed down", BMW là một công ty xe hơi, nhƣng ở
đây chúng tôi đề cập đến một chiếc xe cụ thể đƣợc sản xuất bởi BMW. Tƣơng tự nhƣ
vậy, bài toán tìm kiếm "Web People Search" theo nghiên cứu của Artiles[2], hệ thống
đƣợc yêu cầu phân biệt tên ngƣời xảy ra trong các tài liệu Web, có nghĩa là để xác


4

định sự xuất hiện của các trƣờng hợp cụ thể của tên ngƣời trong văn bản.
 Web ngữ nghĩa (Semantic Web)
Semantic Web đòi hỏi phải chú thích tự động các văn bản theo một bản thể
tham khảo nhƣ trong nghiên cứu của Dill[8]. Phân loại tên thực thể, xác định đồng
tham khảo (co-reference), và từ viết tắt mở rộng (ví dụ nhƣ MG có thể là "magnesium"
hoặc "miligam") cũng có thể đƣợc giải quyết nhƣ bài toán khử nhập nhằng cho tên
riêng. Khử nhập nhằng chỉ mới bắt đầu đƣợc áp dụng trong các lĩnh vực này, nó đƣợc
áp dụng để giải quyết vấn đề ngữ nghĩa cho các thông tin trên Web.
 Biên soạn từ điển (Lexicography)
Khử nhập nhằng và biên soạn từ điển (ví dụ nhƣ các chuyên gia tạo từ điển) có
thể có những sự hỗ trợ qua lại lẫn nhau: Khử nhập nhằng có thể giúp cung cấp các
nhóm nghĩa thực nghiệm và thống kê các chỉ số quan trọng của ngữ cảnh cho các
nghĩa mới hoặc các nghĩa đã tồn tại. Hơn nữa, khử nhập nhằng còn giúp tạo ra mạng
ngữ nghĩa ngoài từ điển có khả năng đọc (machine-readable dictionaries) nhƣ trong
nghiên cứu của Richardson[34]. Mặt khác, ngƣời tạo từ điển có thể cung cấp các nghĩa
tốt hơn mà có lợi đối với việc khử nhập nhằng.
1.2. Đặt vấn đề
Nhƣ đã trình bày ở trên, cách tiếp cận học máy thống kê đã cho thấy những ƣu
điểm của nó so với các cách tiếp cận dựa trên tri thức. Trong khi các cách tiếp cận dựa
trên tri thức là dựa trên các luật đƣợc tạo bởi các chuyên gia cũng nhƣ khả năng của họ
và gặp vấn đề khó khăn khi giải quyết một số lƣợng lớn các trƣờng hợp. Cách tiếp cận
học máy có thể giải quyết vấn đề này trên quy mô lớn mà không phải quan tâm nhiều
đến khía cạnh ngôn ngữ. Tuy nhiên, các phƣơng pháp tiếp cận học máy đề yêu cầu bộ
dữ liệu đã gán nhãn trƣớc để xây dựng lên mô hình. Bộ dữ liệu huấn luyện càng lớn thì
mô hình học máy xây dựng sẽ càng tốt. Trên thực tế, để xây dựng một bộ dữ liệu huấn
luyện lớn thì mất thiều thời gian và công sức.
Mặc dù độ chính xác của các phƣơng pháp tiếp cận giải quyết bài toán này trên
các kho ngữ liệu chuẩn Senseval-1, Senseval-2, và Senseval-3 là vào khoảng trên 80%.
Một số nghiên cứu khác nhƣ nghiên cứu của Le[17] đạt đƣợc độ chính xác vào khoảng
90% nhƣng chỉ hạn chế cho một số từ nhập nhằng. Nhƣ vậy, vẫn còn những trƣờng
hợp mà mô hình học máy thống kê chƣa giải quyết đƣơc. Vấn đề này theo quan điểm
của chúng tôi có thể đƣợc giải thích nhƣ sau:
 Lý do thứ nhất chính là các mô hình học máy thống kê dựa trên một kho ngữ
liệu ít và không đầy đủ. Trên thực tế, để xây dựng một kho ngữ liệu đầy đủ và
lớn là khó và không khả thi.


5

 Lý do thứ hai chính là vẫn còn tồn tại các trƣờng hợp ngoại lệ (đặc biệt) mà nó
không tuân theo quy luật thống kê.
Nhƣ vậy, vấn đề đặt ra là làm thế nào để có thể cải thiện đƣợc độ chính xác của
các mô hình học máy thống kê với một tập huấn luyện đã cho trƣớc. Do đó, cần thiết
phải có một mô hình mới khắc phục đƣợc những vấn đề còn tồn tại của mô hình học
máy thống kê, nhằm cải thiện đƣợc độ chính xác của nó.
1.3. Mục tiêu của đề tài
Luận văn này đề xuất xây dựng một mô hình mới mà trọng tâm là giải quyết
các trƣờng hợp bị lỗi (các trƣờng hợp bị phân lớp sai bởi mô hình học máy thống kê)
nhằm nâng cao độ chính xác của mô hình học máy thống kê cũng nhƣ vƣợt qua giới
hạn của các mô hình học máy thống kê trƣớc đó. Trong suốt quá trình nghiên cứu,
bằng cách mƣợn ý tƣởng từ cách tiếp cận dựa trên tri thức thay cho việc tạo ra các luật
bởi chuyên gia, chúng tôi áp dụng kỹ thuật của học dựa trên luật chuyển TBL cho việc
tự động tạo ra các luật. Cách xây dựng hệ thống của chúng tôi có thể tóm tắt nhƣ sau:
 Thứ nhất, dựa trên kho ngữ liệu huấn luyện Corpus-1, chúng tôi chia ngẫu
nhiên N lần thành hai kho ngữ liệu training-corpus-i và developing-corpus-i
theo tỉ lệ 3:1, với 𝑖 = 1, 𝑁. Chúng tôi sử dụng kho ngữ liệu training-corpus-i
huấn luyện lên một mô hình phân lớp Naive Bayes. Chính mô hình này đƣợc sử
dụng cho việc khởi tạo các nhãn cơ bản trong giải thuật học dựa trên luật
chuyển TBL, từ đó phát hiện ra các ngữ cảnh bị phân lớp sai của mô hình NB.
Sau đó, kho ngữ liệu phát triển developing-corpus-i đƣợc sử dụng để thu đƣợc
một tập các luật chuyển. Quá trình thu các tập luật chuyển này sẽ đƣợc lặp lại
nhiều lần trên các kho ngữ liệu training-corpus-i và developing-corpus-i . Sau
đó chúng tôi gộp các tập luật chuyển đó lại để thu đƣợc một tập luật chuyển tốt
nhất.
 Thứ hai, chúng tôi sử dụng các luật chuyển vừa thu đƣợc để sửa nhãn cho
những ngữ cảnh bị phân lớp sai của mô hình học máy. Độ chính xác của hệ
thống mà chúng tôi đề xuất là tốt nhất khi so sánh với các phƣơng pháp NB,
TBL, SVM.
1.4. Đối tƣợng và phƣơng pháp nghiên cứu
Đối tƣợng nghiên cứu của luận văn gồm: Một số mô hình học máy thống kê và
mô hình học dựa trên luật chuyển mà đƣợc sử dụng để giải quyết bài toán khử nhập
nhằng nghĩa của từ. Trong đó chúng tôi tập trung vào mô hình học máy Naive Bayes
và mô hình học đựa trên luật chuyển TBL.
Phƣơng pháp nghiên cứu của luận văn: Đề xuất mô hình mới về mặt lý thuyết,
sau đó tiến hành sử dụng các công cụ phân lớp có sẵn nhƣ LibSVM kết hợp với các


6

công cụ xử lý nhập nhằng nghĩa của từ tự xây dựng. Qua đó chứng minh tính hiệu quả
của mô hình mới mà chúng tôi đề xuất so với các mô hình đã có trƣớc đó.
1.5. Những đóng góp của luận văn
Thứ nhất, đề xuất việc lựa chọn các đặc trƣng phù hợp cho bài toán khử nhập
nhằng nghĩa của từ tiếng Việt. Qua đó sử dụng các đặc trƣng này trong các mô hình
học máy thống kê nhƣ mô hình NB, mô hình TBL, và mô hình SVM cho kết quả cao.
Thứ hai, đề xuất tập mẫu luật chuyển phù hợp trong phƣơng pháp học dựa trên
luật chuyển (TBL) để thu đƣợc các luật chuyển có chất lƣợng. Qua đó giúp cho việc
sửa các lỗi của mô hình học máy thống kê tốt hơn.
Thứ ba, xây dựng đƣợc kho ngữ liệu đã gán nhãn gồm 10 từ đa nghĩa trong
tiếng Việt, phục vụ cho việc đánh giá độ chính xác của các mô hình học máy.
Thứ tƣ, đề xuất một mô hình mới giải quyết bài toán khử nhập nhằng. Mô hình
dựa trên việc kết hợp mô hình học máy thống kê và mô hình học dựa trên luật. Mô
hình mới này cho phép sửa đƣợc các lỗi sai của mô hình học máy thống kê, nó đạt
đƣợc độ chính xác tốt nhất khi so sánh với các mô hình NB, mô hình TBL, và mô hình
SVM. Hơn nữa, mô hình này mà chúng tôi đề xuất có thể áp dụng để giải quyết nhiều
bài toán khác của xử lý ngôn ngữ tự nhiên.
Thứ năm, giải quyết bài toán khử nhập nhằng nghĩa của từ tiếng Việt mà theo
hiểu biết của chúng tôi chƣa có nhiều các nghiên cứu về vấn đề này bằng chính mô
hình mới mà chúng tôi đã đề xuất.
1.6. Bố cục luận văn
Trong phần này, chúng tôi sẽ trình bày chi tiết cách tổ chức luận văn và thông
tin tóm tắt của từng chƣơng. Luận văn đƣợc tổ chức thành 4 chƣơng, ngoài chƣơng 1
đã đƣợc trình bày, các chƣơng còn lại đƣợc tổ chức nhƣ sau:
 Chƣơng 2: Kiến thức cơ sở
Trong chƣơng này, chúng tôi sẽ giới thiệu kiến thức cơ sở mà chủ yếu là cách
tiếp cận dựa trên tri thức và cách tiếp cận dựa trên kho ngữ liệu. Sau đó, chúng tôi
trình bày một số giải thuật học máy cơ bản mà những giải thuật này sẽ đƣợc sử dụng
trong quá trình xây dựng hệ thống do chúng tôi đề xuất cũng nhƣ sử dụng trong phần
thực nghiệm.
 Chƣơng 3: Đề xuất mô hình khử nhập nhằng nghĩa của từ
Trong chƣơng này, chúng tôi đề cập đến hai vấn đề. Thứ nhất, đề xuất mô hình
mới cho phép khử nhập nhằng với độ chính xác cao hơn các mô hình trƣớc đó. Chìa


7

khóa để xây dựng nên mô hình này chính là sử dụng các luật chuyển TBL để sửa lỗi
cho mô hình học máy thống kê. Thứ hai, trình bày cách biểu diễn ngữ cảnh của từ
nhập nhằng, nêu nên tầm quan trọng của việc lựa chọn đặc trƣng và cho thấy vai trò
quan trọng của nó trong việc nâng cao hiệu năng của hệ thống đồng thời đề xuất việc
lựa chọn đặc trƣng. Ngoài ra, tập mẫu luật trong giải thuật học dựa trên luật chuyển
cũng đƣợc trình bày trong chƣơng này.
 Chƣơng 4: Thực nghiệm
Trong chƣơng này, chúng tôi trình bày cách xây dựng kho ngữ liệu cho 10 từ đa
nghĩa trong tiếng Việt. Từ việc chuẩn bị kho ngữ liệu đó, chúng tôi tiến hành thực
nghiệm đánh giá hệ thống mà chúng tôi đề xuất đối với 10 từ nhập nhằng trong tiếng
Việt và so sánh kết quả thu đƣợc với các phƣơng pháp tiến cận trƣớc đó nhƣ phƣơng
pháp Naive Bayes, phƣơng pháp TBL, phƣơng pháp SVM. Trên cơ sở so sánh kết quả
thực nghiệm của các phƣơng pháp, chúng tôi đƣa ra kết luận về phƣơng pháp mà
chúng tôi đề xuất.


8

CHƢƠNG II. KIẾN THỨC CƠ SỞ
Chƣơng này đƣợc chia thành hai phần. Trong phần đầu, chúng tôi trình bày các
phƣơng pháp đã đƣợc áp dụng để giải quyết bài toán khử nhập nhằng nghĩa của từ.
Qua đó cung cấp một bức tranh tổng thể về phƣơng pháp giải quyết bài toán khử nhập
nhằng nghĩa của từ. Trong phần hai, chúng tôi sẽ giới thiệu một số mô hình học máy
cơ bản nhƣ: mô hình Naive Bayes, mô hình SVM, và mô hình TBL.
2.1. Các nghiên cứu khử nhập nhằng nghĩa của từ trong quá khứ.
Trong phần này chúng tôi tóm tắt các cách tiếp cận của các nghiên cứu về vấn
đề khử nhập nhằng nghĩa của từ cho đến thời điểm hiện tại. Hầu hết các phƣơng pháp
tiếp cận khử nhập nhằng nghĩa của từ đều đƣợc phân vào 2 nhóm tiếp cận đó là: Tiếp
cận dựa trên tri thức (knowledge-based) và cách tiếp cận dựa trên kho ngữ liệu (datadriven hay corpus-based).
2.1.1. Cách tiếp cận dựa trên tri thức
Công việc khử nhập nhằng nghĩa của từ đạt đến một bƣớc ngoặt trong thập niên
1980 và 1990, khi mà nguồn tài nguyên về ngữ nghĩa có quy mô lớn nhƣ từ điển, từ
điển đồng nghĩa (thesauri) và kho ngữ liệu đƣợc phổ biến rộng rãi. Các phƣơng pháp
tiếp cận dựa trên tri thức có thể phân vào các nhóm theo kiểu tài nguyên mà các
phƣơng pháp này sử dụng nhƣ:
 Từ điển máy có thể đọc (Machine Readable Dictionary - MRD).
 Từ điển từ đồng nghĩa (Thesauri)
Từ điển máy có thể đọc
Từ điển máy có thể đọc cung cấp nguồn tài nguyên thông tin về nghĩa của từ
giúp cho việc khử nhập nhằng nghĩa của từ. Ở đây chúng ta cần phân biệt từ điển máy
có thể đọc với từ điển điện tử dành cho ngƣời, các từ điển điện tử dùng cho ngƣời
dùng mặc dù ở dạng điện tử nhƣng không phải cho máy sử dụng. Chẳng hạn chúng
chứa một số thông tin mà máy không cần biết nhƣ các thông tin về ngữ âm
(phonetics), giải thích… Từ điển máy có thể đọc chứa các thông tin không có trong
các từ điển cho ngƣời vì con ngƣời có thể suy ra chúng bằng những tri thức về thế giới
thực.
Theo nghiên cứu của Ide[10], từ điển máy có thể đọc trở thành nguồn tri thức
phổ biến cho bài toán khử nhập nhằng từ những năm 1980. Các hoạt động nghiên cứu
chính trong những năm 1980 đã cố gắng tự động trích rút tri thức về từ vựng và ngữ
nghĩa dựa trên từ điển máy có thể đọc. Nghiên cứu của Lesk[20] đã sử dụng tri thức có
trong từ điển là định nghĩa hay giải thích về các nghĩa tƣơng ứng của từ đa nghĩa và
ngữ cảnh của từ đa nghĩa đó. Khử nhập nhằng đã đƣợc thực hiện bằng cách chọn nghĩa


9

của từ mà có số từ chung tối đa khi chồng ngữ cảnh của từ đa nghĩa lên định nghĩa hay
giải thích của từ đa nghĩa đó có trong từ điển. Phƣơng pháp này đạt độ chính xác
khoảng 50-70%.
Từ điển đồng nghĩa (Thesauri)
Từ điển đồng nghĩa Thesauri cung cấp thông tin về mối quan hệ giữa các từ,
đặc biệt là từ đồng nghĩa. Từ điển đồng nghĩa thesauri đƣợc tạo ra cho con ngƣời sử
dụng và vì vậy nó không phải là nguồn cung cấp thông tin hoàn hảo về quan hệ từ.
Tuy nhiên, nó cung cấp một mạng phong phú về liên kết giữa các từ. Từ điển đồng
nghĩa quốc tế (Roget's International Thesaurus), mà đã xuất hiện trong những năm
1950 và đã đƣợc sử dụng trong một loạt các ứng dụng bao gồm cả dịch máy theo
nghiên cứu của Masterman[24], tìm kiếm thông tin theo nghiên cứu của Karen[13], và
phân tích nội dung theo nghiên cứu của Sedelow[36].
Các phƣơng pháp dựa trên tri thức dùng để khử nhập nhằng nghĩa của từ
thƣờng áp dụng đối với tất cả các từ trong văn bản không hạn chế, điều này trái ngƣợc
với các phƣơng pháp dựa trên kho ngữ liệu mà chỉ áp dụng cho những từ mà đƣợc gãn
nhãn sẵn có trong kho ngữ liệu. Nhìn chung, có thể phân các phƣơng pháp dựa trên tri
thức vào 4 nhóm chính nhƣ sau:
Nhóm thứ nhất, sử dụng các thông tin về định nghĩa các nghĩa có của từ nhập
nhằng có trong từ điển và ngữ cảnh của từ nhập nhằng đó. Giải thuật tiêu biểu của
nhóm này là giải thuật Lesk đƣợc đề xuất năm 1986, giải thuật này tiến hành xếp
chồng ngữ cảnh hiện tại chứa từ nhập nhằng lên từng định nghĩa của các nghĩa có thể
có đối với mỗi từ nhập nhằng, sau đó đếm số từ trùng nhau mà có mặt ở cả định nghĩa
và ngữ cảnh của từ nhập nhằng. Nghĩa đƣợc chọn sẽ cho số từ trùng lặp có giá trị lớn
nhất.
Nhóm thứ hai, dựa trên việc xem xét sự tƣơng đồng về ngữ nghĩa để tìm
khoảng cách ngữ nghĩa giữa các khái niệm. Đối với các từ mà nó chia sẻ một ngữ cảnh
chung thì thƣờng liên quan chặt chẽ với nhau về nghĩa, các nghĩa thích hợp có thể
đƣợc lựa chọn bằng cách chọn những nghĩa đƣợc tìm thấy trong khoảng cách ngữ
nghĩa nhỏ nhất.
Nhóm thứ ba, dựa trên sự ràng buộc về ngữ nghĩa của các từ. Việc ràng buộc
ngữ nghĩa này sẽ nắm bắt thông tin về các mối quan hệ có thể có giữa các loại từ và
các đối tƣợng có thể đi cùng với từ đó. Ví dụ nhƣ "drink-liquid" hay "eat-food" là các
ví vụ về sự ràng buộc ngữ nghĩa. Chính những ràng buộc ngữ nghĩa này có thể đƣợc
sử dụng để loại trừ ra những nghĩa không thích hợp. Xét câu sau: "Mary drank
burgundy". Trong cây này, từ "burgundy" là từ đa nghĩa, nó có có thể mang nghĩa


10

"rƣợu vang đỏ", hoặc "màu đỏ tía". Tuy nhiên, chúng ta đã có ràng buộc ngữ nghĩa đối
với từ "drink" là "drink-liquid" và nhƣ vậy nghĩa màu đỏ tía sẽ bị loại. Nghĩa hợp lý
đƣợc chọn sẽ là "rƣợu vang đỏ".
Nhóm thứ tƣ, dựa trên heuristics (phán đoán). Một cách khá chính xác để dự
đoán nghĩa của từ là dựa trên việc phán đoán rút ra từ các đặc tính của ngôn ngữ học
mà có thể quan sát đƣợc trên các văn bản lớn. Phán đoán thƣờng đƣợc sử dụng nhƣ
một cơ sở trong việc đánh giá hệ thống hệ thống khử nhập nhằng nghĩa của từ là
phƣơng pháp "nghĩa có tần số xảy ra nhiều nhất".
2.1.2. Cách tiếp cận dựa trên kho ngữ liệu
Trong vòng 20 năm qua, các cách tiếp cận dựa trên thực nghiệm và thống kê đã
có những ảnh hƣởng đáng kể đối với các vấn đề của xử lý ngôn ngữ tự nhiên. Trong
đó, các thuật toán và kỹ thuật sử dụng học máy (ML) đã đƣợc áp dụng cho nhiều bài
toán xử lý ngôn ngữ tự nhiên và đã đạt đƣợc những thành công đáng kể.
Có thể chia cách tiếp dựa trên kho dữ liệu thành 3 nhóm bao gồm: cách tiếp cận
học có giám sát, cách tiếp cận học không giám sát và cách tiếp cận học bán giám sát.
Tƣơng ứng với các cách tiếp cận trên là 3 kiểu dữ liệu đƣợc sử dụng cho quá trình
huấn luyện bao gồm: dữ liệu đƣợc gán nhãn, dữ liệu không đƣợc gán nhãn và các dữ
liệu bao gồm cả dữ liệu gán nhãn và không gán nhãn. Phƣơng pháp mà chúng tôi đề
xuất thuộc loại học có giám sát nên chúng tôi sẽ giới thiệu qua về phƣơng pháp tiếp
cận này. Các phƣơng pháp cụ thể thuộc nhóm tiếp cận này sẽ đƣợc chúng tôi trình bày
trong mục tiếp theo.
Cách tiếp cận học có giám sát
Một trong những thành công của các nghiên cứu hiện nay là áp dụng các
phƣơng pháp tiếp cận dựa trên kho ngữ liệu, trong đó các thuật toán thống kê và học
máy đã đƣợc sử dụng để xây dựng mô hình thống kê hoặc mô hình phân lớp. Một hệ
thống học có giám sát cho việc khử nhập nhằng yêu cầu một bộ dữ liệu đƣợc gãn nhãn
bao gồm các nhãn (nghĩa) tƣơng ứng với mỗi ngữ cảnh của từ nhập nhằng w. Những
dữ liệu này đƣợc gọi là dữ liệu đã gán nhãn hoặc dữ liệu huấn luyện, sau đó sử dụng
một thuật toán học có giám sát để huấn luyên lên một phân lớp, chính phân lớp này
đƣợc sử dụng cho việc nhận ra nghĩa của từ nhập nhằng trong một ngữ cảnh mới.
Cho đến nay, nhiều thuật toán học có giám sát đã đƣợc áp dụng, chẳng hạn nhƣ:
Decision Lists theo nghiên cứu của Yarowsky[40], hay nghiên cứu của Agirre[1],
Neural Networks theo nghiên cứu của Towell[38], Naive Bayes theo nghiên cứu của
Bruce[7], học dựa trên mẫu (Exemplar-based learning) theo nghiên cứu của Ng[29],
v...v. Gần đây, nghiên cứu của Lee[19] đánh giá một số thuật toán học máy cho việc


11

khử nhập nhằng, bao gồm Naive Bayes, Support Vector Machines, AdaBoost, và cây
quyết định.
2.2. Các mô hình học có giám sát
Trên thực tế có rất nhiều phƣơng pháp học có giám sát và những phƣơng pháp này
đã đƣợc áp dụng thành công trong việc khử nhập nhằng nghĩa của từ với độ chính xác
cao. Trong phần này, chúng tôi sẽ trình bày 3 phƣơng pháp, trong đó hai phƣơng pháp
chính mà chúng tôi sử dụng để đề xuất mô hình mới là phƣơng pháp Naive Bayes và
phƣơng pháp Transformation Based Learning, phƣơng pháp còn lại là Support Vector
Machine mà nó đã chứng minh đƣơc hiệu quả trong việc khử nhập nhằng nghĩa của từ.
2.2.1. Mô hình Naive Bayes
Naive Bayes là một thuật toán phân lớp đơn giản nhƣng hiệu quả. Phƣơng pháp
này đƣợc áp dụng lần đầu tiên cho bài toán khử nhập nhằng nghĩa của từ đƣợc đề xuất
bởi Gale [9]. Nó cho phép gán trực tiếp một nhãn lớp c (ở đây là một nghĩa của từ) từ
một tập thuộc tính đầu vào với giả thiết là các thuộc tính trong tập thuộc tính là độc lập
với nhau.
Giả sử rằng từ đa nghĩa w là cần khử nhập nhằng. Giả sử từ w có một tập các
nghĩa tiềm năng (các nghĩa có thể có trong từ điển) 𝑆 = {𝑠1 , 𝑠2 , … , 𝑠𝑐 } và cho ngữ cảnh
của từ w đƣợc trình bày bởi tập các đặc trƣng 𝐹 = {𝑓1 , 𝑓2 , … , 𝑓𝑛 } (việc lựa chọn chi tiết
và cụ thể cho các đặc trƣng này sẽ đƣợc trình bày trong mục 3.2 của chƣơng 3).
Thuyết Naive Bayes đề nghị rằng từ w sẽ đƣợc phân vào lớp 𝑠𝑘 với (𝑘 = 1, 𝑐 ) mà xác
suất có điều kiện 𝑃 𝑠𝑗 𝐹 với 𝑗 ∈ {1, 2, … , 𝑐} đạt giá trị lớn nhất. Nghĩa là:
𝑠𝑘 = arg max 𝑃 𝑠𝑗 𝐹 , 𝑗 ∈ {1, 2, … , 𝑐} (3.1)
trong đó, giá trị của xác suất có điều kiện 𝑃 𝑠𝑗 𝐹 đƣợc tính toán nhƣ sau:
𝑃 𝑠𝑗 𝐹 =

𝑃 𝑠𝑗 𝑃(𝐹|𝑠𝑗 )
(3.2)
𝑃(𝐹)

trong đó giá trị xác suất P(F) là hằng số đối với tất cả các nghĩa và vì vậy nó không
ảnh hƣởng tới giá trị của xác suất có điều kiện 𝑃 𝑠𝑗 𝐹 . Hơn nữa, chúng ta có giả thiết
là tập các đặc trƣng F là độc lập, do đó giá trị của xác suất có điều kiện 𝑃 𝐹 𝑠𝑗 đƣợc
tính nhƣ sau:
𝑛

𝑃 𝐹 𝑠𝑗 = 𝑃 𝑓1 , 𝑓2 , … , 𝑓𝑛 𝑠𝑗 =

𝑃(𝑓𝑖 | 𝑠𝑗 )
𝑖=1


12

Nhƣ vây, giá trị 𝑠𝑘 đƣợc tính toán nhƣ sau:
𝑠𝑘 = arg max 𝑃 𝑠𝑗 𝐹
= 𝑎𝑟𝑔 𝑚𝑎𝑥

𝑃 𝑠𝑗 𝑃(𝐹|𝑠𝑗 )
𝑃(𝐹)
𝑛

= 𝑎𝑟𝑔 𝑚𝑎𝑥 𝑃 𝑠𝑗

𝑃(𝑓𝑖 | 𝑠𝑗 )
𝑖=1

𝑛

= 𝑎𝑟𝑔 𝑚𝑎𝑥 [𝑙𝑜𝑔(𝑃 𝑠𝑗 ) +

𝑙𝑜𝑔(𝑃(𝑓𝑖 | 𝑠𝑗 ))] (3.3)
𝑖=1

Các giá trị xác suất của 𝑃(𝑓𝑖 |𝑠𝑗 ) và 𝑃 𝑠𝑗 đƣợc ƣớc lƣợng nhƣ sau:
𝑃 𝑠𝑗 =

𝐶𝑜𝑢𝑛𝑡(𝑠𝑗 )
𝐶𝑜𝑢𝑛𝑡 𝑓𝑖 , 𝑠𝑗
3.4 𝑣à 𝑃 𝑓𝑖 | 𝑠𝑗 =
(3.5)
𝑁
𝐶𝑜𝑢𝑛𝑡 𝑠𝑗

trong đó giá trị 𝐶𝑜𝑢𝑛𝑡(𝑓𝑖 , 𝑠𝑗 ) là số lần suất hiện của đặc trƣng 𝑓𝑖 trong ngữ cảnh của
nghĩa 𝑠𝑗 trong tập huấn luyện, 𝐶𝑜𝑢𝑛𝑡(𝑠𝑗 ) là số lần suất hiện của nghĩa 𝑠𝑗 trong tập
huấn luyện và N là tổng số trƣờng hợp xảy ra của từ đa nghĩa w hay cũng chính là kích
thƣớc của tập huấn luyện.
Ƣớc lƣợng xác suất
Mặc dù việc tính các xác suất nhƣ trong công thức trên khá đơn giản và thuận tiện
tuy vậy đó lại không phải là một lựa chọn tốt trong thực tế. Ta hãy xem xét công thức
(3.4). Công thức này sẽ tính rất chính xác trong điều kiện ta có một tập huấn luyện có đầy
đủ các nghĩa và các nghĩa có tỉ lệ hoàn toàn giống trong thực tế. Tuy nhiên, điều này gần
nhƣ là không thể có đƣợc. Vì vậy có thể xảy ra hai trƣờng hợp sau:
 Tập huấn luyện thiếu một nghĩa trong thực tế:
Điều này hoàn toàn có thể xảy ra vì việc thu thập mẫu trong thực tế không thể
hoàn toàn đầy đủ đƣợc và trong trƣờng hợp này giả sử nghĩa còn thiếu là nghĩa 𝑠𝑡 , nhƣ
vậy theo công thức (3.4) ta có xác suất của nghĩa 𝑠𝑡 là:
𝐶𝑜𝑢𝑛𝑡(𝑠𝑡 )
𝑃 𝑠𝑡 =
=0
𝑁
Tức là nếu hàm phân lớp của ta gặp một trƣờng hợp trong thực tế có nghĩa 𝑠𝑡
thì theo công thức (3.4) và công thức (3.2), xác suất của nó theo hàm phân lớp sẽ bằng
0, sẽ không có một trƣờng hợp nào đƣợc gán nghĩa 𝑠𝑡 cả.


13

 Tập huấn luyện chỉ có một nghĩa:
Điều này ít xảy ra nhƣng không phải là không có. Khi đó theo công thức (3.4)
xác suất của nghĩa đó sẽ bằng 1. Điều này đƣơng nhiên không đúng với thực tế. Việc
tính các xác suất trong công thức (3.5) cũng gặp vấn đề gần tƣơng tự. Để giải quyết
một phần các trƣờng hợp này ngƣời ta đề xuất các biện pháp làm mịn khác nhau. Các
phƣơng pháp này không thể giúp tính toán hoàn toàn chính xác các xác suất nhƣng
chúng cho phép loại bỏ các trƣờng hợp xác suất bằng 0 hoặc bằng 1. Sau đây là các
phƣơng pháp làm mịn đƣợc mô tả cụ thể để giải quyết các vấn đề gặp phải với công
thức (3.4). Những vấn đề trong việc tính các xác suất trong công thức (3.5) có thể
đƣợc giải quyết một cách tƣơng tự.
Ƣớc lƣợng Laplace
Ƣớc lƣợng Laplace là một trong những ƣớc lƣợng xác suất đơn giản nhất. Nó
giả sử rằng mọi trƣờng hợp đều đã xảy ra ít nhất một lần.
𝐶𝑜𝑢𝑛𝑡(𝑠𝑡 ) + 1
𝑃 𝑠𝑡 =
𝑁+𝐵
Trong đó N là số các trƣờng hợp trong tập huấn luyện và B là số các nghĩa có thể có.
Ƣớc lƣợng hợp lý cực đại
Một trong những điểm không tốt của Ƣớc lƣợng Laplace là nó tính xác suất quá
lớn cho các nghĩa chƣa từng xảy ra. Ƣớc lƣợng hợp lý cực đại hạn chế bớt một phần
đó là thay vì cộng 1 nhƣ Laplace, nó sẽ cộng 0.5 cụ thể nhƣ sau.
𝑃 𝑠𝑡 =

𝐶𝑜𝑢𝑛𝑡(𝑠𝑡 ) + 0.5
𝑁 + 0.5𝐵

Ƣớc lƣợng Lidstone
Cả ƣớc lƣợng Laplace và ƣớc lƣợng hợp lý cực đại đều là trƣờng hợp đặc biệt của ƣớc
lƣợng Lidstone
𝑃 𝑠𝑡 =

𝐶𝑜𝑢𝑛𝑡(𝑠𝑡 ) + 𝛼
𝑁 + 𝛼𝐵

Trong đó 𝛼 là một số thƣờng đƣợc lấy trong đoạn [0, 1]. Ƣớc lƣợng Lidstone làm
việc tƣơng tự nhƣ ƣớc lƣợng hợp lý cực đại và ƣớc lƣợng Laplace. Nó chỉ tốt hơn ở
chỗ thay vì dùng hằng số cố định, nó sử dụng một số có thể thay đổi đƣợc. Tuy vậy,
chỗ yếu của nó đó là làm sao để tính đƣợc số 𝛼 đó.


14

Ƣớc lƣợng Good Turing
Ý tƣởng của ƣớc lƣợng Good Turing là ƣớc lƣợng các xác suất của những nghĩa
chƣa xuất hiện bằng các nghĩa đã xuất hiện một lần. Với 𝑁𝑐 số các nghĩa đã xuất hiện
c lần, ta coi nhƣ nó đã xuất hiện c* lần
𝑐 ∗ = (𝑐 + 1)
𝑃 𝑐 =

𝑁𝑐 + 1
𝑁𝑐
𝑐∗
𝑁

Dựa trên các ƣớc lƣợng xác suất trình bày ở trên, chúng tôi thiết lập giá trị của xác suất
𝑃(𝑓𝑖 |𝑠𝑗 ) = 1/𝑁 cho mỗi nghĩa 𝑠𝑗 khi gặp một đặc trƣng mới 𝑓𝑖 trong ngữ cảnh của
tập kiểm tra.
Quá trình huấn luyện và quá trình khử nhập nhằng nghĩa của từ đƣợc mô tả chi
tiết nhƣ sau:
Quá trình huấn luyện
for all senses 𝑠𝑗 of w do
for all features 𝑓𝑖 extracted from the training data do
𝑃(𝑓𝑖 |𝑠𝑗 ) =

𝐶(𝑓 𝑖 ,𝑠𝑗 )
𝐶(𝑠𝑗 )

end
end
for all senses 𝑠𝑗 of w do
𝑃(𝑠𝑗 ) =

𝐶(𝑤 , 𝑠𝑗 )
𝐶(𝑤 )

end
Quá trình khử nhập nhằng
for all senses 𝑠𝑗 of w do
score(𝑠𝑗 ) = log(P(𝑠𝑗 ))
for all features 𝑓𝑖 in the context window c do
score(𝑠𝑗 ) = score(𝑠𝑗 ) + log(𝑃(𝑓𝑖 |𝑠𝑗 ))
end
end
choose 𝑠𝑘 = arg max 𝑠𝑐𝑜𝑟𝑒(𝑠𝑗 )


15

2.2.2. Mô hình Support Vector Machine
SVM là phƣơng pháp phân lớp rất hiệu quả đƣợc Vapnik giới thiệu lần đầu tiên
vào năm 1995 để giải quyết nhận dạng mẫu có hai lớp sử dụng nguyên lý cực tiểu hoá
rủi ro cấu trúc (Structural Risk Minimization). Phƣơng pháp SVM đã đƣợc ứng dụng
để giải quyết một số vấn đề của xử lý ngôn ngữ tự nhiên, bao gồm bài toán phân loại
văn bản nhƣ nghiên cứu của Joachims[12], phân nhỏ văn bản (text chunking), phân
tích cú pháp và khử nhập nhằng nghĩa của từ.
Ý tƣởng chính của thuật toán này là cho trƣớc một tập huấn luyện đƣợc biểu
diễn trong không gian vector trong đó mỗi thành phần của vector đặc trƣng là một
điểm, phƣơng pháp này tìm ra một mặt phẳng h quyết định tốt nhất có thể chia các
điểm trên không gian này thành hai lớp riêng biệt tƣơng ứng lớp + và lớp -. Chất lƣợng
của siêu mặt phẳng này đƣợc quyết định bởi khoảng cách (gọi là biên) của điểm dữ
liệu gần nhất của mỗi lớp đến mặt phẳng này. Khoảng cách biên càng lớn thì mặt
phẳng quyết định càng tốt đồng thời việc phân loại càng chính xác. Mục đích thuật
toán SVM tìm ra đƣợc khoảng cách biên lớn nhất để tạo kết quả phân lớp tốt.

Hình 2.1. Minh họa bằng hình học SVM
Đƣờng nét đậm biểu diễn mặt siêu phẳng phân chia hai lớp, trong khi các đƣờng nét
đứt biểu diễn các mặt tiếp tuyến gần nhất với hai lớp.
SVM trong trƣờng hợp tập mẫu phân hoạch tuyến tính đƣợc
Đây là trƣờng hợp đơn giản nhất. Trong trƣờng hợp này tập mẫu có thể đƣợc
phân hoạch bằng một siêu phẳng. Phƣơng pháp SVM sẽ đi tìm siêu phằng này.
Giai đoạn huấn luyện
Giả sử tập mẫu gồm n phần tử:
(𝑥1 , 𝑦1 ), (𝑥2 , 𝑦2 ), …, (𝑥𝑛 , 𝑦𝑛 )
Trong đó 𝑥𝑖 ∈ 𝑅 𝑛 còn 𝑦𝑖 ∈ ±1 là phân lớp của 𝑥𝑖 . Cần xác định siêu phẳng để có thể
tách đƣợc 2 lớp trên. Thực tế có nhiều siêu phằng nhƣ vậy và vấn đề đặt ra là tìm siêu
phẳng thỏa mãn khoảng cách Ơclit giữa hai lớp trên là lớn nhất. (Xem hình vẽ 2.2)


16

Hình 2.2. Tập mẫu phân hoạch tuyến tính
Giả sử phƣơng trình siêu phẳng cần tìm là w.x + b = 0, trong đó w là vector pháp
tuyến của siêu phẳng, 𝑤 ∈ 𝑅 𝑛 . Ta có hai bất phƣơng trình sau:
𝑤. 𝑥𝑖 + 𝑏 = −1 với 𝑦𝑖 = −1
𝑤. 𝑥𝑖 + 𝑏 = +1 với 𝑦𝑖 = +1
Kết hợp hai bất phƣơng trình trên ta có: 𝑦𝑖 𝑤. 𝑥𝑖 + 𝑏 − 1 ≥ 0
Trong đó, những support vector 𝑥𝑖 thỏa mãn phƣơng trình 𝑤. 𝑥𝑖 + 𝑏 = −1 thì nằm
trên siêu phẳng 𝐻1 , thỏa mãn phƣơng trình 𝑤. 𝑥𝑖 + 𝑏 = +1 thì nằm trên siêu phẳng 𝐻2
Khoảng cách từ gốc tọa độ đến siêu phẳng 𝐻1 là:
𝑑1 =

(1 − 𝑏)
𝑤

Khoảng cách từ gốc tọa độ đến siêu phẳng 𝐻2 là:
𝑑2 =

(−1 − 𝑏)
𝑤

Khoảng cách phân hoạch d giữa 𝐻1 và 𝐻2 là:
𝑑 = 𝑑1 − 𝑑2 =

2
𝑤

Do đó, để có khoảng cách d lớn nhất thì 𝑤 phải nhỏ nhất. Nhƣ vậy, phải đi tìm cực
1

tiểu của 2 𝑤 2 .


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×