Tải bản đầy đủ

luận văn thạc sĩ khai phá tri thức song ngữ và ứng dụng trong dịch máy anh việt

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ QUANG HÙNG

KHAI PHÁ TRI THỨC SONG
NGỮ VÀ ỨNG DỤNG TRONG
DỊCH MÁY ANH – VIỆT

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

Hà Nội – 2016


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

LÊ QUANG HÙNG

KHAI PHÁ TRI THỨC SONG
NGỮ VÀ ỨNG DỤNG TRONG

DỊCH MÁY ANH – VIỆT
Chuyên ngành: Khoa học máy tính
Mã số: 62 48 01 01

LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS. Lê Anh Cường
2. PGS.TS. Huỳnh Văn Nam

Hà Nội – 2016


Lới cam

oan

Tổi xin cam oan lun Ăn n y l kt quÊ nghiản cứu ca tổi, ữổc thỹc hiằn dữợi sỹ
hữợng dÔn ca PGS.TS. Lả Anh Cữớng v PGS.TS. Huýnh Vôn Nam. CĂc ni
dung trch dÔn t cĂc nghiản cứu ca cĂc tĂc giÊ khĂc m tổi trnh b y trong
lun Ăn n y  ữổc ghi rê nguỗn trong phn t i liằu tham khÊo.

Lả Quang Hũng

i


Tõm tt
Nhiằm vử ca mt hằ thng dch mĂy l tỹ

ng dch mt vôn bÊn t ngổn ng

n y (v dử, ting Anh) sang mt vôn bÊn tữỡng ữỡng ngổn ng khĂc (v dử,
ting Viằt). Tnh hu ch ca cổng nghằ dch mĂy tông lản cũng vợi chĐt
lữổng ca nõ. Dch mĂy cõ nhiu ứng dửng nhữ: (i) dch t i liằu ting nữợc ngo i
cho mửc ch hiu ni dung, (ii) dch vôn bÊn xuĐt bÊn cĂc ngổn ng khĂc
v (iii) thổng tin liản lc, chflng hn nhữ dch email, chat, vv.
Cõ mt s cĂch tip cn cho b i toĂn dch mĂy nhữ dch trỹc tip (direct
translation), dch dỹa trản chuyn i (transfer - based translation), dch liản
ng (interlingua translation), dch dỹa trản v dử (example - based


translation) v dch thng kả (statistical translation). Hiằn ti, dch mĂy dỹa trản
cĂch tip cn thng kả ang l mt hữợng phĂt trin y tim nông bi nhng ữu im
vữổt tri so vợi cĂc cĂch tip cn khĂc. Thay v xƠy dỹng cĂc t in, cĂc quy lut
chuyn i bng tay, dch mĂy thng kả tỹ ng xƠy dỹng cĂc t in, cĂc quy lut
dỹa trản kt quÊ thng kả cõ ữổc t ng liằu. i vợi mt hằ thng dch mĂy
thng kả, hiằu quÊ (chĐt lữổng dch) ca nõ t lằ thun vợi s lữổng (kch
thữợc) v chĐt lữổng ca ng liằu song ng ữổc sò dửng xƠy dỹng hằ thng
dch. Tuy nhiản, ng liằu song ng sfin cõ hiằn vÔn cặn hn ch cÊ v kch
thữợc lÔn chĐt lữổng, ngay cÊ i vợi cĂc cp ngổn ng chnh. Ngo i ra, i vợi
cĂc cp ngổn ng cõ nhiu khĂc biằt v cĐu trúc ng phĂp (v dử, Anh Viằt), vĐn v chĐt lữổng dch ang l thĂch thức i vợi cĂc nh nghiản cứu v
dch mĂy trong nhiu nôm qua. V vy, viằc b sung thảm ng liằu song
ng v phĂt trin cĂc phữỡng phĂp hiằu quÊ hỡn dỹa trản ng liằu hiằn cõ l
nhng giÊi phĂp quan trồng tông chĐt lữổng dch cho dch mĂy thng kả.
Lun Ăn ca chúng tổi tp trung giÊi quyt cĂc tỗn ti

 nảu thổng qua ba

b i toĂn: phĂt trin phữỡng phĂp xƠy dỹng ng liằu song ng, cÊi tin cĂc
phữỡng phĂp giõng h ng t v xĂc nh cửm t song ng cho dch mĂy thng kả,
cử th nhữ sau:
Thứ nhĐt, i vợi b i toĂn xƠy dỹng ng liằu song ng, chúng tổi khai thĂc t
hai nguỗn: Web v sĂch iằn tò song ng. i vợi nguỗn t Web, chúng tổi tp
trung v o rút trch cĂc vôn bÊn song ng t cĂc web-site song ng. Chúng
tổi xuĐt hai phữỡng phĂp thit k cĂc c trững dỹa trản ni dung: sò dửng cĂc t
bĐt bin gia hai ngổn ng (cognate) v sò dửng cĂc phƠn on dch. Ngo i ra,


chúng tổi kt hổp cĂc c trững dỹa trản ni dung vợi cĂc c trững dỹa trản cĐu
trúc ca trang web rút trch cĂc vôn bÊn song ng, bng cĂch sò dửng
phữỡng phĂp hồc mĂy. i vợi nguỗn t sĂch iằn tò, chúng tổi xuĐt phữỡng phĂp
dỹa trản ni dung, sò dửng mt s mÔu liản kt gia cĂc khi vôn bÊn trong hai
ngổn ng rút trch cĂc cƠu song ng.
Thứ hai, vợi b i toĂn giõng h ng t, chúng tổi xuĐt mt s cÊi tin i vợi mổ
hnh IBM 1 theo cĂch tip cn dỹa trản r ng buc, bao gỗm: r ng buc neo,
r ng buc v v tr ca t, r ng buc v t loi v r ng buc v cửm t. Vợi mỉi
r ng buc, chúng tổi ữa ra phữỡng phĂp tng quĂt tch hổp nõ v o thut
toĂn cỹc i ký vồng trong quĂ trnh ữợc lữổng tham s ca mổ hnh. Ngo i ra,
chúng tổi ữa ra mt phữỡng phĂp kt hổp cĂc r ng buc. Nhng cÊi tin n y Â
giúp nƠng cao chĐt lữổng dch cho hằ thng dch mĂy thng kả Anh - Viằt.
Thứ ba, i vợi b i toĂn xĂc nh cửm t song ng cho dch mĂy thng kả, chúng
tổi xuĐt phữỡng phĂp rút trch cửm t song ng t ng liằu song ng, sò dửng
cĂc mÔu cú phĂp kt hổp vợi giõng h ng cửm t. CĂc cửm t song ng

n y  ữổc ứng dửng v o viằc nƠng cao chĐt lữổng dch cho hằ thng dch
mĂy thng kả Anh - Viằt.
T khõa: dch mĂy, dch mĂy thng kả, tri thức song ng, ng liằu song
ng, vôn bÊn song ng, giõng h ng t.

iii


Lới cÊm ỡn
Trữợc ht, tổi xin gòi lới cÊm ỡn sƠu sc n PGS.TS. Lả Anh Cữớng v
PGS.TS. Huýnh Vôn Nam, hai Thy  trỹc tip hữợng dÔn, ch bÊo tn tnh,
luổn hỉ trổ v to nhng iu kiằn tt nhĐt cho tổi hồc tp v nghiản cứu.
Tổi xin gòi lới cÊm ỡn n cĂc Thy/Cổ giĂo Khoa Cổng nghằ thổng tin,
Trữớng i hồc Cổng nghằ, i hồc Quc gia H Ni, c biằt l PGS.TS. Phm BÊo
Sỡn v cĂc Thy/Cổ giĂo B mổn Khoa hồc mĂy tnh, nhng ngữới  trỹc tip
giÊng dy v giúp ù tổi trong quĂ trnh hồc tp v nghiản cứu trữớng.
Tổi xin gòi lới cÊm ỡn n cĂc ỗng nghiằp Khoa Cổng nghằ thổng tin,
Trữớng i hồc Quy Nhỡn, c biằt l TS. Trn Thiản Th nh v TS. Lả XuƠn Viằt Â
quan tƠm, giúp ù v to iu kiằn cho tổi trong thới gian l m nghiản cứu sinh.

Tổi xin gòi cÊm ỡn n PGS.TS. Nguyn Phữỡng ThĂi, TS. Nguyn Vôn Vinh,
TS. Phan XuƠn Hiu (Trữớng i hồc Cổng nghằ, i hồc Quc gia H Ni),
PGS.TS. Lả Thanh Hữỡng (Trữớng i hồc BĂch khoa H Ni), TS. Nguyn Th
Minh Huyn, TS. Lả Hỗng Phữỡng (Trữớng i hồc Khoa hồc Tỹ nhiản, i hồc
Quc gia H Ni), TS. Nguyn ức Dụng (Viằn Cổng nghằ thổng tin, Viằn H n
lƠm Khoa hồc v Cổng nghằ Viằt Nam), cĂc Thy/Cổ Â cõ nhng gõp ỵ
chnh sòa tổi ho n thiằn lun Ăn.
Tổi xin gòi lới cÊm ỡn n tĐt cÊ anh, ch, em v bn ỗng hồc B mổn Khoa
hồc mĂy tnh (Khoa Cổng nghằ thổng tin, Trữớng i hồc Cổng nghằ, i hồc
Quc gia H Ni), c biằt l ch Nguyn Th XuƠn Hữỡng (Khoa Cổng nghằ
thổng tin, Trữớng i hồc DƠn lp HÊi Phặng), nghiản cứu sinh Ho ng Th iằp
(Khoa Cổng nghằ thổng tin, Trữớng i hồc Cổng nghằ) Â giúp ù tổi trong thới
gian l m nghiản cứu sinh.
Cui cũng, tổi xin gòi lới cÊm ỡn n tĐt cÊ cĂc th nh viản trong gia nh tổi,
c biằt l vổ tổi - ngữới  luổn ng h, chia s, ng viản v gĂnh vĂc cổng viằc
gia nh tổi yản tƠm hồc tp, nghiản cứu.

iv


Möc löc
Líi cam oan
Tâm t›t

i
ii

Líi c£m ìn

iv

Danh möc c¡c chœ vi‚t t›t

viii

Danh möc c¡c h…nh v‡

ix

Danh möc c¡c b£ng

xi

Mð ƒu

1

1 TŒng quan

5

1.1 Khai ph¡ tri thøc song ngœ . . . . . . . . . . . . . . . . . . . . . . .
1.1.1
X¥y düng ngœ li»u song ngœ . . . . . . . . . . . . . . . . . .
1.1.2
Giâng h ng v«n b£n . . . . . . . . . . . . . . . . . . . . . .
1.1.2.1
Giâng h ng o⁄n/c¥u . . . . . . . . . . . . . . . .
1.1.2.2
Giâng h ng tł . . . . . . . . . . . . . . . . . . . .
1.1.3
X¡c ành cöm tł song ngœ . . . . . . . . . . . . . . . . . . .
1.2 Sì l÷æc v• dàch m¡y . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3 Dàch m¡y thŁng k¶ . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.1
Mæ h…nh hâa b i to¡n . . . . . . . . . . . . . . . . . . . . . .
1.3.2
Mæ h…nh ngæn ngœ . . . . . . . . . . . . . . . . . . . . . . .
1.3.3
Mæ h…nh dàch . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.3.1
Mæ h…nh dàch düa tr¶n tł . . . . . . . . . . . . . .
1.3.3.2 Mæ h…nh dàch düa tr¶n cöm tł . . . . . . . . . . . .
1.3.3.3
Mæ h…nh dàch düa tr¶n có ph¡p . . . . . . . . . . .
1.3.4
Gi£i m¢ . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
1.3.5
¡nh gi¡ ch§t l÷æng dàch . . . . . . . . . . . . . . . . . . . .
v

5
6
9
9
10
13
14
16
17
18
20
21
21
22
25
27


1.4 Th£o lu“n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2 X¥y düng ngœ li»u song ngœ cho dàch m¡y thŁng k¶

29
32

2.1 Rót tr‰ch v«n b£n song ngœ tł Web . . . . . . . . . . . . . . . . . .
32
2.1.1 Thu th“p dœ li»u . . . . . . . . . . . . . . . . . . . . . . . .
34
2.1.2 Thi‚t k‚ c¡c °c tr÷ng düa v o nºi dung . . . . . . . . . . .
34
2.1.2.1
Sß döng cognate . . . . . . . . . . . . . . . . . . . 35
2.1.2.2 Sß döng c¡c ph¥n o⁄n dàch . . . . . . . . . . . . .
37
2.1.3 Thi‚t k‚ c¡c °c tr÷ng düa v o c§u tróc . . . . . . . . . . .
39
2.1.4 Mæ h…nh hâa b i to¡n ph¥n lo⁄i . . . . . . . . . . . . . . . .
40
2.2 Rót tr‰ch c¥u song ngœ tł s¡ch i»n tß . . . . . . . . . . . . . . . .
41
2.2.1 Ti•n xß lþ . . . . . . . . . . . . . . . . . . . . . . . . . . . .
44
2.2.2 o º t÷ìng tü . . . . . . . . . . . . . . . . . . . . . . . . .
46
2.2.3 Giâng h
ng o⁄n . . . . . . . . . . . . . . . . . . . . . . . . 46
2.2.4 Giâng h ng c¥u . . . . . . . . . . . . . . . . . . . . . . . . .
47
2.3 Thüc nghi»m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
49
2.3.1 Thüc nghi»m v• rót tr‰ch v«n b£n song ngœ tł Web . . . . . 49
2.3.1.1
C i °t thüc nghi»m . . . . . . . . . . . . . . . . . 49
2.3.1.2 K‚t qu£ thüc nghi»m . . . . . . . . . . . . . . . . .
51
2.3.2 Thüc nghi»m v• rót tr‰ch c¥u song ngœ tł s¡ch i»n tß . . . 53
2.3.2.1
C i °t thüc nghi»m . . . . . . . . . . . . . . . . . 53
2.3.2.2 K‚t qu£ thüc nghi»m . . . . . . . . . . . . . . . . .
55
2.3.3 Thüc nghi»m v• bŒ sung ngœ li»u song ngœ cho dàch m¡y . . 56
2.4 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . .
57
3 Giâng h ng tł cho dàch m¡y thŁng k¶
59
3.1 Cì sð lþ thuy‚t . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
59
3.1.1 ành ngh¾a tł . . . . . . . . . . . . . . . . . . . . . . . . . .
59
3.1.2 ành ngh¾a b i to¡n giâng h ng tł . . . . . . . . . . . . . .
60
3.1.3 C¡c mæ h…nh IBM . . . . . . . . . . . . . . . . . . . . . . . .
61
3.1.4 Thu“t to¡n cüc ⁄i ký vång cho mæ h…nh IBM 1 . . . . . . .
61
3.2 Mºt sŁ c£i ti‚n mæ h…nh IBM 1 theo c¡ch ti‚p c“n düa tr¶n r ng buºc 65
3.2.1 C£i ti‚n mæ h…nh IBM 1 sß döng r ng buºc neo . . . . . . .
66
3.2.2 C£i ti‚n mæ h…nh IBM 1 sß döng r ng buºc v• và tr‰ cıa tł . 69
3.2.3 C£i ti‚n mæ h…nh IBM 1 sß döng r ng buºc v• tł lo⁄i . . . .
71
3.2.3.1
Quan h» v• tł lo⁄i . . . . . . . . . . . . . . . . . . 71
3.2.3.2 R ng buºc v• tł lo⁄i . . . . . . . . . . . . . . . . .
71
3.2.4 C£i ti‚n mæ h…nh IBM 1 sß döng r ng buºc v• cöm tł . . .
74
3.2.4.1 M¤u có ph¡p song ngœ . . . . . . . . . . . . . . . .
75
3.2.4.2
R ng buºc v• cöm tł . . . . . . . . . . . . . . . . 75
3.2.5 K‚t hæp c¡c r ng buºc . . . . . . . . . . . . . . . . . . . . .
78
3.3 Thüc nghi»m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
78
3.3.1 C i °t thüc nghi»m . . . . . . . . . . . . . . . . . . . . . .
78

vi


3.3.2 K‚t qu£ thüc nghi»m vîi r ng buºc neo v r ng buºc v• và
tr‰ cıa tł . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3.3 K‚t qu£ thüc nghi»m vîi r ng buºc tł lo⁄i . . . . . . . . . .
3.3.4 K‚t qu£ thüc nghi»m vîi r ng buºc cöm tł . . . . . . . . .
3.3.5 K‚t qu£ thüc nghi»m v• k‚t hæp r ng buºc . . . . . . . . . .
3.4 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4 X¡c ành cöm tł song ngœ cho dàch m¡y thŁng k¶

81
82
82
83
85
87

4.1 B i to¡n rót tr‰ch cöm tł song ngœ . . . . . . . . . . . . . . . . . .
4.2 Ph÷ìng ph¡p rót tr‰ch cöm tł song ngœ . . . . . . . . . . . . . . .
4.2.1 X¡c ành cöm . . . . . . . . . . . . . . . . . . . . . . . . . .
4.2.2 T…m cöm tł ‰ch . . . . . . . . . . . . . . . . . . . . . . . .
4.2.3 Rót tr‰ch cöm tł . . . . . . . . . . . . . . . . . . . . . . . .
4.3 T‰ch hæp cöm tł song ngœ v o dàch m¡y . . . . . . . . . . . . . . .
4.4 Thüc nghi»m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4.1 Thüc nghi»m v• rót tr‰ch cöm tł song ngœ . . . . . . . . . .
4.4.1.1 C i °t thüc nghi»m . . . . . . . . . . . . . . . . .
4.4.1.2 K‚t qu£ thüc nghi»m . . . . . . . . . . . . . . . . .
4.4.2 Thüc nghi»m v• t‰ch hæp cöm tł song ngœ v o dàch m¡y . .
4.4.2.1 C i °t thüc nghi»m . . . . . . . . . . . . . . . . .
4.4.2.2 K‚t qu£ thüc nghi»m . . . . . . . . . . . . . . . . .
4.5 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . .
K‚t lu“n

87
88
88
89
90
91
93
93
93
93
95
95
96
97
98

Danh möc cæng tr…nh khoa håc cıa t¡c gi£ li¶n quan ‚n lu“n ¡n

101

T i li»u tham kh£o

102

vii


Danh möc c¡c chœ vi‚t t›t
EM

Expectation Maximization (Cüc ⁄i ký vång)

HTML

HyperText Markup Language (Ngæn ngœ ¡nh d§u si¶u v«n b£n)

ME

Maximum Entropy ( º hØn lo⁄n cüc ⁄i)

MLE

Maximum Likelihood Estimation (Ùîc l÷æng kh£ n«ng cüc ⁄i)

MT

Machine Translation (Dàch m¡y)

NLP

Natural Language Processing (Xß lþ ngæn ngœ tü nhi¶n)

POS

Part Of Speech (Nh¢n tł lo⁄i)

SMT

Statistical Machine Translation (Dàch m¡y thŁng k¶)

SVM

Support Vector Machine (M¡y v†c-tì hØ træ)

viii


Danh sĂch hnh v
1.1
1.2
1.3
1.4
1.5
1.6

1.7

1.8
1.9
2.1

Sỡ ỗ tng quan v rút trch ng liằu song ng t Web. . . . . . . .
Kim tỹ thĂp dch mĂy. . . . . . . . . . . . . . . . . . . . . . . . . .
Mổ hnh hoĂ b i toĂn dch mĂy dỹa trản phữỡng phĂp thng kả. . .
CĂc th nh phn ca dch mĂy thng kả. . . . . . . . . . . . . . . .
QuĂ trnh dch dỹa trản t. CƠu u v o ting Anh ữổc dch tng
t sang ting Viằt, sau õ sp xp li trt tỹ t. . . . . . . . . . . .
Dch dỹa trản cửm t. CƠu u v o ữổc tĂch ra th nh cĂc cửm t,
dch mt-mt cĂc cửm t ting Anh sang ting Viằt v cõ th sp
xp li trt tỹ cĂc cửm t. . . . . . . . . . . . . . . . . . . . . . . .
QuĂ trnh dch dỹa trản cú phĂp theo cĂch tip cn dch t chuỉi
sang cƠy cú phĂp, gỗm 3 bữợc: (1) chuyn i trt tỹ t, (2) chn
v
(3) dch. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
QuĂ trnh dch ữổc thỹc hiằn t trĂi sang phÊi v m rng khổng
gian giÊ thuyt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
Minh hồa quĂ trnh giÊi m cƠu u v o f = "He does not go home"
t ting Anh sang ting Viằt. . . . . . . . . . . . . . . . . . . . . .
Sỡ ỗ ca hằ thng rút trch vôn bÊn song ng t Web. . . . . . . .

2.2 Sỡ ỗ mổ tÊ quĂ trnh giõng h ng on/cƠu cho sĂch iằn tò song
ng Anh - Viằt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 V dử v cĂc im neo. . . . . . . . . . . . . . . . . . . . . . . . . .
2.4 nh dng d liằu huĐn luyằn phũ hổp cho viằc sò dửng cổng cử
LIBSVM. ................................
3.1 V dử v giõng h ng t gia mt cp cƠu song ng Anh - Viằt. . . .
3.2 Minh hồa quĂ trnh giõng h ng t theo thut toĂn EM. . . . . . . .
3.3 V dử v r ng buc neo (ổ m u en), gĂn xĂc suĐt giõng h ng bng
khổng cho tĐt cÊ cĂc cp t khĂc (ổ m u xĂm). . . . . . . . . . . .
3.4 V dử v r ng buc v v tr ca t vợi ngữùng = 2, mỉi v tr ch
j (ổ m u en) ch giõng h ng vợi cĂc v tr nguỗn trong phm vi
[j
; j + ] (ổ m u xĂm). . . . . . . . . . . . . . . . . . . . . . . .
3.5 V dử v r ng buc t loi (chĐm trặn en), gĂn xĂc suĐt dch bng
0 cho tĐt cÊ cĂc cp t khĂc (ổ m u xĂm). . . . . . . . . . . . . . .
3.6 V dử v giõng h ng t gia mt cp cƠu Anh - Viằt (cĂc chĐm trặn
en), cĂc t ting Anh v ting Viằt ữổc liằt kả tữỡng ứng theo
chiu dồc v chiu ngang. CĂc ổ m u xĂm th hiằn r ng buc v
cửm t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
ix

8
15
17
18
21

22

24
25
26
33
42
45
51
60
65
66

69
72

77


4.1 V‰ dö v• c¡c cöm tł song ngœ trong mºt c¥u song ngœ Anh - Vi»t,
c¡c tł in “m ch¿ ra c¡c cöm tł. . . . . . . . . . . . . . . . . . . . .
88
4.2 T÷ìng quan giœa ng÷ïng v sŁ l÷æng cöm tł song ngœ. . . . . . .
95

x


Danh sĂch bÊng
1.1 V dử v mt vôn bÊn song ng Anh - Viằt. . . . . . . . . . . . . .
6
1.2 Ng liằu Europarl: gỗm 10 cp ngổn ng trong õ mt ngổn ng l
ting Anh. Kỵ hiằu L1 l ngổn ng nguỗn, L2 l ngổn ng ch. . . 7
2.1 V dử v hai vôn bÊn cõ chứa cĂc cognate tữỡng ứng gia ting Anh
v ting Viằt (cĂc t in nghiảng). . . . . . . . . . . . . . . . . . . . 36 2.2 Tng
hổp cĂc c trững. . . . . . . . . . . . . . . . . . . . . . . . . 41
2.3 V dử v giõng h ng cƠu trong mt on vôn bÊn song ng Anh - Viằt. . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 43
2.4 V dử minh hồa ranh giợi on b mĐt (trong quĂ trnh chuyn i nh
dng t PDF sang Text) v ữổc phửc hỗi. . . . . . . . . . . . 44
2.5 CĂc URL t ba web-site: BBC, VOA News v VietnamPlus. . . . .
50
2.6 Tng hổp s trang web ữổc tÊi v v s cp ứng viản. . . . . . . . 50
2.7 Kt quÊ thỹc nghiằm theo phữỡng phĂp ca Resnik. . . . . . . . . .
52
2.8 Kt quÊ thỹc nghiằm theo phữỡng phĂp ca Ma. . . . . . . . . . .
52
2.9 Kt quÊ thỹc nghiằm 3. . . . . . . . . . . . . . . . . . . . . . . . .
52
2.10 Kt quÊ thỹc nghiằm 4. . . . . . . . . . . . . . . . . . . . . . . . .
53
2.11 Thổng tin chi tit v sĂch iằn tò song ng Anh - Viằt ữổc sò dửng
trong thỹc nghiằm. . . . . . . . . . . . . . . . . . . . . . . . . . . .
54
2.12 Kt quÊ giõng h ng on vợi 200 mÔu. . . . . . . . . . . . . . . . .
55
2.13 CĂc kiu quan hằ gia cĂc cƠu song ng trong 40 on song ng. . . 55
2.14 Kt quÊ thỹc nghiằm v giõng h ng cƠu. . . . . . . . . . . . . . . .
56
2.15 Mt s thng kả ca ng liằu. . . . . . . . . . . . . . . . . . . . . .
56
2.16 Thng kả cĂc thổng s ca ng liằu v chĐt lữổng dch ca hằ thng. 57
3.1 Mt s quan hằ v POS gia ting Anh v ting Viằt theo xĂc suĐt.
72
3.2 13 mÔu cú phĂp song ng Anh - Viằt ữổc sò dửng trong r ng buc
v cửm t. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.3 Thng kả ng liằu song ng Anh - Viằt ữổc sò dửng xƠy dỹng
mổ hnh dch. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4 Thng kả s ln ỗng xuĐt hiằn ca 13 mÔu cú phĂp song ng AnhViằt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.5 Kt quÊ thỹc nghiằm vợi mổ hnh IBM gc, Giza++ v
sò dửng
r ng buc neo. . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.6 Kt quÊ thỹc nghiằm vợi mổ hnh IBM gc, Giza++ v
sò dửng
r ng buc v v tr ca t. . . . . . . . . . . . . . . . . . . . . . . .
xi

76
79
80
81
81


3.7 Kt quÊ thỹc nghiằm vợi mổ hnh IBM gc, Giza++ v
sò dửng
r ng buc v t loi. . . . . . . . . . . . . . . . . . . . . . . . . . .
3.8 Kt quÊ thỹc nghiằm vợi mổ hnh IBM gc, Giza++ v
sò dửng
r ng buc v cửm t. . . . . . . . . . . . . . . . . . . . . . . . . . .
3.9 Kt quÊ thỹc nghiằm vợi mổ hnh IBM gc, Giza++ v
kt hổp
r ng buc (v tr ca t vợi t loi). . . . . . . . . . . . . . . . . . .
3.10 So sĂnh vợi mt s nghiản cứu gn Ơy v giõng h ng t cho SMT.
4.1 Mt s v dử v mÔu cú phĂp v cửm t tữỡng ứng trong ting Anh.
4.2 V dử v mt s cửm t song ng ữổc sò dửng trong thỹc nghiằm.
4.3 10 mÔu cú phĂp song ng Anh - Viằt ữổc sò dửng xĂc nh
cửm t cho SMT. . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.4 Kt quÊ thò nghiằm sò dửng mt s giĂ tr ca ngữùng . . . . . . .
4.5 Kt quÊ thỹc nghiằm vợi phữỡng phĂp ca chúng tổi v
phữỡng
phĂp so khợp mÔu cú phĂp hai pha. . . . . . . . . . . . . . . . .
4.6 Thng kả cĂc thổng s ca ng liằu 200.000 cƠu song ng Anh Viằt ữổc sò dửng trong thỹc nghiằm. . . . . . . . . . . . . . . . .
4.7 Thng kả v s lữổng cửm t song ng Anh - Viằt ữổc sò dửng
trong thỹc nghiằm. . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.8 Kt quÊ thò nghiằm khi tch hổp cĂc cửm t song ng v o hằ thng
SMT Anh - Viằt. . . . . . . . . . . . . . . . . . . . . . . . . . . . .

xii

82
83
83
85
89
92
94
94
95
96
96
97


M

u

1. Tnh cĐp thit ca lun Ăn
ị tững v dch mĂy ra ới t nôm 1949 [60]. T õ n nay, sau hỡn 60 nôm nghiản
cứu v phĂt trin, cĂc dch vử dch mĂy bƠy giớ Â tr nản ph bin rng rÂi. Hiằn
nay, cõ mt s hằ thng dch mĂy thữỡng mi  ữổc sò dửng ph bin
1

2

trản th giợi nhữ Systrans , Kant hay nhng hằ thng dch mĂy m, tiảu biu
3

nhữ Google hỉ trổ hỡn 50 cp ngổn ng nhữ Anh - PhĂp, Anh - Trung, Anh Viằt, vv. Viằt Nam, dch mĂy  tr th nh ch ữổc mt s nhõm tp trung
nghiản cứu. Trong s õ, cõ mt s sÊn ph'm nhữ phn mm dch tỹ ng
EVTRAN - mt hằ thng dch Anh - Viằt hay hằ thng dch tỹ ng Anh Viằt ca
4

Cổng ty c phn tin hồc Lc Viằt , vv. CĂc cĂch tip cn cho b i toĂn dch mĂy
gỗm cõ: dch trỹc tip, dch dỹa trản chuyn i, dch liản ng, dch dỹa trản
v dử v dch thng kả. Hiằn nay, dch mĂy dỹa trản cĂch tip cn thng kả ang
l mt hữợng phĂt trin y tim nông bi nhng ữu im vữổt tri so vợi cĂc cĂch tip
cn khĂc.
i vợi mt hằ thng dch mĂy thng kả, chĐt lữổng dch t lằ thun vợi s
lữổng v chĐt lữổng ca ng liằu song ng ữổc sò dửng xƠy dỹng hằ thng
dch. Tuy nhiản, ng liằu song ng hiằn vÔn cặn hn ch cÊ v kch thữợc
lÔn chĐt lữổng, ngay cÊ i vợi cĂc ngổn ng chnh. Ngo i ra, i vợi cĂc cp
ngổn ng cõ nhiu khĂc biằt v cĐu trúc ng phĂp (v dử, Anh - Viằt), vĐn
v chĐt lữổng dch ang l thĂch thức i vợi cĂc nh nghiản cứu v dch mĂy trong
nhiu nôm qua. V vy, cĂc nghiản cứu nhm khai thĂc thảm ng liằu song
ng v phĂt trin cĂc phữỡng phĂp hiằu quÊ hỡn dỹa trản ng liằu hiằn cõ tông
chĐt lữổng dch cho dch mĂy thng kả l nhng vĐn cĐp thit v mang tnh
thới sỹ trong lắnh vỹc xò lỵ ngổn ng tỹ nhiản hiằn nay. iu n y l ng lỹc
chúng tổi lỹa chồn nghiản cứu v t i "Khai phĂ tri thức song ng v ứng dửng
trong dch mĂy Anh - Viằt".

2. Mửc tiảu ca lun Ăn
Trong lun Ăn n y, chúng tổi
1

2

t ra hai mửc tiảu chnh:

http://www.systransoft.com/lp/machine-translation/

http://www.lti.cs.cmu.edu/Research/Kant/
3
http://translate.google.com
4
http://www.vietgle.vn/home/

1


Thứ nhĐt, nghiản cứu xuĐt mt s phữỡng phĂp khai thĂc tri thức song
ng nhm b sung nguỗn ng liằu cho dch mĂy thng kả.
Thứ hai, nghiản cứu xuĐt mt s phữỡng phĂp l m tông chĐt lữổng
dch cho dch mĂy thng kả dỹa trản ng liằu hiằn cõ.

3. õng gõp ca lun Ăn
xuĐt mt s phữỡng phĂp xƠy dỹng ng liằu song ng cho dch mĂy
thng kả t Web v sĂch iằn tò song ng. i vợi nguỗn t Web, chúng tổi
xuĐt hai phữỡng phĂp thit k cĂc c trững dỹa trản ni dung: sò dửng
cognate v sò dửng cĂc phƠn on dch. i vợi nguỗn t sĂch iằn tò, chúng
tổi xuĐt phữỡng phĂp dỹa trản ni dung, sò dửng mt s mÔu liản kt
gia cĂc khi vôn bÊn trong hai ngổn ng rút trch cĂc cƠu song
ng. õng gõp n y  ữổc cổng b k yu hi thÊo quc t Knowledge and
Systems Engineering (KSE) nôm 2010 (cổng trnh s [1]) v nôm 2013
(cổng trnh s [4]); k yu hi thÊo quc gia ln thứ XVI "Mt s vĐn
chồn lồc ca Cổng nghằ thổng tin v Truyn thổng" nôm 2013 (cổng
trnh s [6]); tp ch khoa hồc Trữớng i hồc Quy Nhỡn nôm 2014 (cổng
trnh s [7]).
xuĐt mt s cÊi tin i vợi mổ hnh giõng h ng IBM theo cĂch tip cn
dỹa trản r ng buc, bao gỗm: r ng buc neo, r ng buc v v tr ca t, r
ng buc v t loi v r ng buc v cửm t. Vợi mỉi r ng buc, chúng tổi ữa ra
phữỡng phĂp tng quĂt tch hổp nõ v o thut toĂn EM trong quĂ trnh
ữợc lữổng tham s ca mổ hnh. Ngo i ra, chúng tổi ữa ra mt phữỡng
phĂp kt hổp cĂc r ng buc. Nhng cÊi tin n y  giúp nƠng cao chĐt
lữổng dch cho hằ thng dch mĂy thng kả Anh - Viằt. õng gõp n y Â
ữổc cổng b k yu hi thÊo quc t International Conference on Asian
Language Processing (IALP) nôm 2012 (cổng trnh s [2]); k yu hi
thÊo quc gia ln thứ XV "Mt s vĐn chồn lồc ca Cổng nghằ thổng
tin v Truyn thổng" nôm 2012 (cổng trnh s [3]); tp ch The
International Journal of Knowledge and Systems Science (IJKSS) nôm
2014 (cổng trnh s [8]).
xuĐt phữỡng phĂp xĂc nh cửm t song ng cho dch mĂy thng kả.
Chúng tổi sò dửng cĂc mÔu cú phĂp kt hổp vợi giõng h ng cửm t
2


x¡c ành cöm tł song ngœ. C¡c cöm tł song ngœ n y ¢ ÷æc øng döng v o
vi»c n¥ng cao ch§t l÷æng dàch cho h» thŁng dàch m¡y thŁng k¶ Anh Vi»t. âng gâp n y ¢ ÷æc cæng bŁ ð k y‚u hºi th£o quŁc t‚ Computing and
Communication Technologies, Research, Innovation, and Vision for the
Future (RIVF) n«m 2013 (cæng tr…nh sŁ [5]).

C¡c nºi dung v k‚t qu£ nghi¶n cøu tr…nh b y trong lu“n ¡n (tł Ch÷ìng 2 ‚n
Ch÷ìng 4) ¢ ÷æc cæng bŁ trong 8 cæng tr…nh. Trong â, 1 b i b¡o ð t⁄p ch‰
quŁc t‚ câ ph£n bi»n, ÷æc xu§t b£n bði IGI Global; 4 b¡o c¡o trong k y‚u cıa hºi
nghà quŁc t‚ câ ph£n bi»n, ÷æc xu§t b£n bði IEEE v Springer; 2 b¡o c¡o trong
k y‚u cıa hºi th£o quŁc gia câ ph£n bi»n v 1 b i b¡o ð t⁄p ch‰ trong n÷îc câ
ph£n bi»n.

3


4. B cửc ca lun Ăn
Ngo i phn m u v kt lun, lun Ăn ữổc t chức th nh 4 chữỡng, vợi b cửc
nhữ sau:
Chữỡng 1. Giợi thiằu tng quan v cĂc vĐn nghiản cứu trong lun Ăn.
Chúng tổi phƠn tch, Ănh giĂ cĂc cổng trnh nghiản cứu liản quan; nảu
ra mt s vĐn cặn tỗn ti m lun Ăn s tp trung giÊi quyt; xĂc nh ni
dung nghiản cứu ca lun Ăn.
Chữỡng 2. Trnh b y ni dung, kt quÊ nghiản cứu v xƠy dỹng ng liằu
song ng cho dch mĂy thng kả.
Chữỡng 3. Trnh b y ni dung, kt quÊ nghiản cứu v mt s cÊi tin mổ
hnh IBM giõng h ng t cho dch mĂy thng kả.
Chữỡng 4. Trnh b y ni dung, kt quÊ nghiản cứu v xĂc nh cửm t song
ng cho dch mĂy thng kả.

4


Chữỡng 1
Tng quan
Chữỡng n y trnh b y tng quan v cĂc vĐn nghiản cứu trong lun Ăn, bao gỗm:
khai phĂ tri thức song ng, sỡ lữổc v dch mĂy (Machine Translation - MT)

v dch mĂy thng kả (Statistical Machine Translation - SMT). Tip n, chúng
tổi phƠn tch, Ănh giĂ cĂc cổng trnh nghiản cứu liản quan. Cui chữỡng,
chúng tổi nảu ra mt s vĐn cặn tỗn ti m lun Ăn s tp trung giÊi quyt v xĂc
nh ni dung nghiản cứu ca lun Ăn.

1.1

Khai phĂ tri thức song ng

Nhiằm vử ca khai phĂ tri thức song ng (mining parallel knowledge) l tỹ ng tm
ra cĂc th nh phn cõ ng nghắa tữỡng ứng trong cĂc vôn bÊn hai ngổn ng
khĂc nhau. Tri thức song ng gỗm nhiu kha cnh: song ng v t, song ng v
cửm t, song ng v cĐu trúc, vv. Viằc khai phĂ tri thức song ng l quĂ trnh
chu'n b v khai phĂ d liằu cho mt s ứng dửng quan trồng trong lắnh vỹc xò lỵ
ngổn ng tỹ nhiản (Natural Language Processing - NLP), trong õ cõ SMT. Trong
lun Ăn n y, chúng tổi giợi hn viằc khai phĂ tri thức song ng cho b i toĂn SMT.
Sau Ơy, chúng tổi s trnh b y tng quan v xƠy dỹng ng liằu song ng,
giõng h ng vôn bÊn v xĂc nh cửm t song ng.

5


BÊng 1.1: V dử v mt vôn bÊn song ng Anh - Viằt.

Vôn bÊn ting Anh
In the early summer of 2004, I got
a phone call from Steve Jobs. He
had been scattershot friendly to me
over the years, with occasional bursts
of intensity, especially when he was
launching a new product that he
wanted on the cover of Time or
featured on CNN, places where Id
worked.
But now that I was no longer at either of those places, I hadnt heard
from him much. We talked a bit
about the Aspen Institute, which I
had recently joined, and I invited him
to speak at our summer campus in
Colorado. Hed be happy to come,
he said, but not to be onstage. He
wanted instead to take a walk so that
we could talk.
I had known him since 1984, when
he came to Manhattan to have lunch
with Times editors and extol his new
Macintosh. He was petulant even
then, attacking a Time correspondent for having wounded him with a
story that was too revealing.

1.1.1

Vôn bÊn ting Viằt
u mũa h nôm 2004, tổi nhn ữổc mt
cuc gồi t Steve Jobs. Jobs ch liản lc
vợi tổi khi cõ viằc cn trong nhiu nôm
qua, v cõ lúc tổi b ổng khng b iằn
thoi, c biằt l khi chu'n b ra mt mt
sÊn ph'm mợi v mun nõ nm ngay trản
trang ba ca tp ch Time hoc trnh
chiu trản CNN, nỡi tổi l m viằc.
Những giớ tổi khổng chflng cặn l m cÊ
hai nỡi õ na v cụng khổng nghe tin v
ổng nhiu. Chúng tổi  trao i qua v
hồc viằn Aspen, nỡi tổi mợi v o l m lúc
õ, v tổi  mới ổng n phĂt biu ti
tri h ca chúng tổi Colorado, ổng vui
vã nhn lới n tham dỹ những s khổng
lản phĂt biu, thay v o õ chúng tổi s
nõi chuyằn trong khi i do.
Tổi quen ổng t nôm 1984, khi ổng n
Manhattan ôn trữa cũng vợi nhng
biản tp viản ca tp ch Time v nhƠn
tiằn giợi thiằu luổn chic mĂy Macintosh
(Mac) mợi ca mnh. Thm ch lúc õ
ổng  ni nõng, v tĐn cổng mt phõng
viản ca tp ch Time v  l m ổng tn
thữỡng bng mt cƠu chuyằn quĂ l.

XƠy dỹng ng liằu song ng
1

Ng liằu song ng (parallel corpus hoc parallel corpora ) l tp hổp cĂc vôn bÊn
song ng, BÊng 1.1 trnh b y v dử v mt vôn bÊn song ng Anh - Viằt. Theo

Westerhout [89], trữớng hổp ỡn giÊn nhĐt ng liằu ch gỗm hai ngổn ng, v dử:
ng liằu Compara [34]. Mt s ng liằu song ng gỗm nhiu ngổn ng, v dử: ng

liằu Europarl [59] bao gỗm cĂc phiản bÊn ca 11 ngổn ng chƠu
mt

u (trong õ

ngổn ng l ting Anh) nhữ mổ tÊ trong BÊng 1.2.
Ng liằu song ng tỗn ti theo mt s nh dng khĂc nhau. Nõ cõ th l vôn
bÊn song ng dng thổ hoc  ữổc giõng h ng (alignment). Vôn bÊn song ng

cõ th ữổc giõng h ng mức on, mức cƠu, mức cửm t hoc mức t [15]. Viằc
1

Trong ting Anh, corpora l hnh thức s nhiu ca corpus.

6


BÊng 1.2: Ng liằu Europarl: gỗm 10 cp ngổn ng trong õ mt ngổn ng
l ting Anh. Kỵ hiằu L1 l ngổn ng nguỗn, L2 l ngổn ng ch.

Ng liằu (L1-L2)
an Mch - Anh
ức - Anh
Hy Lp - Anh
TƠy Ban Nha - Anh
Phn Lan - Anh
PhĂp - Anh
ị - Anh
H Lan - Anh
Bỗ o Nha - Anh
Thửy in - Anh

S cƠu S t trong L1
1.684.664
43.692.760
1.581.107
41.587.670
960.356
1.689.850
48.860.242
1.646.143
32.355.142
1.723.705
51.708.806
1.635.140
46.380.851
1.715.710
47.477.378
1.681.991
47.621.552
1.570.411
38.537.243

S t trong L2
46.282.519
43.848.958
27.468.389
46.843.295
45.136.552
47.915.991
47.236.441
47.166.762
47.000.805
42.810.628

giõng h ng cĂc vôn bÊn song ng rĐt hu ch cho cĂc ứng dửng khĂc nhau trong
NLP. CĂc hằ thng SMT [10] sò dửng cƠu song ng l m u v o cho mổ- un giõng

h ng t thỹc hiằn tnh toĂn xĂc suĐt dch t. CĂc hằ thng truy vĐn thổng tin
liản ng [25, 90, 118] sò dửng vôn bÊn song ng xĂc nh thổng tin tữỡng
ứng trong cÊ hai giai on họi v Ăp. Ngo i ra, viằc rút trch cĂc th nh phn ng
nghắa tữỡng ữỡng ca cĂc vôn bÊn song ng nhữ t, cửm t v cƠu rĐt hu ch
cho viằc xƠy dỹng t in song ng [65, 78]. Trong lun Ăn n y, chúng tổi giợi hn
viằc xƠy dỹng ng liằu song ng cho SMT.
Ng y nay, cũng vợi sỹ phĂt trin ca Internet, Web l nguỗn cỡ s d liằu khng
lỗ chứa cĂc t i liằu a ngổn ng (multi-language), nguỗn d liằu n y ữổc sò dửng
cho cĂc ứng dửng xò lỵ vôn bÊn song ng. V lỵ do n y, nhiu nghiản cứu tp
trung v o viằc rút trch d liằu song ng tỹ ng t Web. V cỡ bÊn, chúng tổi cõ
th phƠn loi cĂc nghiản cứu n y v o ba nhõm: (i) dỹa trản ni dung (content

- based) [16, 24, 76], (ii) dỹa trản cĐu trúc (structure - based) [17, 97, 100] v
(iii) kt hổp (i) vợi (ii) [101, 128]. Hnh 1.1 trnh b y sỡ ỗ tng quan v rút tr
ch ng liằu song ng t Web.
CĂch tip cn dỹa trản ni dung thữớng dũng t in song ng o tữỡng tỹ v ni
dung ca hai vôn bÊn. Khi t in song ng cõ sfin, t i liằu ngổn ng nguỗn ữổc
dch theo tng t (word by word) ra ngổn ng ch. CĂc t i liằu dch
n y sau õ ữổc sò dửng tm t i liằu song ng phũ hổp nhĐt bng cĂch sò dửng
cĂc o nhữ Cosine, Jaccard, Dice, vv [55]. Tuy nhiản, sò dửng t in song ng cõ
th phÊi i mt vợi khõ khôn v mt t thữớng cõ nhiu bÊn dch ca nõ.
7


Hnh 1.1: Sỡ ỗ tng quan v rút trch ng liằu song ng t Web.

khc phửc hn ch n y, chúng tổi sò dửng mt hằ thng SMT cõ th tn dửng
nhng lổi th ca phữỡng phĂp dch thng kả trong viằc giÊi quyt cĂc vĐn v
nhp nhng t vỹng.
CĂch tip cn dỹa trản cĐu trúc so khợp cĐu trúc HTML (HyperText Markup
Language) ca trang web. CĂch tip cn n y sò dửng giÊ thuyt cĂc trang web
song ng ữổc trnh b y vợi cĐu trúc tữỡng tỹ nhau. Hằ thng STRAND ca
Resnik [101] l i diằn tiảu biu cho cĂch tip cn n y. tữỡng tỹ ca cĂc trang web
ữổc tnh dỹa v o cĐu trúc HTML ca chúng. Lữu ỵ rng, cĂc phữỡng phĂp dỹa
trản cĂch tip cn n y khổng ặi họi tri thức v ngổn ng v khĂ hiằu quÊ trong
viằc loi ra cĂc cp t i liằu khổng phÊi song ng. Tuy nhiản, nõ cõ hn ch l yảu
cu hai trang web song ng phÊi cõ cũng mt cĂch trnh b y. Theo quan sĂt
ca chúng tổi, nhiu trang web sò dửng cũng mt mÔu thit k web, v th cĐu
trúc ca cĂc trang tữỡng tỹ những ni dung ca chúng li khĂc nhau. Do õ, phữỡng
phĂp tip cn dỹa trản cĐu trúc HTML khổng ữổc Ăp dửng trong mt s trữớng
hổp. chúng tổi  kt hổp cĂc c trững dỹa trản ni dung vợi cĂc c trững dỹa
trản cĐu trúc ca trang web rút trch cĂc vôn bÊn song ng. tông chnh
xĂc trong viằc rút trch cĂc vôn bÊn song ng t Web, chúng tổi kt hổp cÊ c
2

trững v cĐu trúc v c trững v ni dung .
2

Chi tit chúng tổi trnh b y trong Chữỡng 2, phn 2.1

8


Hiằn ti, cõ t nghiản cứu v vĐn n y liản quan n cp ngổn ng Anh Viằt. Hai tĂc giÊ ng BĂc Vôn v Hỗ BÊo Quc [24] xƠy dỹng ng liằu song ng
Anh - Viằt dỹa trản viằc so khợp ni dung. Trữợc ht, cĂc cp trang web ứng viản
ữổc xĂc nh bng cĂch sò dửng cĂc c trững v d i cƠu v ng y to trang web.
Sau õ, cĂc tĂc giÊ o tữỡng tỹ v ni dung sò dửng t in song ng Anh - Viằt
quyt nh hai trang web cõ phÊi l song ng hay khổng. QuĂ trnh n y ữổc
thỹc hiằn dỹa trản mt s ngữùng ca o n y. Chú ỵ rng, phữỡng phĂp trong
[24] ch tm kim cĂc trang web song ng cõ chĐt lữổng dch tt v cĂc trang
song ng n y cõ cũng kiu trnh b y. Hỡn na, sò dửng t in dch theo tng
t cõ th gƠy ra sỹ nhp nhng. V th, cĂch tip cn n y khõ m rng khi d
liằu tông lản hoc cĂc trang song ng cõ kiu trnh b y khĂc nhau.
Nhữ chúng tổi  cp trản, Web l nguỗn cỡ s d liằu khng lỗ chứa cĂc
t i liằu a ngổn ng. Tuy nhiản, cõ ữổc ng liằu song ng vợi chnh xĂc
cao vÔn ang l mt thĂch thức, bi v cĂc vôn bÊn ữổc trnh b y trản Internet
thữớng b "nhiu". Trong khi õ, nhiu sĂch iằn tò song ng (sfin cõ) chứa mt
s lữổng lợn cĂc vôn bÊn song ng ữổc dch c'n thn. Ơy l nguỗn d liằu rĐt
tim nông b sung ng liằu song ng cho SMT, c biằt i vợi cĂc cp ngổn
ng cặn hn ch v ng liằu song ng nhữ Anh - Viằt, Nht - Viằt, vv. Hiằn ti,
cĂc ng liằu song ng cõ sfin khổng nhng cõ kch thữợc tữỡng i nhọ m
cặn khổng cƠn bng ngay cÊ i vợi cĂc ngổn ng chnh [24], iu n y Ênh
hững n chĐt lữổng ca cĂc hằ thng SMT.

1.1.2

Giõng h ng vôn bÊn

Trong xò lỵ vôn bÊn song ng, giõng h ng l b i toĂn quan trồng nhĐt, tức l phĂt
hiằn sỹ tữỡng ứng gia cĂc ỡn v trong hai vôn bÊn cĂc ngổn ng khĂc nhau
[4]. Giõng h ng cõ th ữổc thỹc hiằn mức on, cƠu, cửm t hoc t. Trong lun
Ăn n y, chúng tổi giợi hn ba mức giõng h ng, cử th l : giõng h ng on v giõng
h ng cƠu xƠy dỹng ng liằu v giõng h ng t cho SMT.

1.1.2.1

Giõng h ng

on/cƠu

V cỡ bÊn, giõng h ng on v giõng h ng cƠu cõ cĂch tip cn tữỡng tỹ nhau. tông
chnh xĂc, chúng ta cõ th giõng h ng on trữợc rỗi sau õ giõng h ng cƠu.
Viằc giõng h ng on c biằt quan trồng khi cĂc vôn bÊn cn giõng h ng cõ
9


kch thữợc lợn, v dử nhữ sĂch iằn tò. Nhiằm vử ca giõng h ng on/cƠu l liản
kt cĂc on/cƠu trong mt vôn bÊn ngổn ng n y (ngổn ng nguỗn) vợi cĂc
on/cƠu l bÊn dch tữỡng ứng ca nõ trong mt vôn bÊn ngổn ng khĂc
(ngổn ng ch) [21]. CĂc phữỡng phĂp khĂc nhau  ữổc xuĐt cho viằc xĂc
nh giõng h ng on/cƠu gia cĂc vôn bÊn song ng [41, 98, 114]. Theo quan
im ca chúng tổi, nhng phữỡng phĂp n y cõ th ữổc chia th nh hai cĂch tip
cn chnh: (i) dỹa trản thng kả (statistics - based) [11, 35] v (ii) dỹa trản tri
thức ngổn ng (linguistic knowledge - based) [18, 80].
CĂch tip cn thứ nhĐt (i) khai thĂc cĂc mi tữỡng quan v d i ca cĂc khi
vôn bÊn ( on hoc cƠu) trong cĂc ngổn ng khĂc nhau v c gng thit lp sỹ
tữỡng ứng gia cĂc khi vôn bÊn n y theo kch thữợc [37]. Ơy, kch thữợc
cõ th ữổc o bi s t hoc s kỵ tỹ. Gale v cng sỹ [35] Â sò dửng mổ hnh
thng kả ỡn giÊn theo d i vợi kch thữợc l s t giõng h ng cƠu cho ng liằu
song ng. Trong mổ hnh n y, mỉi cp cƠu ữổc gĂn mt xĂc suĐt. XĂc suĐt
n y ữổc sò dửng tm khÊ nông liản kt cỹc i ca cĂc cƠu (dỹa trản k thut
quy hoch ng). Tuy nhiản, cĂc vôn bÊn thữớng ữổc nh dng li trong quĂ trnh
dch thut. V vy, nõ khổng ch chứa cĂc liản kt 1-1, tức l mt on/cƠu trong
vôn bÊn ngổn ng nguỗn cõ th liản kt vợi hai hoc nhiu on/cƠu trong vôn
bÊn ngổn ng ch v ngữổc li. Trong trữớng hổp n y, phữỡng phĂp thng
kả dỹa v o cĐu trúc nhữ t hoc kỵ tỹ cõ th khổng thỹc hiằn tt.
CĂch tip cn thứ hai (ii) sò dửng d liằu ngổn ng (thữớng l t in) thit lp
sỹ tữỡng ứng gia cĂc khi vôn bÊn. Li v cng sỹ [68] xuĐt thut toĂn FastChampollion, trong õ sò dửng t in song ng cho viằc giõng h ng cƠu. Vợi
thut toĂn n y, chnh xĂc (precision) v bao ph (recall) phử thuc v o kch
thữợc ca t in ữổc sò dửng. Ngo i ra, l m th n o xƠy dỹng t in song ng tỹ
ng l mt vĐn quan trồng i vợi viằc Ăp dửng thut toĂn Fast-Champollion trản
3

cĂc cp ngổn ng khổng cõ sfin t in .

1.1.2.2

Giõng h ng t

Giõng h ng t (word alignment) l mt nhiằm vử xĂc nh sỹ tữỡng ứng gia cĂc t
trong mt vôn bÊn song ng [72]. Ơy l bữợc u tiản trong hu ht cĂc cĂch tip
cn hiằn ti ca SMT. Ayan [4] Â ch ra rng, chĐt lữổng ca giõng h ng t õng
vai trặ rĐt quan trồng cho sỹ th nh cổng ca mt hằ thng SMT. CĂc
3

Ơy, chúng tổi mun nõi n t

in song ng iằn tò.

10


phữỡng phĂp khĂc nhau  ữổc xuĐt xĂc nh giõng h ng t trong cĂc vôn bÊn
song ng. Nõi chung, cĂc phữỡng phĂp giõng h ng t cõ th ữổc phƠn chia th
nh hai loi: (i) cĂch tip cn dỹa trản mổ hnh phƠn biằt (discriminative model)
v (ii) cĂch tip cn dỹa trản mổ hnh sinh (generative model).
CĂch tip cn thứ nhĐt (i) dỹa v o quĂ trnh huĐn luyằn trản mt tp cĂc c
trững, in hnh l cĂc nghiản cứu ca Moore [83] v Liu [72]. CĂch tip cn n y cõ
ữu im l linh hot trong viằc kt hổp cĂc c trững mợi [77]. Tuy nhiản, hn ch ca
cĂch tip cn n y l d liằu huĐn luyằn cn phÊi ữổc gĂn nhÂn; cổng viằc n y
ặi họi nhiu thới gian, chi ph thỹc hiằn v nõ khổng sfin cõ vợi hu ht cĂc
cp ngổn ng [74]. Ngo i ra, rĐt khõ khôn chồn d liằu i diằn cho viằc huĐn
luyằn Êm bÊo rng cĂc mổ hnh s hot ng tt trản d liằu khổng quan sĂt
ữổc, c biằt khi d liằu song ng n t nhiu nguỗn thuc nhiu lắnh vỹc khĂc
nhau [72].
CĂch tip cn thứ hai (ii) thữớng sò dửng mổ hnh sinh, trong õ cĂc mổ hnh
IBM ca Brown v cng sỹ [12] ữổc sò dửng rng rÂi nhĐt. Thut toĂn cỹc i ký vồng
(Expectation Maximization - EM) [27] ữổc sò dửng ữợc lữổng xĂc suĐt ca mổ
hnh giõng h ng trản ng liằu song ng. CĂc mổ hnh n y v cỡ bÊn

l c lp vợi ngổn ng v cĂc tham s ca nõ ữổc ữợc lữổng t ng liằu vợi ti
thiu viằc tin xò lỵ [111]. Tuy nhiản, chĐt lữổng ca giõng h ng thữớng khĂ thĐp
i vợi cĂc cp ngổn ng cõ nhiu khĂc biằt v cĐu trúc cú phĂp nhữ Anh - Viằt,
Anh - Trung, vv. V vy, sò dửng thảm cĂc nguỗn tri thức bản ngo i nhữ thổng
tin v t vỹng, thổng tin v cú phĂp l tht sỹ cn thit cÊi thiằn chĐt lữổng ca
giõng h ng.
Trong cĂc nghiản cứu trữợc Ơy, cĂc mổ hnh IBM ữổc cÊi tin vợi nhiu
phữỡng phĂp khĂc nhau. Varea v cng sỹ [115] sò dửng mổ hnh Maximum
Entropy (ME) phử thuc ng cÊnh chứa nhiu hỡn cĂc phử thuc. Tức l , mt
ng cÊnh lợn hỡn ữổc sò dửng trong mổ hnh dch thay v ch sò dửng
xĂc suĐt dch t. Mt cÊi tin khĂc i vợi cĂc mổ hnh IBM dỹa trản mổ hnh t
vỹng i xứng ữổc xuĐt bi Zens v cng sỹ [125]. Hồ Ăp dửng phữỡng phĂp ni
suy tuyn tnh (linear interpolation) tnh xĂc suĐt theo hai hữợng (hữợng
dch chu'n t ngổn ng nguỗn sang ngổn ng ch v hữợng dch ngữổc li).
Ngo i ra, cĂc tĂc giÊ Â mổ tÊ quĂ trnh l m trỡn (smoothing) t vỹng bng cĂch
sò dửng hnh thức t gc (word base form). c biằt cho cĂc ngổn ng bin
cĂch cao (inflected language) nhữ ting ức, iu n y dÔn n nhng cÊi tin Ăng k
v mt thng kả. Moore [82] Â khÊo sĂt ba phữỡng phĂp ỡn giÊn cÊi tin mổ
11


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×