Tải bản đầy đủ

luận văn thạc sĩ cải tiến chất lượng dịch máy thống kê anh – việt dựa vào đảo trật tự từ theo cây cú pháp phụ thuộc

I H¯C QU¨C GIA H N¸I

TR×˝NG

I H¯C C˘NG NGH

TR N H˙NG VI T

C ITI NCH TL×ÑNGDÀCHM Y
TH¨NG K ANH-VI T DÜA V O

O TR T TÜ TØ

THEO C Y CÓ PH P PHÖ THU¸C

LU N NTI NS KHOAH¯CM YTNH

H Nºi - 2019


I HC QUăC GIA H NáI


TRìNG

I HC CNG NGH

TR N HNG VI T

C ITI NCH TLìẹNGDCHM Y THăNG K ANH-VI T DĩA V O
O TR T Tĩ Tỉ THEO C Y Cể PH P PHệ THUáC

Chuyản ng nh: Khoa hồc mĂy tnh
MÂ s: 9 48 01 01 01

LU N NTI NS KHOAHCM YTNH
NGìI HìNG D N KHOA HC:
1. TS. Nguyn Vôn Vinh
2. PGS.TS. Nguyn Lả Minh

H Ni - 2019


Lới cam

oan

Tổi xin cam oan lun Ăn n y l kt quÊ nghiản cứu ca tổi, ữổc thỹc hiằn
dữợi sỹ hữợng dÔn ca TS. Nguyn Vôn Vinh v PGS.TS. Nguyn Lả Minh.
CĂc ni dung trch dÔn t cĂc nghiản cứu ca cĂc tĂc giÊ khĂc trnh b y
trong lun Ăn n y ữổc ghi rê nguỗn trong phn t i liằu tham khÊo.

Trn Hỗng Viằt


TMT T
Êo trt tỹ t l mt trong cĂc vĐn quan trồng ca dch mĂy liản quan n
viằc l m th n o sinh ra thứ tỹ cĂc t (cửm t) chnh xĂc trong ngổn ng
ch. Trong hằ dch mĂy thng kả dỹa trản cửm t (Phrase-Based
Statistical Machine Translation - PBSMT)(Koehn v cng sỹ, 2003; Och v
Ney, 2004) [59,89], viằc Êo cửm t vÔn cặn ỡn giÊn v chĐt lữổng chữa cao.
Bản cnh õ, do cĂc ngổn ng cõ nhiu c im khĂc nhau ( c biằt sỹ khĂc


nhau v thứ tỹ t trong cĂc ngổn ng) dÔn tợi khổng th mổ hnh hõa ch
nh xĂc trong quĂ trnh dch [89]. Nhiu hữợng nghiản cứu giÊi quyt vĐn
sp xp li trt tỹ t bản trong hằ thng dch mĂy thng kả dỹa trản cửm t.
Mt s nghiản cứu theo hữợng tip cn tin xò lỵ cho vĐn sp xp li trt tỹ t
cho kt quÊ tt, Êm bÊo cƠn bng gia chĐt lữổng dch v thới gian giÊi mÂ
qua thỹc hiằn tin xò lỵ quĂ trnh sp xp li.
Vợi ữu im ca cĐu trúc cƠy cú phĂp phử thuc: kt ni tĐt cÊ cĂc t trong
mt cƠu vợi khÊ nông nm bt phử thuc gia cĂc t xa nhau vợi cĂc cĐu trúc
phử thuc a phữỡng cụng nhữ sỹ tữỡng ứng cht ch vợi ng nghắa, lun
Ăn tp trung nghiản cứu t i: "CÊi tin chĐt lữổng dch mĂy thng kả AnhViằt dỹa v o Êo trt tỹ t theo cƠy cú phĂp phử thuc".
Lun Ăn tp trung giÊi quyt cĂc tỗn ti  nảu thổng qua b i toĂn: sp xp li
cĂc t ca cƠu cn dch trong ngổn ng nguỗn theo thứ tỹ gn nhĐt cõ th
vợi cƠu ữổc dch trong ngổn ng ch. CĂc xuĐt n y thỹc hiằn nhữ bữợc
tin xò lỵ sò dửng cƠy cú phĂp phử thuc i vợi ngổn ng nguỗn ữa v o hằ
dch thng kả dỹa trản cửm t nhm cÊi tin chĐt lữổng dch mĂy. Kt quÊ
dch t ting Anh sang ting Viằt vợi b d liằu IWSLT 2015 trản hằ thng ca
chúng tổi tt hỡn hai hằ thng dch ph bin nhĐt hiằn nay l NMT
v PBSMT.
õng gõp ca lun Ăn cử th nhữ sau:
2


Thứ nhĐt, lun Ăn xuĐt cĂc lut Êo trt tỹ t th cổng t viằc lỹa chồn
cĂc c trững v ngổn ng trản cƠy cú phĂp phử thuc. T õ Ăp
dửng phữỡng phĂp Êo trt tỹ t nƠng cao chĐt lữổng hằ thng dch
mĂy Anh-Viằt.
Thứ hai, lun Ăn xuĐt phữỡng phĂp xƠy dỹng lut Êo trt tỹ t tỹ ng.
Chúng tổi coi viằc xƠy dỹng lut Êo trt tỹ t nhữ vĐn hồc
mĂy trong viằc dỹ oĂn chnh xĂc v tr cĂc th nh phn ca lut oĂn
thứ tỹ úng cĂc cƠu trong ngổn ng nguỗn tữỡng ứng vợi thứ tỹ cƠu
ngổn ng ch. Vợi hai xuĐt gỗm:
Khai thĂc cĂc c trững v ngổn ng v xuĐt phữỡng phĂp sò dửng
cĂc b phƠn lợp giÊi quyt b i toĂn Êo trt tỹ t. Cử th l xĂc nh thứ
tỹ úng ca cĂc phƠn lợp quan hằ gia cửm cha-con trản cƠy phƠn
tch phử thuc biu din cƠu u v o.
Bng viằc khai thĂc quan hằ cĂc cp t trản cƠy phƠn tch phử thuc
v ữu im ca viằc biu din dữợi dng word embedding, lun Ăn

xuĐt phữỡng phĂp sò dửng mng nỡ-ron giÊi quyt b i toĂn Êo trt
tỹ t cƠu nguỗn theo thứ tỹ t cƠu ch trữợc khi ữa v o hằ dch
nƠng cao chĐt lữổng dch.
Thứ ba, lun Ăn ữa ra phƠn tch Ênh hững ca cĂc lỉi phƠn tch cú
phĂp n chĐt lữổng dch qua viằc Ăp dửng cĂc lut Êo trt tỹ t i
vợi cƠu nguỗn. CĂc phƠn tch n y mang li lổi ch cho viằc cÊi tin
cĂc phữỡng phĂp Êo trt tỹ t dỹa trản cú phĂp v phĂt trin viằc phƠn t
ch cú phĂp phử thuc, c biằt vợi ngổn ng ting Viằt.
T khõa: dch mĂy, dch mĂy thng kả, tin xò lỵ cú phĂp, cú phĂp phử
thuc, dch mĂy thng kả dỹa trản cửm t.

3


Möc löc
Líi c£m ìn
Danh möc c¡c chœ vi‚t t›t

8
9

Danh s¡ch h…nh v‡

10

Danh s¡ch b£ng

13

Líi mð ƒu

16

1 TŒng quan c¡c v§n • li¶n quan lu“n ¡n

22

1.1 TŒng quan v• dàch m¡y . . . . . . . . . . . . . . . . . . . . . . . .

22

1.2 Dàch m¡y thŁng k¶ . . . . . . . . . . . . . . . . . . . . . . . . . .

25

1.2.1 Cì sð to¡n håc . . . . . . . . . . . . . . . . . . . . . . . .

25

1.2.2 C§u tróc h» thŁng dàch m¡y . . . . . . . . . . . . . . . . .

27

1.3 Dàch m¡y m⁄ng nì-ron . . . . . . . . . . . . . . . . . . . . . . . .

29

1.4 Ph¥n t‰ch có ph¡p phö thuºc . . . . . . . . . . . . . . . . . . . .

31

1.5 V§n • £o tr“t tü tł trong dàch m¡y . . . . . . . . . . . . . . .

35

1.5.1 Sü kh¡c nhau v• thø tü tł giœa c¡c ngæn ngœ . . . . . . .

35

1.5.2 £o tr“t tü tł trong dàch m¡y . . . . . . . . . . . . . . .

36

1.6 B i to¡n £o tr“t tü tł trong mæ h…nh dàch m¡y düa tr¶n cöm tł

37

1.6.1 Mæ h…nh dàch m¡y düa tr¶n cöm tł . . . . . . . . . . . .

37

1.6.2 B i to¡n £o tr“t tł tü düa tr¶n ti•n xß lþ . . . . . . . .

39

4


1.7 C¡c nghi¶n cøu li¶n quan . . . . . . . . . . . . . . . . . . . . . . .
1.7.1 Sß döng c¡c lu“t thı cæng cho v§n • ti•n xß lþ . . . . .
1.7.2 Sß döng c¡c lu“t tü ºng cho v§n • ti•n xß lþ . . . . . .
1.8 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . .

43
44
45
46

2 Ph÷ìng ph¡p düa v o lu“t thı cæng cho b i to¡n £o tr“t tü
tł trong dàch m¡y thŁng k¶

48

2.1 Ph÷ìng ph¡p ti•n xß lþ cho b i to¡n £o tr“t tü tł trong dàch
m¡y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

48

2.2 C¡c nghi¶n cøu li¶n quan . . . . . . . . . . . . . . . . . . . . . . .

50

2.3 Ti•n xß lþ có ph¡p phö thuºc cho dàch m¡y thŁng k¶ . . . . . .

52

2.3.1 Ph¥n t‰ch hi»n t÷æng ngæn ngœ v v§n • s›p x‚p l⁄i . . 52
2.3.2 Lu“t chuy”n Œi tr“t tü tł . . . . . . . . . . . . . . . . . .

55

2.3.3 T“p c¡c lu“t £o tr“t tü tł thı cæng . . . . . . . . . . . .

57

2.3.4 T“p dœ li»u v c i °t thüc nghi»m . . . . . . . . . . . . .

59

2.3.5 K‚t qu£ thüc nghi»m . . . . . . . . . . . . . . . . . . . . .

62

2.4 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . .

63

3 Ph÷ìng ph¡p sß döng lu“t tr‰ch xu§t tü ºng b‹ng c¡c bº
ph¥n lîp quan h»

65

3.1 Ti•n xß lþ düa tr¶n ph¥n lîp cho dàch m¡y düa tr¶n cöm tł . .

65

3.1.1 V§n • ti•n xß lþ düa tr¶n ph¥n lîp . . . . . . . . . . . .

66

3.1.2 °c tr÷ng . . . . . . . . . . . . . . . . . . . . . . . . . . .

69

3.1.3 Mæ h…nh ph¥n lîp . . . . . . . . . . . . . . . . . . . . . . .

70

3.2 Thüc nghi»m . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

73

3.2.1 T“p dœ li»u v c§u h…nh thüc nghi»m . . . . . . . . . . . .

73

3.2.2 K‚t qu£ thüc nghi»m . . . . . . . . . . . . . . . . . . . . .

74

3.3 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

76


4 Ph÷ìng ph¡p sß döng m⁄ng nì-ron k‚t hæp c¡c thæng tin ngœ
c£nh
4.1 Thæng tin ngœ c£nh tł word embedding . . . . . . . . . . . . . .

79
79

4.2 Mæ h…nh £o düa tr¶n m⁄ng nì-ron sß döng c¥y có ph¡p phö
thuºc cho dàch m¡y thŁng k¶ . . . . . . . . . . . . . . . . . . . . .

81

4.2.1 °c tr÷ng cho ph¥n lîp v hu§n luy»n mæ h…nh . . . . .

82

4.2.2 Khung l m vi»c cho £o tr“t tü tł . . . . . . . . . . . . .

87

4.3 Thüc nghi»m v• ph÷ìng ph¡p sß döng m⁄ng nì-ron k‚t hæp

5

thæng tin ngœ c£nh . . . . . . . . . . . . . . . . . . . . . . . . . .

90

4.4 Ph¥n t‰ch v th£o lu“n . . . . . . . . . . . . . . . . . . . . . . . .

93

4.5 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . .

94

nh h÷ðng cıa c¥y có ph¡p phö thuºc

‚n ch§t l÷æng dàch

m¡y Anh-Vi»t
5.1 Giîi thi»u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

96
96

5.2 Ph¥n t‰ch có ph¡p phö thuºc . . . . . . . . . . . . . . . . . . . .

97

5.2.1 B i to¡n ph¥n t‰ch có ph¡p phö thuºc . . . . . . . . . . .

98

5.2.2 ành d⁄ng dœ li»u theo chu'n CoNLL . . . . . . . . . . .

98

5.2.3 Sß döng t“p nh¢n cho có ph¡p phö thuºc . . . . . . . . .

100

5.3 nh h÷ðng cıa lØi ph¥n t‰ch có ph¡p phö thuºc tîi ch§t l÷æng
dàch m¡y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

102

5.3.1 Ph÷ìng ph¡p ph¥n t‰ch lØi . . . . . . . . . . . . . . . . . .

102

5.3.2 ¡nh gi¡ . . . . . . . . . . . . . . . . . . . . . . . . . . . .

104

5.3.3 Ph¥n t‰ch nguy¶n nh¥n g¥y lØi £o tr“t tü tł . . . . . . .

108

5.4 ¡nh gi¡ k‚t qu£ dàch v º ch‰nh x¡c c¥y có ph¡p phö thuºc .

110

5.5 K‚t lu“n ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . .

112

K‚t lu“n

114

6


Danh möc cæng tr…nh khoa håc cıa t¡c gi£ li¶n quan ‚n lu“n ¡n117
T i li»u tham kh£o

119

7


LIC MèN
Tổi xin gòi lới cÊm ỡn sƠu sc n TS. Nguyn Vôn Vinh v PGS.TS. Nguyn
Lả Minh, hai Thy  trỹc tip hữợng dÔn, ch bÊo tn tnh, luổn hỉ trổ v to
nhng iu kiằn tt nhĐt cho tổi trong quĂ trnh hồc tp v nghiản cứu.

Tổi xin gòi lới cÊm ỡn n cĂc Thy/Cổ giĂo Khoa Cổng nghằ thổng tin,
Trữớng i hồc Cổng nghằ, i hồc Quc gia H Ni, c biằt l cĂc Thy/Cổ giĂo
B mổn Khoa hồc mĂy tnh, nhng ngữới  trỹc tip giÊng dy v giúp ù tổi
trong quĂ trnh hồc tp v nghiản cứu trữớng.
Tổi xin gòi cÊm ỡn n GS.TS. Nguyn Thanh Thy, PGS. TS. Lả S Vinh,
PGS.TS. Nguyn Phữỡng ThĂi, PGS.TS. Phan XuƠn Hiu, TS. Trn Quc
Long, TS. Bũi Ngồc Thông (Trữớng i hồc Cổng nghằ, i hồc Quc gia H
Ni), PGS.TS. Lả Thanh Hữỡng (Trữớng i hồc BĂch khoa H Ni), TS. Nguyn
Th Minh Huyn (Trữớng i hồc Khoa hồc Tỹ nhiản, i hồc Quc gia H Ni),
TS. Ngổ XuƠn BĂch (Hồc viằn Cổng nghằ Bữu chnh Vin thổng), TS.
Nguyn Viằt Anh (Viằn Cổng nghằ thổng tin, Viằn H n lƠm Khoa hồc v
Cổng nghằ Viằt Nam) cĂc Thy/Cổ Â cõ nhng gõp ỵ chnh sòa tổi ho
n thiằn lun Ăn.
Tổi xin gòi lới cÊm ỡn n tĐt cÊ anh, ch, em v bn b ỗng nghiằp B
mổn Khoa hồc mĂy tnh (Khoa Cổng nghằ thổng tin, Trữớng i hồc Cổng
nghằ, i hồc Quc gia H Ni) Â giúp ù tổi trong thới gian l m nghiản cứu sinh.
Cui cũng, tổi xin gòi lới cÊm ỡn n tĐt cÊ cĂc th nh viản trong gia nh Â
luổn ng h, chia sã, ng viản v khch lằ tổi hồc tp, nghiản cứu.

8


Danh mửc cĂc ch vit tt
MT

Machine Translation (Dch mĂy)

NLP

Natural Language Processing (Xò lỵ ngổn ng tỹ nhiản)

POS-tags Part Of Speech tags (NhÂn t loi)
SMT

Statistical Machine Translation (Dch mĂy thng kả)

PBSMT

Phrase-Based Statistical Machine Translation
(Dch mĂy dỹa trản cửm t)

NMT

Neural Machine Translation (Dch mĂy mng nỡ-ron)

BLEU

BiLingual Evaluation Understudy ( Ănh giĂ hiu ng liằu)

SVM

Support Vector Machine (MĂy vc-tỡ hỉ trổ)

ME

Maximum Entropy ( hỉn lon cỹc i)

WEKA

Waikato Environment for Knowledge Analysis
(Mổi trữớng Waikato cho phƠn tch tri thức)

9


Danh sĂch hnh v
1.1 Sỡ ỗ hnh thĂp th hiằn cĂc hằ thng dch mĂy khĂc nhau. . .
1.2 Kin trúc cỡ bÊn ca hằ thng dch mĂy thng kả . . . . . . . .

23
27

1.3 CĂc bữợc xƠy dỹng hằ thng dch mĂy thng kả dỹa trản cửm t 28
1.4 Hằ thng dch mĂy mng nỡ-ron . . . . . . . . . . . . . . . . . .

30

1.5 Biu din ỗ th cƠy phƠn tch phử thuc vợi cĂc nhÂn quan hằ.

33

1.6 Biu din dng cƠy vợi d liằu phử thuc nh dng CoNLL. . .

33

1.7 V dử v mổ hnh dch mĂy dỹa trản cửm t cho dch t ngổn
ng ting PhĂp sang ting Anh. . . . . . . . . . . . . . . . . . . .

37

1.8 Kin trúc ca mổ hnh dch dỹa trản cửm t . . . . . . . . . . .

38

1.9 V dử v viằc chuyn i cĂc giõng h ng t vợi viằc Êo trt tỹ t.

40

1.10 CĂc bữợc thỹc hiằn trong hằ thng Ăp dửng phữỡng phĂp tin
xò lỵ. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

1.11 Kin trúc hằ thng trong lun Ăn. . . . . . . . . . . . . . . . . . .

43

2.1 V dử v tin xò lỵ cho cp ngổn ng Anh-Viằt. . . . . . . . . .

49

2.2 V dử v POS tags v phƠn tch cú phĂp phử thuc cho ting Anh. 50
2.3 V dử v POS tags v phƠn tch cú phĂp phử thuc cho ting Viằt. 51
2.4 V dử v phƠn tch cú phĂp phử thuc cho cƠu ting Anh sò
dửng cổng cử phƠn tch ca Stanford. . . . . . . . . . . . . . . .

51

2.5 Mt s v dử v c trững ngổn ng ting Viằt. . . . . . . . . . .

53

10


2.6 V dử v hiằn tữổng ngổn ng trong cửm danh t vợi amod v
det. Trong v dử n y, danh t computer ữổc Êo vợi tnh t
personal . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

54

2.7 V dử v hiằn tữổng ngổn ng trong cửm tnh t vợi advmod v
det . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

55

2.8 V dử cƠy phƠn tch ting Viằt vợi thổng tin t loi POS tags,
cĂc nhÂn phử thuc v giõng h ng t. . . . . . . . . . . . . . . .

55

2.9 V dử Ăp dửng lut Êo trt tỹ t th cổng trong viằc sp xp
li thứ tỹ t trong cƠu. . . . . . . . . . . . . . . . . . . . . . . . .

57

2.10 Mt phn khÊo sĂt v v tr t loi v cĂc nhÂn trong viằc sp
xp li thứ tỹ t . . . . . . . . . . . . . . . . . . . . . . . . . . . .

58

2.11 Thut toĂn sinh lut Êo trt tỹ t sò dửng Pos-tags v nhÂn
phử thuc. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

60

2.12 CĂc lut th cổng cho viằc Êo trt tỹ t ting Anh sang ting
Viằt sò dửng tin xò lỵ trản cƠy cú phĂp phử thuc. . . . . . . .
3.1 V dử v mổ hnh hồc mĂy dỹa trản phƠn lợp. . . . . . . . . . .

61
66

3.2 Mt v dử v quan hằ gia cĂc cửm trản cƠy phƠn tch phử thuc. 67
3.3 CƠy phƠn tch phử thuc ting Anh. . . . . . . . . . . . . . . . .

68

3.4 Thut toĂn trch xuĐt tỹ ng cĂc lut sò dửng cƠy cú phĂp phử
thuc cĂc cƠu nguỗn v cp giõng h ng t . . . . . . . . . . . . .

72

3.5 Thut toĂn sp xp li cƠu nguỗn sò dửng cĂc lut trch xuĐt
tỹ ng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

72

3.6 Thng kả v quan hằ gia nút cha vợi nút con trản ng liằu song
ng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

76

3.7 Thng kả v quan hằ gia nút cha vợi hai nút con trản ng liằu
song ng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
4.1 Mt v dử v v biu din word embedding . . . . . . . . . . . .

11

77
80


4.2 V dử v mổ hnh phƠn lợp quan hằ. . . . . . . . . . . . . . . . .
4.3 Mổ hnh Êo cho dch mĂy thng kả Anh-Viằt sò dửng mng

82

nỡ-ron vợi cƠy phƠn tch phử thuc . . . . . . . . . . . . . . . . .

83

4.4 CĂc c trững cho quan hằ head-child trong mổ hnh phƠn lợp . 84
4.5 CĂc c trững cho quan hằ sibling trong mổ hnh phƠn lợp . . . 85
4.6 Khung l m viằc cho quĂ trnh tin xò lỵ cƠu nguỗn t d liằu
song ng Anh-Viằt. . . . . . . . . . . . . . . . . . . . . . . . . . .

86

4.7 Thut toĂn xƠy dỹng mổ hnh huĐn luyằn cho mng. . . . . . .

88

4.8 Thut toĂn sp xp li xƠy dỹng Êo trt tỹ t cƠu nguỗn. .

89

4.9 QuĂ trnh sp xp li sau khi Ăp dửng phữỡng phĂp phƠn lợp. .

90

5.1 Mổ hnh b i toĂn tng quĂt v phƠn tch cú phĂp phử thuc . . 98
5.2 So sĂnh tp nhÂn phử thuc gia ting Viằt v ting Anh. . . .

103

5.3 Mổ tÊ phữỡng phĂp phƠn tch lỉi. . . . . . . . . . . . . . . . . . .

104

5.4 Kt quÊ Ănh giĂ dỹa trản o Kendalls tau . . . . . . . . . .

107

5.5 BÊng thng kả chnh xĂc phƠn tch cú phĂp phử thuc ting
Viằt sò dửng cổng cử phƠn tch cú phĂp phử thuc JPTDP. . . 109
5.6 V dử v lỉi t loi khi so sĂnh d liằu thng kả gia cƠy ữổc
sinh ra vợi cƠy ữổc sinh t d liằu chu'n. . . . . . . . . . . . .

110

5.7 V dử v lỉi do xĂc nh sai loi phử thuc nút gc khi so sĂnh
d liằu thng kả gia cƠy ữổc sinh ra vợi cƠy ữổc sinh t d
liằu chu'n. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

110

5.8 nh hững ca cƠy cú phĂp phử thuc n chĐt lữổng hằ dch
trản kho ng liằu song ng Anh-Viằt. . . . . . . . . . . . . . . . .

112

5.9 Thng kả cĂc ngổn ng SVO (ch ng, ng t, tƠn ng) . . . . 134
5.10 Thng kả cĂc ngổn ng vợi t loi Tnh t, Danh t . . . . . . .

135

5.11 Thng kả cĂc ngổn ng vợi cửm t b nghắa, cửm danh t . . . 136
5.12 Thng kả cĂc ngổn ng vợi Danh t, mằnh quan hằ . . . . .

12

136


5.13 Ph†p phi chi‚u trong ngæn ngœ Latinh . . . . . . . . . . . . . . . 137
5.14 Dàch tł ngæn ngœ ti‚ng

øc sang ngæn ngœ ti‚ng Anh . . . . . . 137

5.15 Dàch tł ngæn ngœ ti‚ng Trung sang ngæn ngœ ti‚ng Anh . . . . . 138

5.16 Dàch tł ngæn ngœ ti‚ng H n sang ngæn ngœ ti‚ng Anh . . . . . . 139
5.17 Dàch tł ngæn ngœ ti‚ng

r“p sang ngæn ngœ ti‚ng Anh . . . . . 140

5.18 Mæ t£ c¡c lu“t s›p x‚p l⁄i . . . . . . . . . . . . . . . . . . . . . . 141

13


Danh sĂch bÊng
2.1 PhƠn tch cú phĂp phử thuc cho cƠu ting Viằt biu din dữợi
dng chu'n CoNLL. . . . . . . . . . . . . . . . . . . . . . . . . . .

52

2.2 Thng kả ng liằu song ng Anh-Viằt . . . . . . . . . . . . . . .

62

2.3 Thỹc nghiằm sò dửng cĂc lut th cổng cho kho ng liằu song
ng Anh-Viằt . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.1 V dử v cĂc lut v Êo trt tỹ t trong cƠu nguỗn. . . . . . . .

63
69

3.2 Tp c trững ữổc sò dửng trong d liằu huĐn luyằn t kho
ng liằu song ng Anh Viằt . . . . . . . . . . . . . . . . . . . .

71

3.3 Thng kả s lut tỹ ng trch xuĐt theo phữỡng phĂp sò dửng
b phƠn lợp . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

75

3.4 Kch cù bÊng cửm t . . . . . . . . . . . . . . . . . . . . . . . . .

76

3.5 Ănh giĂ kt quÊ trản hằ thng dch mĂy Anh- Viằt . . . . . . .

78

4.1 Hằ thng thỹc nghiằm trản kho ng liằu song ng Anh-Viằt . .

92

4.2 Ănh giĂ hằ thng cho chiu dch Anh- Viằt . . . . . . . . . . . .

93

5.1 CĂc trữớng d liằu theo nh dng ca CoNLL cho ngổn ng
ting Viằt . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

99

5.2 Biu din theo nh dng chu'n CoNLL cho cƠu u v o ting
Viằt. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

100

5.3 NhÂn cửm t . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

142

5.4 NhÂn mằnh . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

142

14


5.5
5.6

Nh¢n chøc n«ng có ph¡p . . . . . . . . . . . . . . . . . . . . . . . 143
Nhâm c¡c nh¢n

a ngæn ngœ . . . . . . . . . . . . . . . . . . . . . 144

15


M u
1. Tnh cĐp thit ca lun Ăn
Dch mĂy l mt trong nhng vĐn khõ v lƠu ới nhĐt trong tr tuằ nhƠn
to. Â cõ nhiu nỉ lỹc giÊi quyt vĐn n y t nhng giai on u tiản khi sò
dửng mĂy tnh. Dũ dch mĂy cõ lch sò lƠu ới, viằc dch tỹ ng to n b vôn
bÊn vợi chĐt lữổng cao vÔn cặn l thĂch thức. CĂc vĐn dch thut cõ liản
quan n nhiu ngổn ng v cĂc vĐn vôn hõa tr nản khõ khôn.
Dch mĂy dỹa trản cĂch tip cn thng kả v gn Ơy dch mĂy mng nỡ-ron
ang l mt hữợng phĂt trin tim nông bi nhng ữu im so vợi cĂc cĂch tip cn
khĂc. Nhiu sÊn ph'm thữỡng mi ữổc sò dửng rng rÂi trản th giợi (hằ dch
1

2

ca Google ; M icrosof t : : :).
CĂc mổ hnh dch mĂy ữổc sò dửng nhiu nhĐt l dch mĂy thng kả dỹa
trản cửm t (PBSMT) (Koehn v cng sỹ, 2003; Och v Ney, 2004) [59,89] v dch
mĂy nỡ-ron (Neural MT) (Bahdanau v cng sỹ, 2014; Sutskever v cng sỹ,
2014; Cho v cng sỹ, 2014) [4, 20, 98]. Trong thp k qua, bản cnh dch mĂy
dỹa trản cửm t vợi cĂc ữu im dch y , d can thiằp xò lỵ gù lỉi trong quĂ tr
nh dch, gn Ơy dch mĂy mng nỡ-ron  cho thĐy tim nông lợn

v trong nhiu trữớng hổp  vữổt qua dch mĂy dỹa trản cửm t (Bentivogli
v cng sỹ, 2016; Junczys-Dowmunt v cng sỹ, 2016; Chung v cng sỹ, 2016;

Shterionov v cng sỹ, 2017) [9, 21, 48, 94]. CĂc ữu im ca dch mĂy nỡ-ron l
: dch trổi chÊy hỡn, sĂt nghắa hỡn. Tuy nhiản, nhiu trữớng hổp dch
khổng y , hiằn tữổng khổng rê t ( unkown word) nhiu, quĂ trnh dch
nhữ hp en lản khõ can thiằp xò lỵ v gù lỉi. Nhng vĐn ca dch mĂy
mng nỡ-ron ữổc ch ra trong cĂc nghiản cứu gn Ơy nhữ (Zheng v cng sỹ,
2018; Ott v cng sỹ, 2018; Koehn v cng sỹ, 2017) [58,91,112].
https://translate.google.com
2http://www.microsofttranslator.com
1

16


Tữỡng tỹ nhữ dch mĂy thng kả dỹa trản cửm t, dch mĂy dỹa trản mng
nỡ-ron l mổ hnh dch mĂy theo hữợng d liằu, phử thuc v o d liằu song
ng ữổc sò dửng huĐn luyằn. ChĐt lữổng dch ca mt hằ thng liản quan
n s lữổng v chĐt lữổng ca tp d liằu huĐn luyằn. Dch mĂy thng kả dỹa
trản cửm t v c biằt vĐn Êo trt tỹ t vÔn th hiằn cĂc ữu im
trong cĂc trữớng hổp cĂc ngổn ng vợi nguỗn t i nguyản hn ch (Koehn v cng
3

sỹ, 2017) [58], cĂc cƠu ngn . Trong dỹ Ăn v dch mĂy cho cĂc ngổn ng hn
4

ch v t i nguyản nôm 2018, Philip Koehn v nhõm nghiản cứu  gi nh ữổc
khoÊn t i trổ 10,7 triằu ổ la dch cĂc ngổn ng cõ nguỗn t i nguyản

hn ch, Â cp: "ThĂch thức lợn nhĐt i vợi chúng ta l viằc cõ t d liằu. iu
n y ặi họi cn nhiu v rĐt nhiu d liằu". Vợi nhng ngổn ng n y, hằ
dch dỹa trản mng nỡ-ron chữa th hiằn ữổc cĂc ữu im so vợi dch mĂy
thng kả dỹa trản cửm t. CĂc ữu im ca dch thng kả dỹa trản cửm t vÔn
l hữợng nghiản cứu ữổc quan tƠm kt hổp vợi im mnh trong dch mĂy
mng nỡ-ron.
VĐn quan trồng ca dch mĂy liản quan n viằc l m th n o sinh ra thứ
tỹ cĂc t (cửm t) chnh xĂc trong ngổn ng ch. Trong dch mĂy thng
kả dỹa trản cửm t (PBSMT), viằc Êo cửm t vÔn cặn ỡn giÊn v chĐt lữổng
chữa cao. Bản cnh õ, do cĂc ngổn ng cõ nhiu c im khĂc nhau ( c biằt
sỹ khĂc nhau v thứ tỹ t trong cĂc ngổn ng, v dử: Anh - Viằt) dÔn tợi
khổng th mổ hnh hõa chnh xĂc trong quĂ trnh dch [89]. iu n y
dÔn n cõ nhiu hữợng quan tƠm nghiản cứu giÊi quyt vĐn Êo trt tỹ t bản
trong hằ thng dch mĂy thng kả dỹa v o cửm ang l thĂch thức i vợi cĂc nh
nghiản cứu v dch mĂy trong nhiu nôm qua. CĂc nghiản cứu theo hữợng
tip cn tin xò lỵ quĂ trnh sp xp li [108], [33], [65] mt cĂch hiằu
3

https://yandex.com/company/blog/one-model-is-better-than-two-yu-yandex-translate-

launches-a-hybrid-machine-translation-system/
4http://www.baltimoresun.com/news/breaking/bs-md-hopkins-language-grant-20171011-story.html

17


quÊ (cÊi thiằn so vợi cĂc hằ thng dch mĂy dỹa trản cửm v phƠn cĐp), chĐt
lữổng ữổc Ănh giĂ khÊ quan trong cĂc mổ hnh sp xp li.
Sò dửng phữỡng phĂp tin xò lỵ cõ ữu im l gi ữổc im mnh ca hằ
thng dch mĂy dỹa trản cửm t, giÊm thiu thới gian giÊi mÂ, cụng nhữ gi
im mnh ca dch mĂy theo cú phĂp trong b i toĂn Êo trt tỹ t.
Hiằn nay, Â cõ nghiản cứu v hằ thng dch mĂy thng kả dỹa trản cửm
t cho cp ngổn ng Anh-Viằt. Tuy nhiản, nghiản cứu v dch mĂy thng
kả dỹa trản cửm t sò dửng tin xò lỵ vợi cƠy cú phĂp phử thuc chữa nhiu.
Bản cnh õ, cú phĂp phử thuc cõ ữu im trong viằc th hiằn quan hằ phử
thuc t, tc nhanh, phũ hổp vợi vĐn sp xp li trt tỹ t (mt trong nhng
vĐn quan trồng trong b i toĂn dch). Nhng vĐn thĂch thức t ra:
- CĂc nghiản cứu ch yu Ăp dửng cho chiu dch Anh-Viằt, chữa cõ chiu
dch Viằt-Anh.
- Mt s nghiản cứu  Ăp dửng Êo trt tỹ t dỹa trản cƠy cú phĂp phử
thuc cho chiu Anh-Viằt. Tuy nhiản nhng nghiản cứu n y ch yu
dũng cĂc lut bng tay, chữa Ăp dửng cĂc lut tỹ ng trong b i toĂn dch.
- Cõ t nghiản cứu sò dửng tin xò lỵ dỹa v o cƠy cú phĂp phử thuc
cho chiu Viằt-Anh v tỗn ti nhiu hn ch cn cÊi tin nƠng cao chĐt
lữổng.
giÊi quyt thĂch thức trản nhm cÊi tin chĐt lữổng dch mĂy thng kả,
nhiu nỉ lỹc nghiản cứu theo hữợng sò dửng cƠy phƠn tch cú phĂp phử thuc

v o dch thng kả  ữổc Ăp dửng. Chnh iu n y  gổi ỵ v thúc 'y chúng
tổi lỹa chồn nghiản cứu t i: "CÊi tin chĐt lữổng dch mĂy thng kả AnhViằt dỹa v o Êo trt tỹ t theo cƠy cú phĂp phử thuc".
2. Mửc tiảu ca lun Ăn
Nghiản cứu xuĐt cĂc phữỡng phĂp giÊi quyt b i toĂn Êo cửm t
18


trong dch mĂy thng kả dỹa v o cửm theo hữợng tip cn tin xò lỵ dỹa
trản cƠy cú phĂp phử thuc Ăp dửng cho cp ngổn ng Anh-Viằt.
Nghiản cứu xuĐt cĂc lut th cổng, cĂc lut tỹ ng Ăp dửng cÊi thiằn
chĐt lữổng dch mĂy thng kả.
Nghiản cứu cĂc hằ thng dch thng kả Â cõ nhữ Moses, cĂc phữỡng phĂp t
ch hổp tri thức ngổn ng, xuĐt cĂc phữỡng phĂp mợi, thỹc nghiằm.

3. õng gõp ca lun Ăn
Trữợc tiản, lun Ăn Ăp dửng phữỡng phĂp Êo trt tỹ t nƠng cao chĐt
lữổng dch ca hằ thng dch mĂy Anh-Viằt. xuĐt cĂc lut th cổng
t viằc lỹa chồn cĂc c trững v ngổn ng trản cƠy cú phĂp phử thuc.
Trong phữỡng phĂp n y xĂc nh hiằn tữổng ngổn ng pha cĂc cƠu
nguỗn tữỡng ứng vợi thứ tỹ t cĂc cƠu ngổn ng ch. Tm hiu cĂc
nguyản tc sp xp li t c trững ca cĂc ngổn ng nhữ: ngổn ng
SVO

(Subject-Verb-Object),

ngổn

ng

SOV

(Subject-Object

Verb). . . Cui cũng, lun Ăn lỹa chồn cĂc c trững v ngổn ng sò
dửng cú phĂp phử thuc ữa ra cĂc lut Êo trt tỹ t phũ hổp gia
ngổn ng ting Viằt v ngổn ng ting Anh.
Lun Ăn xuĐt phữỡng phĂp xƠy dỹng lut Êo trt tỹ t tỹ ng. Xem viằc
xƠy dỹng lut Êo trt tỹ t nhữ vĐn hồc mĂy trong viằc dỹ oĂn
chnh xĂc v tr cĂc th nh phn ca lut oĂn thứ tỹ úng cĂc cƠu
trong ngổn ng nguỗn tữỡng ứng vợi thứ tỹ cƠu ngổn ng ch.
Vợi hai xuĐt gỗm:
Khai thĂc cĂc c trững v ngổn ng v xuĐt phữỡng phĂp sò dửng
cĂc b phƠn lợp giÊi quyt b i toĂn Êo trt tỹ t. Cử th l xĂc nh thứ
tỹ úng ca cĂc phƠn lợp quan hằ gia cửm cha-con trản cƠy phƠn
tch phử thuc biu din cƠu u v o.
19


Bng viằc khai thĂc quan hằ cĂc cp t trản cƠy phƠn tch phử thuc
v ữu im ca viằc biu din dữợi dng word embedding, chúng tổi

xuĐt phữỡng phĂp sò dửng mng nỡ-ron giÊi quyt b i toĂn Êo trt
tỹ t cƠu nguỗn theo thứ tỹ t cƠu ch trữợc khi ữa v o hằ dch
nƠng cao chĐt lữổng dch.
Lun Ăn ữa ra phƠn tch Ênh hững ca cĂc lỉi phƠn tch cú phĂp n
chĐt lữổng dch qua viằc Ăp dửng cĂc lut Êo trt tỹ t pha cƠu nguỗn.

Kt hổp phữỡng phĂp thỹc nghiằm v mổ tÊ thỹc hiằn phƠn tch so
sĂnh v mi quan hằ gia phƠn tch cú phĂp v Êo trt tỹ t. Cổng
viằc n y ữổc sò dửng mang li lổi ch khổng ch cho viằc cÊi tin
cĂc phữỡng phĂp Êo trt tỹ t m cặn cho sỹ phĂt trin phƠn tch cú
phĂp phử thuc c biằt vợi ngổn ng ting Viằt.
CĂc ni dung v kt quÊ nghiản cứu trnh b y trong lun Ăn  ữổc cổng
b trong 10 cổng trnh. Trong õ, 8 bĂo cĂo trong k yu ca hi ngh quc
t cõ phÊn biằn, ữổc xuĐt bÊn bi IEEE v Springer; 1 bĂo cĂo trong k yu ca
hi thÊo quc gia cõ phÊn biằn v 1 b i bĂo tp ch trong nữợc cõ phÊn
biằn.
4. B cửc ca lun Ăn
Ngo i phn m u v kt lun, lun Ăn ữổc t chức th nh 5 chữỡng, vợi b cửc
nhữ sau:
Chữỡng 1 Giợi thiằu tng quan v vĐn nghiản cứu trong lun Ăn.
Chữỡng 2 Trnh b y ni dung, kt quÊ nghiản cứu v vĐn Êo cửm
trong dch mĂy thng kả sò dửng cĂc lut th cổng cho b i toĂn Êo trt
tỹ t trong dch mĂy thng kả.
Chữỡng 3 Trnh b y ni dung, kt quÊ nghiản cứu sò dửng cĂc lut trch
xuĐt tỹ ng bng phữỡng phĂp hồc mĂy vợi cĂc b phƠn lợp quan hằ.
20


Ch÷ìng 4 Tr…nh b y nºi dung, k‚t qu£ nghi¶n cøu ph÷ìng ph¡p sß
döng m⁄ng nì-ron k‚t hæp c¡c thæng tin ngœ c£nh.
Ch÷ìng 5 Tr…nh b y £nh h÷ðng cıa c¥y ph¥n t‰ch có ph¡p phö thuºc
vîi ch§t l÷æng dàch m¡y Anh - Vi»t theo h÷îng ti‚p c“n ti•n xß lþ.

21


Chữỡng 1
Tng quan cĂc vĐn liản quan
lun Ăn
Chữỡng n y trnh b y tng quan v cĂc vĐn nghiản cứu trong lun Ăn, bao
gỗm: dch mĂy (Machine Translation - MT), dch mĂy thng kả (Statistical
Machine Translation - SMT), dch mĂy nỡ-ron (Neural Machine Translation),
mổ hnh dch mĂy thng kả dỹa trản cửm t (Phrase-based SMT), phƠn t
ch cú phĂp phử thuc, b i toĂn Êo cửm; ữa ra phƠn tch, Ănh giĂ cĂc cổng
trnh nghiản cứu liản quan, cĂc vĐn cặn tỗn ti m lun Ăn s tp trung giÊi
quyt v xĂc nh ni dung nghiản cứu ca lun Ăn phn cui chữỡng.

1.1

Tng quan v dch mĂy

Dch mĂy l mt trong nhng vĐn khõ v lƠu ới nhĐt trong tr tuằ nhƠn
to [45,49,50]. Mt trong nhng ng lỹc chnh cho dch mĂy l sỹ quan tƠm
ca cĂc cỡ quan tnh bĂo tông khÊ nông nhn bit nhng g ang xÊy ra
nữợc ngo i. Dũ dch mĂy cõ lch sò lƠu ới, viằc dch tỹ ng to n b vợi chĐt
lữổng cao l khõ t ữổc. Viằc dch thut cõ liản quan n nhiu ngổn ng
v liản quan n vôn hõa l cĂc vĐn khõ.
Dch l mt quĂ trnh chuyn nghắa ca cĂc t hay vôn bÊn sang ngổn ng
22


(a) ThĂp chuyn

i th hiằn quĂ trnh dch

(b) ThĂp chuyn

theo cĂc phữỡng phĂp khĂc nhau

i th hiằn cĂc kiu phƠn

tch trong sỡ ỗ hnh thĂp

Hnh 1.1: Sỡ ỗ hnh thĂp th hiằn cĂc hằ thng dch mĂy khĂc nhau.

khĂc. Nõ liản quan n viằc giÊi m nghắa ca ngổn ng nguỗn v sau õ mÂ
hõa li theo nghắa v o ngổn ng ch. QuĂ trnh n y liản quan n mt lot
hot ng phức tp, ặi họi kin thức y v ngổn ng bao gỗm: hnh thĂi
hồc, cú phĂp, ng nghắa v ng cÊnh nhữ trong nghiản cứu (Jurafsky v
Martin,2009;) [50]. Ng cÊnh xung quanh vôn bÊn dch ữổc xem nhữ l c
lp cõ th cõ nghắa khĂc nhau. Nõ cụng ặi họi cõ kin thức sƠu pha cĂc
ngổn ng ch m hõa li nghắa.
Trữợc nhng nôm 1990, cĂch tip cn dỹa trản lut l ch yu. CĂc lut khĂc
nhau ữổc thit k cho phƠn tch cú phĂp, dch chuyn t vỹng, hnh thĂi
hồc . . . Ban u, ba loi mổ hnh chnh ữổc ữa ra l : mổ hnh dch
trỹc tip, mổ hnh chuyn i v mổ hnh liản ng. CĂc mổ hnh n y
ữổc bt nguỗn t viằc phƠn tch cĂch cĂc ngổn ng ữổc hnh th
nh.Bernard Vauquois [102] ữa ra sỡ ỗ hnh kim tỹ thĂp ni ting trnh b y
cĂc kin trúc ca cĂc hằ thng dch mĂy trong hnh 1.1.
Nhiu nh nghiản cứu tp trung v o cĂc hằ thng sò dửng cĂc ngổn ng i
diằn trung gian v nghắa. Liản ng [30,75] l mt trữớng hổp ca hằ thng
hữợng ng nghắa. Nõ sò dửng mt ngổn ng quc t i diằn cho nghắa tru
tữổng, c lp ca mt ngổn ng cử th. VĐn thu hút sỹ quan tƠm ca cĂc
23


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×