Tải bản đầy đủ

Mô hình xử lý hiệu quả dữ liệu biểu hiện gen

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ

HUỲNH PHƯỚC HẢI

MÔ HÌNH XỬ LÝ HIỆU QUẢ DỮ LIỆU

BIỂU HIỆN GEN

LUẬN ÁN TIẾN SĨ
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ NGÀNH 62480104

CẦN THƠ, 2019


BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC CẦN THƠ

HUỲNH PHƯỚC HẢI


MÔ HÌNH XỬ LÝ HIỆU QUẢ DỮ LIỆU

BIỂU HIỆN GEN

LUẬN ÁN TIẾN SĨ
CHUYÊN NGÀNH: HỆ THỐNG THÔNG TIN
MÃ NGÀNH 62480104

NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS. TS. ĐỖ THANH NGHỊ
TS. NGUYỄN VĂN HÒA

CẦN THƠ, 2019



LIC MèN

ho n th nh lun Ăn n y tổi  nhn ữổc sỹ hữợng dÔn, quan tƠm, giúp ù
nhiằt tnh t quỵ Thy Cổ, bn b v ngữới thƠn. Tổi xin gòi lới cÊm ỡn
chƠn th nh n:
Thy PGS.TS. ỉ Thanh Ngh v Thy TS. Nguyn Vôn Hặa  tn tnh
ch bÊo, hữợng dÔn, ng viản v to mồi iu kiằn tt nhĐt cho tổi trong
quĂ trnh hồc tp v nghiản cứu.
Thy, Cổ v cĂc anh, ch ca khoa Cổng nghằ thổng tin v Truyn
thổng, trữớng i hồc Cn Thỡ Â cung cĐp thảm kin thức, to mồi iu kiằn
cho tổi v quan tƠm, hỉ trổ tổi trong quĂ trnh hồc tp.
Ban giĂm hiằu trữớng i hồc An Giang, Ban ch nhiằm Khoa Cổng nghằ
thổng tin  to iu kiằn tổi ữổc tham gia hồc tp nƠng cao trnh
chuyản mổn, cĂc bn ỗng nghiằp  khổng ngng ng viản v giúp ù tổi
trong sut thới gian hồc tp.
Sau cũng tổi xin chƠn th nh cÊm ỡn sƠu sc n gia nh v ngữới thƠn Â
giúp ù, ng viản tổi trong sut quĂ trnh hồc tp v to iu kiằn tt nhĐt tổi
ho n th nh lun Ăn.
NCS Huýnh Phữợc HÊi

ii


TMT T



Trong nhng nôm gn Ơy, ung thữ l mt trong nhng nguyản nhƠn h ng
u gƠy tò vong trản to n th giợi. Do õ, ng y c ng cõ nhiu nghiản cứu ữổc
thỹc hiằn tm giÊi phĂp hiằu quÊ ch'n oĂn v iu tr ung thữ. Tuy nhiản, cho
n nay vÔn cặn nhiu thĂch thức do nguyản nhƠn gƠy ung thữ liản quan n ri
lon di truyn hoc sỹ thay i quĂ trnh phĂt trin tỹ nhiản trong t b o. PhƠn t
ch biu hiằn gen bng cĂc mổ hnh hồc mĂy l cổng cử mnh m xĂc nh
cĂc thay i ca cĂc t b o trong cĂc iu kiằn mổi trữớng khĂc nhau. CĂc mổ h
nh hồc mĂy cung cĐp thổng tin hu ch ch'n oĂn v iu tr ung thữ. Tuy
nhiản, mổ hnh hồc mĂy phƠn lợp d liằu biu hiằn gen l d b quĂ khợp do
d liằu biu hiằn gen cõ s chiu rĐt lợn

v s lữổng mÔu nhọ. PhƠn lợp d liằu cõ s chiu lợn l mt trong 10 thĂch
thức ca hồc mĂy hiằn i. Trong lun Ăn, chúng tổi giÊi quyt cĂc vĐn n y
bng cĂc õng gõp sau Ơy.
Thứ nhĐt, chúng tổi xuĐt mổ hnh rút trch c trững mợi hồc cĂc t
nh nông tim 'n ca d liằu biu hiằn gen bng mng nỡ-ron tch chp
sƠu (DCNN). CĂc c trững mợi ữổc rút trch bng DCNN cÊi thiằn ch
nh xĂc phƠn lợp d liằu biu hiằn gen ca cĂc cổng nghằ DNA
Microarray v RNA-Seq. Kt quÊ thỹc nghiằm cho thĐy chnh xĂc ca cĂc
b phƠn loi ữổc cÊi thiằn khi dũng DCNN rút trch c trững t d liằu biu
hiằn gen. Bản cnh õ, chúng tổi cặn xuĐt phữỡng phĂp giÊi quyt cÊ hai
thĂch thức ca phƠn lợp d liằu biu hiằn gen bng giÊi thut tông cữớng d
liằu SMOTE t c trững mợi ữổc rút trch bng mng DCNN. GiÊi thut
SMOTE ữổc dũng sinh d liằu tng hổp t cĂc c trững mợi ữổc rút tr
ch bng mng DCNN. D liằu tng hổp ữổc sinh ra ữổc tông cữớng
cho d liằu hồc v sò dửng cĂc giÊi thut phƠn lợp hiằn i phƠn loi.
Thứ hai, chúng tổi xuĐt mổ hnh tông cữớng d liằu cho phƠn lợp biu
hiằn gen bng mng i khĂng sinh mÔu (GAN). Mng GAN ữổc xƠy dỹng phũ
hổp vợi d liằu biu hiằn gen sinh d liằu tng hổp t d liằu gc. Mổ
hnh ữổc kt hổp vợi cĂc giÊi thut phƠn lợp phƠn loi d liằu biu hiằn gen.
Kt quÊ thỹc nghiằm cho thĐy mổ hnh xuĐt cÊi thiằn ữổc chnh

iii


xĂc ca cĂc giÊi thut gỗm k lĂng ging, cƠy quyt nh, mĂy hồc vc-tỡ hỉ trổ
v rng ngÔu nhiản.
Thứ ba, chúng tổi xuĐt mổ hnh tp hổp cĂc cƠy xiản phƠn ngÔu
nhiản ỡn giÊn (RODS) dỹa trản mĂy hồc vc-tỡ hỉ trổ (SVM) phƠn lợp
hiằu quÊ d liằu biu hiằn gen. ị tững chnh l kt hổp nhiu cƠy xiản
phƠn ngÔu nhiản ỡn giÊn theo hữợng tip cn Bagging v Boosting. Chúng
tổi xƠy dỹng tp hổp cĂc cƠy xiản phƠn ngÔu nhiản ỡn giÊn dỹa trản siảu
phflng ti ữu thu ữổc t huĐn luyằn SVM. Kt quÊ thỹc nghiằm trản cho
thĐy mổ hnh xuĐt hiằu quÊ hỡn cĂc giÊi thut khĂc gỗm k lĂng ging, cƠy
quyt nh, mĂy hồc vc-tỡ hỉ trổ, rng ngÔu nhiản, bagging v adaboost khi
phƠn lợp trỹc tip trản s chiu gc. Ngo i ra, mổ hnh xuĐt cụng cÊi
thiằn ữổc chnh xĂc ca mổ hnh phƠn lợp khi kt hổp vợi cĂc k thut
tông cữớng d liằu bng mng GAN v rút trch c trững bng mng DCNN.
T khõa: d liằu biu hiằn gen, mổ hnh phƠn lợp, mng nỡ-ron tch
chp sƠu, mng i khĂng sinh mÔu, mổ hnh tp hổp cĂc cƠy xiản phƠn
ngÔu nhiản ỡn giÊn, mĂy hồc vc-tỡ hỉ trổ

iv


ABSTRACT

In recent years, cancer is leading cause of death worldwide. Therefore, more
and more studies have been conducted which aim to improve the ability to
discover cancers earlier and to diagnose them more accurately than was the
case only a few years ago. However, there are still many challenges in cancer
treatment because the most common causes of cancer are genetic disorders
and epigenetic alterations in the cells. Gene expression is an exceptionally
powerful tool for identifying changes in cells between different environmental
conditions or developmental stages. It is able to provide benefit information that
is used to explore and diagnose disease. Gene expression data classi-fication
models play a key role to address the fundamental problems relat-ing to cancer.
Nevertheless, these models can easy overfiting because of the very-highdimensional and small-sample-size issues. Classifying gene expres-sion data is
a challenge in the field of machine learning. In this dissertation we are
interested in tackling these issues with the following contributions.

Firstly, we propose a new feature extraction model to learn latent fea-tures
from gene expression data using deep convolutional neural network (DCNN).
This model improves the classification accuracy of gene expression on both
RNA-Seq and DNA-Microarray platforms. Experiment results show that
DCNN is effective to extract features from gene expression data. On the
other hand, we also propose a combined enhancing and extraction method
to address both challenges of classification models using gene expression
data. In this approach, SMOTE algorithm generates new data from features
extracted by DCNN. These models are used in conjunction with various
classifiers that efficiently classify gene expression data.
Secondly, we propose a new enhancing gene expression data model with
generative adversarial network (GAN).GAN is implemented to generate synthetic data from original training datasets, which is used in conjunction with
various classifiers to predict gene expression data. Numerical test results show
that our proposed model improve the classification accuracy of algorithms including support vector machines, k nearest neighbors and random forests.

v


Finally, we investigate random ensemble oblique decision stumps (RODS)
based on linear support vector machine (SVM) that is suitable for classify-ing
very-high-dimensional microarray gene expression data. Our classification
algorithms (called Bag-RODS and Boost-RODS) learn multiple oblique decision stumps in the way of bagging and boosting to form an ensemble of
classifiers more accurate than single model. Numerical test results show that
our proposed algorithms are more accurate than the-state-of-the-art
classifica-tion models, including k nearest neighbors, support vector
machines, decision trees and ensembles of decision trees like random
forests, bagging and ad-aboost. In addition, these models also improve the
classification accuracy by combined with enhancing data model using the
GAN and feature extraction model using DCNN.

Key words: gene expression data, classification, deep convolutional
neural network, generative adversarial network, random ensemble
oblique decision stumps, support vector machines

vi


MệC LệC

LIC MèN..............................
TMT T ................................

ii
iii

ABSTRACT...............................

v

MệCLệC................................

vii

DANHMệCC CHNHV ...................

xii

DANHMệCC CB NGBI U .................

xiv

CHìèNG 1.

GII THI U

1

1.1 Tnh cĐp thit ca lun Ăn . . . . . . . . . . . . . . . . . . . . .

1

1.2 Mửc tiảu, i tữổng, phm vi v phữỡng phĂp nghiản cứu . . .

3

1.3 Nhiằm vử v hữợng tip cn ca lun Ăn . . . . . . . . . . . . .

4

1.3.1 Nghiản cứu xƠy dỹng mổ hnh rút trch c trững cho
d liằu biu hiằn gen . . . . . . . . . . . . . . . . . . . .

4

1.3.2 Nghiản cứu xƠy dỹng mổ hnh tông cữớng d liằu cho
d liằu biu hiằn gen . . . . . . . . . . . . . . . . . . . .

6

1.3.3 Nghiản cứu xƠy dỹng mổ hnh phƠn lợp hiằu quÊ d
liằu biu hiằn gen . . . . . . . . . . . . . . . . . . . . . .

7

1.4 CĂc õng gõp ca lun Ăn . . . . . . . . . . . . . . . . . . . . .

7

1.5 B cửc ca lun Ăn . . . . . . . . . . . . . . . . . . . . . . . . .

9

CHìèNG 2.

Cè S Lị THUY T V
C C CNG TR NH LI N QUAN

11

2.1 D liằu biu hiằn gen . . . . . . . . . . . . . . . . . . . . . . . .

11

2.2 Mổ hnh phƠn lợp d liằu biu hiằn gen . . . . . . . . . . . . .

15

2.2.1 PhĂt biu b i toĂn . . . . . . . . . . . . . . . . . . . . .

15

2.2.2 Ănh giĂ mổ hnh . . . . . . . . . . . . . . . . . . . . . .

16

2.2.3 D liằu thỹc nghiằm . . . . . . . . . . . . . . . . . . . .

18

2.3 CĂc nghiản cứu liản quan . . . . . . . . . . . . . . . . . . . . . .

24

2.3.1 Mổ hnh k lĂng ging . . . . . . . . . . . . . . . . . . . .

24

2.3.2 Mổ hnh cƠy quyt nh . . . . . . . . . . . . . . . . . .

25

2.3.3 MĂy hồc vc-tỡ hỉ trổ . . . . . . . . . . . . . . . . . . .

26

vii


2.3.4 Ph÷ìng ph¡p t“p hæp mæ h…nh . . . . . . . . . . . . . .
2.3.5 Mæ h…nh m⁄ng nì-ron nh¥n t⁄o . . . . . . . . . . . . . .

30
32

2.3.6 C¡c mæ h…nh håc s¥u . . . . . . . . . . . . . . . . . . . .

33

2.4 Th£o lu“n c¡c nghi¶n cøu li¶n quan . . . . . . . . . . . . . . .

36

2.5 K‚t ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

38

CH×ÌNG 3.

M˘ H NH RÓT TR CH

C TR×NG CHO

DÚLI UBI UHI NGEN

39

3.1 Giîi thi»u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

39

3.2 Mæ h…nh m⁄ng nì-ron t‰ch ch“p s¥u rót tr‰ch °c tr÷ng dœ li»u
bi”u hi»n gen . . . . . . . . . . . . . . . . . . . . . . . . . . . .

41

3.2.1 Ki‚n tróc mæ h…nh m⁄ng nì-ron t‰ch ch“p s¥u rót tr‰ch
°c tr÷ng cho dœ li»u bi”u hi»n gen . . . . . . . . . . .

41

3.2.2 Qu¡ tr…nh rót tr‰ch °c tr÷ng . . . . . . . . . . . . . . .

44

3.2.3 C¡c gi£i thu“t ph¥n lîp °c tr÷ng ÷æc rót tr‰ch . . . .

49

3.3 K‚t qu£ thüc nghi»m . . . . . . . . . . . . . . . . . . . . . . . .

50

3.3.1 K‚t qu£ ph¥n lîp dœ li»u bi”u hi»n gen DNA Microarray 51
3.3.2 K‚t qu£ ph¥n lîp dœ li»u bi”u hi»n gen RNA-Seq . . .

62

3.3.3 K‚t qu£ ph¥n lîp t“p dœ li»u bi”u hi»n gen RNA-Seq lîn 68
3.4 K‚t ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
CH×ÌNG 4.

70

M˘ H NH T NG C×˝NG M U C TR×NG
RÓT TR CH B NG SMOTE

4.1 Giîi thi»u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

71
71

4.2 T«ng c÷íng m¤u b‹ng SMOTE düa v o °c tr÷ng rót tr‰ch cıa
dœ li»u bi”u hi»n gen . . . . . . . . . . . . . . . . . . . . . . . .
4.3 K‚t qu£ thüc nghi»m . . . . . . . . . . . . . . . . . . . . . . . .

73
76

4.3.1 Dœ li»u thüc nghi»m . . . . . . . . . . . . . . . . . . . .

76

4.3.2 Thi‚t l“p tham sŁ c¡c mæ h…nh . . . . . . . . . . . . . .

76

4.3.3 K‚t qu£ ph¥n lîp . . . . . . . . . . . . . . . . . . . . . .

78

4.4 K‚t ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
CH×ÌNG 5.

89

M˘ H NH T NG C×˝NG DÚ LI U CHO DÚ
LI UBI UHI NGEN

90

5.1 Giîi thi»u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

90

5.2 Mæ h…nh t«ng c÷íng m¤u cho dœ li»u bi”u hi»n gen . . . . . . . 92
viii


5.3 Ph¥n lîp bi”u hi»n gen sau khi t«ng c÷íng dœ li»u . . . . . . .
5.4

95

K‚t qu£ thüc
nghi»m . . . . . . . . . . . . . . . . . . . . . . . .

5.4.1

96

Dœ li»u thüc nghi»m .
...................

97

5.4.2 Thi‚t l“p tham sŁ c¡c mæ h…nh . . . . . . . . . . . . . .

97

5.4.3 K‚t qu£ ph¥n lîp . . . . . . . . . . . . . . . . . . . . . .

98

5.5 K‚t ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104
CH×ÌNG 6. M˘ H NH T P HÑP
C YXI NPH NNG UNHI N

ÌNGI N106

6.1 Giîi thi»u . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
6.2 Mæ h…nh t“p hæp c¥y xi¶n ph¥n ng¤u nhi¶n ìn gi£n . . . . . .
107
6.2.1

C¥y xi¶n ph¥n ng¤u nhi¶n ìn gi£n . . . . . . . . . . .
107

6.2.2

Mæ h…nh Bagging c¥y xi¶n ph¥n ng¤u nhi¶n

ìn gi£n . 110

6.2.3

Mæ h…nh Boosting c¥y xi¶n ph¥n ng¤u nhi¶n

ìn gi£n . 112

6.3

K‚t qu£ thüc
nghi»m . . . . . . . . . . . . . . . . . . . . . . . . 114

6.3.1

K‚t qu£ ph¥n lîp tr¶n
sŁ chi•u gŁc cıa dœ li»u . . . . . 115

6.3.2

K‚t qu£ ph¥n lîp sau
khi t«ng c÷íng dœ li»u b‹ng GAN 126
6.3.3 K‚t qu£ ph¥n lîp

°c tr÷ng rót tr‰ch b‹ng DCNN . . . 130

6.4 K‚t ch÷ìng . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 134
CH×ÌNG 7. K T LU N V HײNG PH T TRI N
7.1 K‚t lu“n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
7.2 H÷îng ph¡t tri”n . . . . . . . . . . . . . . . . . . . . . . . . . .

135
135
137


ix


DANHMÖCC CKÞHI U,C CCHÚVI TT T

Vi‚t t›t
Adaboost
ANN

Gi£i th‰ch
Gi£i thu“t Adaboost
Mæ h…nh m⁄ng nì-ron nh¥n t⁄o (Artificial Neural Network)

Bag-C4.5

Mæ h…nh Bagging c¡c c¥y quy‚t ành

Bag-RODS

Mæ h…nh Bagging c¡c c¥y xi¶n ph¥n ng¤u nhi¶n ìn gi£n

Boost-RODS

Mæ h…nh Boosting c¡c c¥y xi¶n ph¥n ng¤u nhi¶n ìn gi£n

C4.5

Gi£i thu“t c¥y quy‚t ành C4.5

DCNN

Mæ h…nh m⁄ng nì-ron t‰ch ch“p s¥u
(Deep Convolutional Neural Network)

GAN

M⁄ng Łi kh¡ng sinh m¤u (Generative Adversarial Network)

kNN

Gi£i thu“t k l¡ng gi•ng (Generative Adversarial Network)

LSVM

Gi£i thu“t m¡y håc v†c-tì hØ træ dòng h m nh¥n tuy‚n t‰nh
(Linear Support Vector Machines)

ODS

Mæ h…nh c¥y xi¶n ph¥n ìn gi£n (Oblique Decision Stumps)

RF

Gi£i thu“t rłng ng¤u nhi¶n (Random Forests)

RODS

Mæ h…nh c¥y xi¶n ph¥n ng¤u nhi¶n ìn gi£n
(Random Oblique Decision Stumps)

SMOTE

Ph÷ìng ph¡p mîi sinh m¤u tł phƒn tß dœ li»u hi‚m
(Synthetic Minority Over-sampling Technique)

SVM

Gi£i thu“t m¡y håc v†c-tì hØ træ (Support Vector Machines)

DCNN-Bag-RODS

Mæ h…nh sß döng Bag-RODS ph¥n lîp c¡c °c tr÷ng ÷æc
rót tr‰ch b‹ng DCNN

DCNN-Boost-RODS

Mæ h…nh sß döng Boost-RODS ph¥n lîp c¡c °c tr÷ng ÷æc
rót tr‰ch b‹ng DCNN

DCNN-C4.5

Mæ h…nh sß döng C4.5 ph¥n lîp c¡c °c tr÷ng
÷æc rót tr‰ch b‹ng DCNN

DCNN-kNN

Mæ h…nh sß döng kNN ph¥n lîp c¡c °c tr÷ng
÷æc rót tr‰ch b‹ng DCNN

DCNN-LSVM

Mæ h…nh sß döng LSVM ph¥n lîp c¡c °c tr÷ng
÷æc rót tr‰ch b‹ng DCNN

DCNN-RF

Mæ h…nh sß döng RF ph¥n lîp c¡c °c tr÷ng ÷æc
rót tr‰ch b‹ng DCNN

DCNN-SVM

Mæ h…nh sß döng SVM ph¥n lîp c¡c °c tr÷ng
÷æc rót tr‰ch b‹ng DCNN

x


Vi‚t t›t
DCNN-SMOTE-C4.5

Gi£i th‰ch
Mæ h…nh sß döng C4.5 ph¥n lîp c¡c °c tr÷ng ÷æc
rót tr‰ch b‹ng DCNN v t«ng c÷íng m¤u b‹ng SMOTE

DCNN-SMOTE-kNN

Mæ h…nh sß döng kNN ph¥n lîp c¡c °c tr÷ng ÷æc
rót tr‰ch b‹ng DCNN v t«ng c÷íng m¤u b‹ng SMOTE

DCNN-SMOTE-LSVM

Mæ h…nh sß döng LSVM ph¥n lîp c¡c °c tr÷ng ÷æc
rót tr‰ch b‹ng DCNN v t«ng c÷íng m¤u b‹ng SMOTE

DCNN-SMOTE-RF

Mæ h…nh sß döng RF ph¥n lîp c¡c °c tr÷ng ÷æc
rót tr‰ch b‹ng DCNN v t«ng c÷íng m¤u b‹ng SMOTE

DCNN-SMOTE-SVM

Mæ h…nh sß döng SVM ph¥n lîp c¡c °c tr÷ng ÷æc
rót tr‰ch b‹ng DCNN v t«ng c÷íng m¤u b‹ng SMOTE

GAN-Bag-RODS

Mæ h…nh sß döng Bag-RODS ph¥n lîp sau khi
t«ng c÷íng dœ li»u b‹ng GAN

GAN-Boost-RODS

Mæ h…nh sß döng Boost-RODS ph¥n lîp sau khi
t«ng c÷íng dœ li»u b‹ng GAN

GAN-C4.5

Mæ h…nh sß döng C4.5 ph¥n lîp sau khi
t«ng c÷íng dœ li»u b‹ng GAN

GAN-kNN

Mæ h…nh sß döng kNN ph¥n lîp sau khi
t«ng c÷íng dœ li»u b‹ng GAN

GAN-LSVM

Mæ h…nh sß döng LSVM ph¥n lîp sau khi
t«ng c÷íng dœ li»u b‹ng GAN

GAN-RF

Mæ h…nh sß döng RF ph¥n lîp sau khi
t«ng c÷íng dœ li»u b‹ng GAN

GAN-SVM

Mæ h…nh sß döng SVM ph¥n lîp sau khi
t«ng c÷íng dœ li»u b‹ng GAN

xi


DANHMệCC CHNHV

Hnh 1.1 Mổ hnh phƠn lợp sò dửng cĂc phữỡng phĂp rút trch c trững
giÊm chiu . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

5

Hnh 1.2

Mổ hnh phƠn lợp sò dửng phữỡng phĂp tông cữớng d liằu . . . . .

6

Hnh 1.3

Mổ hnh phƠn lợp trỹc tip trản chiu gc ca d liằu . . . . . . . .

7

Hnh 2.1 Lữổc ỗ thổng tin di truyn trong t b o . . . . . . . . . . . . . . . .

12

Hnh 2.2 Biu din trỹc quan kt quÊ cĂc th nghiằm ca cổng nghằ DNA
Microarray v RNA Sequencing . . . . . . . . . . . . . . . . . . . . . . . . 13
Hnh 2.3

CĐu trúc d liằu ca ma trn biu hiằn gen sau khi chu'n hõa . . . . 15

Hnh 2.4 Thng kả s lữổng th nghiằm trản ngữới theo cĂc loi chip Affymetrix
trản ArrayExpression (Cp nht ng y 01/04/2018) . . . . . . . . . . . . . 19
Hnh 2.5

PhƠn lợp d liằu vợi k lĂng ging (k = 5) . . . . . . . . . . . . . . . 24

Hnh 2.6

PhƠn lợp tuyn tnh vợi mĂy hồc SVM . . . . . . . . . . . . . . . . . 27

Hnh 2.7

CĂc phữỡng phĂp hồc nhiu lợp ca SVM . . . . . . . . . . . . . . . 28

Hnh 2.8 Thng kả cĂc nghiản cứu sò dửng Deep Learning trong Tin sinh hồc
t nôm 2004 n 2014 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
Hnh 2.9

Mổ hnh mng nỡ-ron tch chp . . . . . . . . . . . . . . . . . . . . . 34

Hnh 3.1 Kin trúc mổ hnh DCNN rút trch c trững cho d liằu biu hiằn gen 43
Hnh 3.2

Ma trn vuổng biu din biu hiằn gen . . . . . . . . . . . . . . . . . 44

Hnh 3.3

Mổ phọng cĂch tch chp trản ma trn biu hiằn gen . . . . . . . . . 45

Hnh 3.4

Mổ phọng lợp pooling trản ma trn biu hiằn gen . . . . . . . . . . . 46

Hnh 3.5 Kch thữợc cĂc ma trn trong cĂc tng ca mng DCNN khi rút trch
c trững t tp Colon [1] . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
Hnh 3.6

4 bÊn ỗ c trững ca lợp CONV1 trong tp Colon [1] . . . . . . . 47

Hnh 3.7

4 bÊn ỗ c trững ca lợp POOLING1 trong tp Colon [1] . . . . . 48

Hnh 3.8

2 bÊn ỗ c trững ca lợp CONV2 trong tp Colon [1] . . . . . . . 48

Hnh 3.9

2 bÊn ỗ c trững ca lợp POOLING2 trong tp Colon [1] . . . . . 49

Hnh 3.10

So sĂnh kt quÊ phƠn lợp gia cĂc mổ hnh trữợc v sau khi rút trch
c trững trản 50 tp d liằu biu hiằn gen DNA Microarray . . . . . . . . 58

Hnh 3.11

So sĂnh kt quÊ phƠn lợp gia DCNN-SVM v SVM trản 50 tp d
liằu biu hiằn gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . 59

Hnh 3.12

So sĂnh kt quÊ phƠn lợp gia DCNN-LSVM v LSVM trản 50 tp
d liằu biu hiằn gen DNA Microarray . . . . . . . . . . . . . . . . . . . . 60

Hnh 3.13

So sĂnh kt quÊ phƠn lợp gia DCNN-kNN v kNN trản 50 tp d
liằu biu hiằn gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . 61

xii


H…nh 3.14 So s¡nh k‚t qu£ ph¥n lîp giœa c¡c mæ h…nh tr÷îc v sau khi sß döng
DCNN tr¶n 25 t“p dœ li»u bi”u hi»n gen RNA-Seq . . . . . . . . . . . . . . 66
H…nh 3.15

So s¡nh k‚t qu£ ph¥n lîp giœa DCNN-SVM v SVM tr¶n 25 t“p dœ
li»u bi”u hi»n gen RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . . . 66

H…nh 3.16

So s¡nh k‚t qu£ ph¥n lîp giœa DCNN-LSVM v LSVM tr¶n 25 t“p
dœ li»u bi”u hi»n gen RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . 67

H…nh 3.17

So s¡nh k‚t qu£ ph¥n lîp giœa DCNN-kNN v kNN tr¶n 25 t“p dœ
li»u bi”u hi»n gen RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . . . 67

H…nh 3.18 So s¡nh º ch‰nh x¡c ph¥n lîp giœa c¡c mæ h…nh tr¶n t“p bi”u hi»n
gen RNA-Seq lîn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
H…nh 4.1 Mæ h…nh k‚t hæp DCNN v SMOTE ph¥n lîp dœ li»u bi”u hi»n gen . 73
H…nh 4.2

Ki‚n tróc mæ h…nh DCNN rót tr‰ch °c tr÷ng v t«ng c÷íng m¤u
b‹ng SMOTE tł dœ li»u rót tr‰ch . . . . . . . . . . . . . . . . . . . . . . . 74

H…nh 4.3 So s¡nh k‚t qu£ ph¥n lîp giœa c¡c mæ h…nh tr÷îc v sau khi sß döng
DCNN, SMOTE tr¶n 50 t“p dœ li»u bi”u hi»n gen DNA Microarray . . . . 84
H…nh 4.4

So s¡nh º ch‰nh x¡c ph¥n lîp giœa DCNN-SMOTE-SVM v SVM
tr¶n 50 t“p dœ li»u bi”u hi»n gen DNA Microarray . . . . . . . . . . . . . . 85

H…nh 4.5 So s¡nh º ch‰nh x¡c ph¥n lîp giœa DCNN-SMOTE-LSVM v LSVM
tr¶n 50 t“p dœ li»u bi”u hi»n gen DNA Microarray . . . . . . . . . . . . . . 86
H…nh 4.6

So s¡nh º ch‰nh x¡c ph¥n lîp giœa DCNN-SMOTE-kNN v kNN
tr¶n 50 t“p dœ li»u bi”u hi»n gen DNA Microarray . . . . . . . . . . . . . . 87

H…nh 4.7

So s¡nh º ch‰nh x¡c ph¥n lîp giœa DCNN-SMOTE-RF v RF tr¶n
50 t“p dœ li»u bi”u hi»n gen DNA Microarray . . . . . . . . . . . . . . . . 88

H…nh 5.1 Ki‚n tróc m⁄ng Łi kh¡ng sinh m¤u GAN cho dœ li»u bi”u hi»n gen .

92

H…nh 5.2

Mæ t£ qu¡ tr…nh m⁄ng GAN hu§n luy»n v sinh m¤u . . . . . . . . . 93

H…nh 5.3

Qui tr…nh ph¥n lîp dœ li»u bi”u hi»n gen b‹ng GAN . . . . . . . . . 95

H…nh 5.4

So s¡nh º ch‰nh x¡c ph¥n lîp giœa GAN-SVM v SVM tr¶n 20 t“p
dœ li»u bi”u hi»n gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102

H…nh 5.5

So s¡nh º ch‰nh x¡c ph¥n lîp giœa GAN-LSVM v LSVM tr¶n 20

t“p dœ li»u bi”u hi»n gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . 102
H…nh 5.6

So s¡nh º ch‰nh x¡c ph¥n lîp giœa GAN-kNN v kNN tr¶n 20 t“p
dœ li»u bi”u hi»n gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

H…nh 5.7

So s¡nh º ch‰nh x¡c ph¥n lîp giœa GAN-RF v RF tr¶n 20 t“p dœ
li»u bi”u hi»n gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

H…nh 5.8

So s¡nh º ch‰nh x¡c ph¥n lîp giœa GAN-C4.5 v C4.5 tr¶n 20 t“p
dœ li»u bi”u hi»n gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 104

H…nh 5.9

So s¡nh k‚t qu£ ph¥n lîp tr÷îc v sau khi sß döng GAN . . . . . . . 104

H…nh 6.1

Ph¥n ho⁄ch ìn thuºc t‰nh (tr¡i), ph¥n ho⁄ch a thuºc t‰nh (ph£i) . 108

H…nh 6.2 C¥y xi¶n ph¥n ng¤u nhi¶n ìn gi£n . . . . . . . . . . . . . . . . . . .
H…nh 6.3

110

Mæ h…nh Bagging c¡c c¥y xi¶n ph¥n ng¤u nhi¶n ìn gi£n . . . . . . . 111
xiii


H…nh 6.4 Mæ h…nh Boosting c¡c c¥y xi¶n ph¥n ng¤u nhi¶n ìn gi£n . . . . . . 112
H…nh 6.5 Minh håa kh£ n«ng tŒng qu¡t hâa cıa SVM khi i•u ch¿nh h‹ng sŁ C 114
H…nh 6.6 So s¡nh trung b…nh º ch‰nh x¡c (%) giœa c¡c mæ h…nh . . . . . . . . 121
H…nh 6.7

So s¡nh º ch‰nh x¡c cıa Bag-RODS vîi SVM, LSVM, kNN v C4.5
tr¶n 50 t“p dœ li»u bi”u hi»n gen DNA Microarray . . . . . . . . . . . . . . 122

H…nh 6.8

So s¡nh º ch‰nh x¡c cıa Bag-RODS vîi RF, Bag-C4.5 v Adaboost
tr¶n 50 t“p dœ li»u bi”u hi»n gen DNA Microarray . . . . . . . . . . . . . . 123

H…nh 6.9

So s¡nh º ch‰nh x¡c cıa Boost-RODS vîi LSVM, kNN v C4.5 tr¶n
50 t“p dœ li»u bi”u hi»n gen DNA Microarray . . . . . . . . . . . . . . . . 124

H…nh 6.10

So s¡nh º ch‰nh x¡c cıa Boost-RODS vîi RF, Bag-C4.5 v Adaboost
tr¶n 50 t“p dœ li»u bi”u hi»n gen DNA Microarray . . . . . . . . . . . . . . 125

H…nh 6.11

So s¡nh º ch‰nh x¡c ph¥n lîp giœa GAN-Bag-RODS v Bag-RODS
tr¶n 20 t“p dœ li»u bi”u hi»n gen . . . . . . . . . . . . . . . . . . . . . . . 129

H…nh 6.12

So s¡nh º ch‰nh x¡c ph¥n lîp giœa GAN-Boost-RODS v BoostRODS tr¶n 20 t“p dœ li»u bi”u hi»n gen . . . . . . . . . . . . . . . . . . . 129

H…nh 6.13 So s¡nh trung b…nh º ch‰nh x¡c (%) giœa c¡c mæ h…nh Bag-RODS,
Boost-RODS, GAN-Bag-RODS, GAN-Boost-RODS, GAN-SVM, GAN-LSVM,
GAN-RF v GAN-kNN . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 130
H…nh 6.14 So s¡nh trung b…nh º ch‰nh x¡c (%) giœa c¡c mæ h…nh DCNN-BagRODS, DCNN-Boost-RODS, DCNN-SVM, DCNN-LSVM, DCNN-kNN . . 134

xiv


DANHMÖCC CB NGBI U

B£ng 2.1
B£ng 2.2

Thæng tin chi ti‚t 50 t“p dœ li»u bi”u hi»n gen DNA Microarray . . . 19
Thæng tin 20 t“p dœ li»u bi”u hi»n gen DNA Microarray . . . . . . . 21

B£ng 2.3

Thæng tin cıa 25 t“p dœ li»u bi”u hi»n gen RNA-Seq câ 2 lîp . . . . 22

B£ng 2.4

Thæng tin cıa t“p dœ li»u bi”u hi»n gen RNA-Seq lîn . . . . . . . . 23

B£ng 3.1 K‚t qu£ i•u ch¿nh tham sŁ cıa mæ h…nh DCNN-SVM tr¶n 50 t“p
dœ li»u bi”u hi»n gen DNA Microarray . . . . . . . . . . . . . . . . . . . . 52
B£ng 3.2 K‚t qu£ ph¥n lîp cıa 10 mæ h…nh tr¶n 50 t“p dœ li»u bi”u hi»n gen
DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 53
B£ng 3.3 So s¡nh k‚t qu£ ph¥n lîp cıa 10 mæ h…nh tr¶n 50 t“p dœ li»u bi”u
hi»n gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . 54
B£ng 3.4 K‚t qu£ ph¥n lîp cıa 10 mæ h…nh tr¶n 25 t“p dœ li»u bi”u hi»n gen
RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 63
B£ng 3.5 So s¡nh k‚t qu£ ph¥n lîp cıa 10 mæ h…nh tr¶n 25 t“p dœ li»u bi”u
hi»n gen RNA-Seq . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 64
B£ng 3.6 K‚t qu£ ph¥n lîp cıa c¡c mæ h…nh tr¶n t“p dœ li»u bi”u hi»n gen
RNA-Seq lîn . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 69
B£ng 4.1 K‚t qu£ i•u ch¿nh c¡c tham sŁ cıa mæ h…nh DCNN-SMOTE-SVM
tr¶n 50 t“p dœ li»u bi”u hi»n gen DNA Microarray . . . . . . . . . . . . . . 77
B£ng 4.2 K‚t qu£ ph¥n lîp cıa 15 mæ h…nh tr¶n 50 t“p dœ li»u bi”u hi»n gen
DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
B£ng 4.3

So s¡nh hi»u qu£ ph¥n lîp giœa c¡c mæ h…nh tr¶n 50 t“p dœ li»u . . . 82

B£ng 5.1 K‚t qu£ i•u ch¿nh tham sŁ cıa mæ h…nh GAN-SVM tr¶n 20 t“p dœ
li»u bi”u hi»n gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 98
B£ng 5.2

K‚t qu£ ph¥n lîp cıa 10 mæ h…nh tr¶n 20 t“p dœ li»u . . . . . . . . . 98

B£ng 5.3 So s¡nh k‚t qu£ ph¥n lîp giœa c¡c mæ h…nh tr¶n 20 t“p dœ li»u bi”u
hi»n gen . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 99
B£ng 6.1

K‚t qu£ i•u ch¿nh c¡c tham sŁ cıa Bag-RODS v Boost-RODS . . 115

B£ng 6.2º ch‰nh x¡c ph¥n lîp cıa 9 mæ h…nh tr¶n 50 t“p dœ li»u bi”u hi»n
gen DNA Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
B£ng 6.3 So s¡nh k‚t qu£ cıa Bag-RODS, Boost-RODS, SVM, LSVM, RF,
kNN, C4.5, Bag-C4.5 v Adaboost tr¶n 50 t“p dœ li»u bi”u hi»n gen DNA
Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 119

xv


B£ng 6.4 K‚t qu£ ph¥n lîp cıa c¡c mæ h…nh Bag-RODS, Boost-RODS, GAN-BagRODS v GAN-Boost-RODS tr¶n 20 t“p dœ li»u bi”u hi»n gen DNA Microarray
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 126
B£ng 6.5

So s¡nh k‚t qu£ ph¥n lîp cıa Bag-RODS, Boost-RODS khi k‚t hæp

vîi GAN tr¶n 20 t“p dœ li»u bi”u hi»n gen . . . . . . . . . . . . . . . . . . 128 B£ng 6.6
K‚t qu£ ph¥n lîp cıa c¡c mæ h…nh Bag-RODS, Boost-RODS, DCNNBag-RODS v DCNN-Boost-RODS tr¶n 50 t“p dœ li»u bi”u hi»n gen DNA
Microarray . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 131
B£ng 6.7

So s¡nh k‚t qu£ ph¥n lîp cıa Bag-RODS, Boost-RODS khi ph¥n lîp

°c tr÷ng rót tr‰ch b‹ng DCNN tr¶n 50 t“p dœ li»u bi”u hi»n gen . . . . . 132

xvi


CHìèNG 1. GII THI U

Trong chữỡng n y, chúng tổi trnh b y sỹ cn thit ca mổ hnh xò lỵ
hiằu quÊ d liằu biu hiằn gen trong phƠn lợp bằnh ung thữ. Tip theo l
mửc tiảu, i tữổng, phm vi, phữỡng phĂp nghiản cứu v cĂc õng gõp ca
lun Ăn. Cui cũng l b cửc ca lun Ăn.

1.1. Tnh cĐp thit ca lun Ăn
Nguyản nhƠn gƠy ra bằnh ung thữ liản quan n sỹ thay

i trong b gen

v sỹ kt hổp cĂc t bin gen xÊy ra trong quĂ trnh di truyn. Theo t
chức y t th giợi (WHO), ung thữ l mt trong nhng nguyản nhƠn gƠy cht
ngữới h ng u [2]. Gn Ơy, nghiản cứu iu tr bằnh ung thữ tr th nh vĐn
quan trồng trong lắnh vỹc y t trản to n th giợi do t lằ bằnh v tò vong cao
[3]. Trong nôm 2018, theo thng kả ca WHO Â cõ thảm 18,1 triằu bằnh nhƠn
ung thữ v 9,6 triằu ngữới  tò vong bi côn bằnh n y. Ngo i ra, Rahib

cĂc cng sỹ Â nghiản cứu dỹ bĂo s lữổng ngữới bằnh ung thữ s tông
20% n 40% t nôm 2020 v 2030 so vợi nôm 2010 [4].
v

Mc dũ Â cõ nhiu nghiản cứu iu tr bằnh ung thữ. Tuy nhiản cĂc
phữỡng phĂp hiằn nay chữa thỹc sỹ mang li hiằu quÊ tt nhĐt cho ngữới
bằnh do sỹ liản quan phức tp gia cĂc yu t di truyn, t b o v t bin gen
trong quĂ trnh phĂt trin ca con ngữới [5]. PhĂc ỗ iu tr chung cho cĂc
nhõm bằnh ung thữ cõ th mang li hiằu quÊ khĂc nhau i vợi tng bằnh
nhƠn [6]. Nhng nôm gn Ơy, phữỡng phĂp iu tr cĂ nhƠn hõa cặn ữổc
gồi l y hồc hõa cĂ th (personalized medicine) l mt hữợng iu tr cõ hiằu
quÊ i vợi bằnh ung thữ [7]. Phữỡng phĂp n y tt hỡn hỡn khi Ănh giĂ ữổc
hiằu quÊ iu tr dỹa trản chnh hỗ sỡ di truyn ca bằnh nhƠn [8]. Gn Ơy,
cĂc nghiản cứu trản to n b hằ gen ngữới giúp khĂm phĂ ra vai trặ ca cĂc
tĂc nhƠn di truyn trong quĂ trnh gƠy bằnh. Trong õ, cĂc nghiản cứu phƠn
tch d liằu biu hiằn gen  cung cĐp cĂc thổng tin quan trồng hỉ trổ
xƠy dỹng phĂc ỗ iu tr phũ hổp cho tng bằnh nhƠn dỹa v o cĂc thổng tin
gen hồc ca tng cĂ th [7].
1


Sỹ phĂt trin cổng nghằ phƠn tch biu hiằn gen ữổc sò dửng rng rÂi
trong cĂc nghiản cứu y sinh  to ra lữổng d liằu khng lỗ ữổc cổng b
trản cĂc kho d liằu trỹc tuyn. Biu hiằn gen (gene expression) l quĂ trnh

m qua õ thổng tin m hõa trong mt gen ữổc truyn v o cĐu trúc ang cõ
trong t b o v iu khin t b o [9]. D liằu biu hiằn gen ữổc cĂc mổ hnh
hồc mĂy xò lỵ v phƠn tch nhm cung cĐp thổng tin hu ch ch'n
oĂn v iu tr bằnh ung thữ. Tuy nhiản, c im d liằu biu hiằn gen cõ s
chiu rĐt lợn ữổc phƠn tch t cĂc mức biu hiằn ca h ng chửc nghn
gen ca cĂc t b o qua cĂc th nghiằm v s mÔu nhọ do chi ph cao ca
cĂc cổng nghằ [10] nản phƠn lợp d liằu biu hiằn gen l b i toĂn phức tp.
CĂc mổ hnh hồc mĂy ữổc ứng dửng xò lỵ d liằu biu hiằn gen gỗm
phƠn lợp (classification), chồn gen (feature selection) v phƠn cửm
(clustering) [11]. CĂc nghiản cứu n y  mang li nhiu tri thức quan trồng
nƠng cao chĐt lữổng v hiằu quÊ iu tr v ch'n oĂn bằnh ung thữ [7, 12, 13,
14]. Trong õ, chồn gen v phƠn cửm gen l hai lắnh vỹc nghiản cứu y sinh
liản quan nhiu n nghiản cứu dữổc hồc v Ănh giĂ vai trặ chức nông gen
trong y hồc [15, 16]. PhƠn lợp d liằu biu hiằn gen l b i toĂn quan trồng
ch'n oĂn mt bằnh ph'm mợi chữa ữổc gĂn nhÂn [17, 18, 19, 20, 21, 22]. Ơy
hữợng nghiản cứu ữổc quan tƠm nhiu nhĐt trong lắnh vỹc phƠn tch
d liằu biu hiằn gen [11] khi tn dửng sức mnh ca cĂc mổ hnh phƠn
lợp ch'n oĂn tỹ ng mt mÔu bằnh ph'm mợi m khổng cn nhiu n kin thức
y sinh liản quan n d liằu [23].
l

PhƠn lợp d liằu cõ s chiu lợn l mt trong 10 vĐn khõ ca cng ỗng khai
phĂ d liằu [24]. CĂc mổ hnh phƠn lợp d liằu cõ s chiu lợn thữớng cho
kt quÊ tt trản tp huĐn luyằn những li cõ kt quÊ thĐp trản tp kim tra. ThĂch
thức chnh ca phƠn lợp biu hiằn gen l d liằu phƠn tch cõ s chiu rĐt lợn
lản n h ng chửc nghn chiu v tĂch rới nhau trong khổng gian cõ s chiu
cao nản tm mổ hnh phƠn lợp tt l khõ khôn do cõ nhiu khÊ nông lỹa
chồn mổ hnh tt. V vy tm kim mt mổ hnh phƠn lợp hiằu quÊ
(phƠn lợp d liằu tt trản tp kim thò) trong khổng gian giÊ thuyt lợn

l vĐn phức tp. XƠy dỹng mổ hnh phƠn lợp tt trản cĂc tp d liằu cõ
s chiu lợn v s mÔu nhọ l b i toĂn khõ trong lắnh vỹc hồc mĂy.
Mc dũ Â cõ nhiu mổ hnh phƠn lợp d liằu biu hiằn gen ữổc xuĐt
những chnh xĂc ca mổ hnh vÔn cặn b giợi hn do sỹ phức tp ca d

2


liằu [25]. Trong lắnh vỹc hồc mĂy, khi s chiu d liằu tông th s d
liằu phƠn tch cụng tông lản theo cĐp s nhƠn. Bellman gồi hiằn tữổng n
y l "curse of dimensionality" khi xem xt cĂc vĐn v ti ữu hõa [26]. c biằt
i vợi d liằu biu hiằn gen do d liằu khổng ph ht trản tĐt cÊ cĂc khổng
gian nản kt quÊ phƠn lợp trản tp hồc v tp kim tra rĐt khĂc nhau l m cho
mổ hnh phƠn lợp d b quĂ khợp (overfiting). NƠng cao chnh xĂc cĂc
mổ hnh phƠn lợp d liằu biu hiằn gen cõ c im "large p, small n" l mt
thĂch thức quan trồng [25]. Chnh nhng thĂch thức n y thúc 'y chúng
tổi thỹc hiằn nghiản cứu quan trồng n y.

1.2. Mửc tiảu, i tữổng, phm vi v phữỡng phĂp nghiản
cứu
Xò lỵ d liằu biu hiằn gen l ch nghiản cứu quan trồng trong tin sinh
hồc [27]. Trong õ, phƠn lợp d liằu biu hiằn gen l b i toĂn quan trồng [27]
v cĂc mổ hnh phƠn lợp cõ th ch'n oĂn tỹ ng mt mÔu bằnh ph'm ung
thữ mợi m khổng cn nhiu n kin thức y sinh liản quan n d liằu [23].
CĂc mổ hnh phƠn lợp cõ th hỉ trổ cĂc nghiản cứu y khoa ch'n oĂn
bằnh chnh xĂc hỡn gõp phn cÊi thiằn hiằu quÊ iu tr ung thữ [28, 29].
Mửc tiảu chnh ca lun Ăn l xuĐt cĂc phữỡng phĂp tip cn mợi cho "b i
toĂn phƠn lợp d liằu biu hiằn gen" nƠng cao chnh xĂc phƠn lợp vợi
cĂc mửc tiảu cử th sau:
Nghiản cứu xƠy dỹng mổ hnh rút trch c trững hiằu quÊ cho d
liằu biu hiằn gen nƠng cao chnh xĂc phƠn lợp.
Nghiản cứu xƠy dỹng mổ hnh tông cữớng d liằu cho d liằu biu
hiằn gen nƠng cao chnh xĂc phƠn lợp.
Nghiản cứu xƠy dỹng mổ hnh phƠn lợp hiằu quÊ d liằu biu hiằn gen.
i tữổng nghiản cứu l cĂc mổ hnh rút trch c trững, mổ hnh
sinh mÔu d liằu v mổ hnh phƠn lợp d liằu biu hiằn gen ca bằnh
ung thữ ngữới.
Phm vi nghiản cứu tp trung v o b i toĂn phƠn lợp d liằu biu hiằn gen
ca cĂc th nghiằm nghiản cứu bằnh ung thữ trản ngữới.
thỹc hiằn nghiản cứu chúng tổi phƠn tch, tng hổp cĂc nghiản cứu
cõ liản quan n ni dung nghiản cứu t t i liằu tham khÊo: sĂch, b i bĂo cổng
3


b trản tp ch v k yu hi thÊo xuĐt cĂc mổ hnh rút trch c trững,
sinh mÔu d liằu v phƠn lợp mợi cho d liằu biu hiằn gen.
Phữỡng phĂp thỹc nghiằm ữổc sò dửng xuĐt cĂc tip cn mợi nhm
nƠng cao chnh xĂc ca mổ hnh phƠn lợp d liằu biu hiằn gen. T
nh hiằu quÊ ca cĂc mổ hnh phƠn lợp ữổc chứng minh bng kt quÊ
thỹc nghiằm trản d liằu thỹc ữổc lĐy t cĂc kho d liằu Kent Right [30],
Array Expression [31] v TCGA [32]. Ănh giĂ tnh tng quĂt ca cĂc mổ
hnh xuĐt chúng tổi  thỹc nghiằm trản cĂc b d liằu cõ s lữổng tp
d liằu khĂ lợn (50 tp d liằu) so vợi cĂc nghiản cứu khĂc v a dng v c t
nh tp d liằu nhữ loi th nghiằm, loi bằnh, s lợp, s chiu, s mÔu.
thỹc hiằn chúng tổi tin h nh thu thp, xò lỵ d liằu, xƠy dỹng, huĐn luyằn
v Ănh giĂ mổ hnh. CĂc mổ hnh xuĐt ữổc Ănh giĂ bng cĂch so sĂnh
kt quÊ chnh xĂc phƠn lợp vợi cĂc mổ hnh cỡ bÊn khĂc. Ngo i ra,
chúng tổi cụng o thảm thới gian thỹc hiằn ca cĂc mổ hnh phƠn tch
Ănh i gia tnh chnh xĂc v thới gian huĐn luyằn chĐp nhn ữổc do c
thũ quan trồng ca d liằu biu hiằn gen cõ s mÔu t vợi chi ph rĐt cao
trong bi cÊnh cĂc thit b xò lỵ cõ xu hữợng ng y c ng rã.

1.3. Nhiằm vử v hữợng tip cn ca lun Ăn
Mc dũ Â cõ nhiu nghiản cứu thỹc hiằn phƠn lợp d liằu biu hiằn gen.
Tuy nhiản, c im s chiu lợn v s mÔu t l m hn ch chnh xĂc phƠn
lợp. V vy, hiằn nay nhiu nghiản cứu vÔn tip tửc thỹc hiằn [25] tm ra
cĂc mổ hnh phƠn lợp hiằu quÊ hỡn. Nhiằm vử chnh ca hằ thng phƠn
lợp bằnh ung thữ dỹa v o d liằu biu hiằn gen l phƠn lợp c ng chnh xĂc c
ng tt dỹ oĂn chnh xĂc bằnh ph'm mợi. i vợi c thũ ca loi d liằu n y,
cĂc nghiản cứu thữớng ữổc tip cn theo 3 (ba) hữợng sau.
1.3.1. Nghiản cứu xƠy dỹng mổ hnh rút trch c trững cho d liằu
biu hiằn gen

Ơy l hữợng tip cn truyn thng xƠy dỹng mổ hnh phƠn lợp gỗm 4
giai on cỡ bÊn (Hnh 1.1). Trong õ, sau khi xò lỵ d liằu l giai on rút tr
ch c trững. Mửc ch ca giai on n y nhm giÊm chiu d liằu nƠng
cao chnh xĂc ca giÊi thut phƠn lợp v hn ch hiằn tữổng "overfiting".
4


D liằu biu
hiằn gen

Rút trch
c trững

GiÊi thut
phƠn lợp

Ănh giĂ
mổ hnh

Hnh 1.1: Mổ hnh phƠn lợp sò dửng cĂc phữỡng phĂp rút trch c
trững giÊm chiu
Trong cĂc nghiản cứu  thỹc hiằn, phữỡng phĂp giÊm chiu ữổc chia th
nh hai nhõm: mt l chồn tp con c trững t cĂc c trững gc (chồn chiu feature selection), hai l rút trch cĂc c trững mợi t d liằu gc (rút trch
c trững - feature extraction) [33]. Trong õ, phữỡng phĂp chồn chiu ch yu
dũng xĂc nh cĂc gen quan trồng cõ Ênh hững n kt quÊ phƠn lợp trong
cĂc nghiản cứu tin sinh hồc [15, 34, 12, 35]. CĂc nghiản cứu
n

y tp trung v o vĐn xĂc nh cĂc gen quan trồng thữớng ữổc kt hổp vợi

kin thức y sinh Ănh giĂ kt quÊ v ch ữổc thỹc hiằn trản tng tp d liằu
c lp [15]. Tuy nhiản, cĂch chồn tp con cĂc gen cõ th l m cho mổ hnh
phƠn lợp t kt quÊ tt trản mt tp d liằu n y những khổng Êm bÊo s cõ
kt quÊ tt trản mt tp d liằu khĂc do thổng tin ca mt s gen cõ th b
mĐt do khổng ữổc chồn [33]. V vy chnh xĂc phƠn lợp d liằu biu
hiằn gen cho nhiu tp d liằu bằnh ung thữ khĂc nhau rĐt nhy cÊm vợi k
thut chồn c trững v phử thuc nhiu v o kin thức v d liằu ca ngữới
phƠn tch khi lỹa chồn xĂc nh cĂc gen quan trồng [36]. Trong thỹc t,
phữỡng phĂp chồn chiu ữổc sò dửng trong cĂc nghiản cứu nhm mửc ch
kim chứng ỵ nghắa ca cĂc gen trong cĂc nghiản cứu ch to thuc, khi õ
cĂc gen ữổc chồn ữổc dỹa v o kin thức sinh hồc ca ngữới xƠy dỹng mổ
hnh [35].
Bản cnh õ, cĂc mổ hnh rút trch c trững kt xuĐt cĂc c trững mợi
ữổc tng hổp t to n b c trững gc to ra cĂc i diằn tnh nông mợi cõ t
nh chĐt phƠn loi tt hỡn những vÔn Êm bÊo ữổc y thổng tin ca d
liằu [37, 33]. Phữỡng phĂp n y ữổc thỹc hiằn nhữ mt php chiu d liằu
ang khổng gian chiu cao sang mt khổng gian cõ s chiu thĐp. Sau õ
cĂc giÊi thut phƠn lợp s ữổc huĐn luyằn trản c trững ữổc rút trch
phƠn loi v Ănh giĂ mổ hnh. Thới gian qua  cõ nhiu phữỡng phĂp thu
giÊm s chiu dỹa v o cĂc k thut rút trch c trững nhữ Principal
Component Analysis (PCA), Independent Component

5


Analysis (ICA), Partial Least Squares (PLS), Local Linear Embedding
(LLE) [37, 33]. Tuy nhiản, cĂc phữỡng phĂp n y ch kt xuĐt cĂc mi quan
hằ tuyn tnh ca d liằu, chứ khổng rút trch ữổc cĂc mi quan hằ phi
tuyn tim 'n bản trong cĂc tp d liằu cõ s chiu cao v cĂc c trững cõ mi
quan hằ phử thuc [38, 39, 40, 41, 42].
V vy, nhiằm vử u tiản ca lun Ăn l xuĐt mổ hnh rút trch c
trững mợi cho d liằu biu hiằn gen giÊm chiu d liằu v cÊi thiằn ữổc
chnh xĂc ca cĂc mổ hnh phƠn loi.
1.3.2. Nghiản cứu xƠy dỹng mổ hnh tông cữớng d liằu cho d liằu
biu hiằn gen
Do cĂc th nghiằm to ra d liằu biu hiằn gen cõ chi ph cao nản s
mÔu ca cĂc tp huĐn luyằn thữớng t (thổng thữớng v i trôm mÔu) [43]. VĐn

n y l m hn ch chnh xĂc ca mổ hnh phƠn lợp [44]. Hữợng tip cn n y
tp trung giÊi quyt vĐn s mÔu t bng cĂch tông cữớng d liằu nhƠn to
cho d liằu huĐn luyằn. Tuy nhiản, cĂc tip cn n y ch ph bin trản cĂc
loi d liằu Ênh [45, 46], vôn bÊn [47]. Trong phƠn lợp d liằu biu hiằn
gen Ơy l mt hữợng tip cn mợi chữa ữổc nhiu nghiản cứu thỹc hiằn [48].
Trong cĂch tip cn n y mổ hnh phƠn lợp gỗm cĂc giai on cỡ bÊn nhữ
trong Hnh 1.2. u tiản, mổ hnh s sò dửng mt phữỡng phĂp tông
cữớng d liằu huĐn luyằn, d liằu n y s l m tông s mÔu huĐn luyằn
tông chnh xĂc ca giÊi thut phƠn lợp trữợc khi Ănh giĂ mổ hnh.
D liằu biu
hiằn gen

Tông cữớng
d liằu

GiÊi thut
phƠn lợp

Ănh giĂ
mổ hnh

Hnh 1.2: Mổ hnh phƠn lợp sò dửng phữỡng phĂp tông cữớng d liằu

V vy nhiằm vử thứ hai ca lun Ăn l xuĐt mổ hnh tông cữớng d
liằu cho d liằu biu hiằn gen. Mổ hnh to ra d liằu tng hổp cõ
phƠn phi d liằu gn ging vợi d liằu gc v khi b sung v o d liằu
huĐn luyằn s cÊi thiằn ữổc chnh xĂc ca cĂc giÊi thut phƠn lợp.

6


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×