Tải bản đầy đủ (.pdf) (132 trang)

Một số thuật toán dóng hàng các mạng protein

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.23 MB, 132 trang )

ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

MỘT SỐ THUẬT TOÁN
DÓNG HÀNG CÁC MẠNG PROTEIN

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

Hà Nội - 2019


ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

TRẦN NGỌC HÀ

MỘT SỐ THUẬT TOÁN
DÓNG HÀNG CÁC MẠNG PROTEIN

Chuyên ngành: Khoa học máy tính
Mã số: 9480101.01

LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC:
1. PGS.TS Hoàng Xuân Huấn
2. GS. TS. Thái Trà My

Hà Nội - 2019



LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi. Các kết
quả được viết chung với các tác giả khác đều được sự đồng ý của đồng tác giả
trước khi đưa vào luận án. Các kết quả nêu trong luận án là trung thực và chưa
từng được ai công bố trong các công trình nào khác.
Tác giả

1


LỜI CẢM ƠN
Luận án được thực hiện tại trường ĐH Công nghệ - ĐHQG Hà Nội, dưới
sự hướng dẫn của PGS.TS Hoàng Xuân Huấn và GS.TS Thái Trà My.
Tôi xin bày tỏ lòng biết ơn sâu sắc tới thầy Hoàng Xuân Huấn, cô Thái
Trà My, những người đã có những định hướng giúp tôi thành công trong việc
nghiên cứu của mình. Thầy cũng đã động viên và chỉ bảo giúp tôi vượt qua
những khó khăn để tôi hoàn thành được luận án này.
Tôi xin chân thành cảm ơn tới TS. Đỗ Đức Đông, TS. Đặng Cao Cường
và các thầy cô ở Bộ môn Khoa học máy tính trường Đại học Công nghệ đã
đóng góp cho tôi nhiều kiến thức quý báu về kiến thức khoa học để tôi có thể
hoàn thành luận án.
Tôi cũng xin cảm ơn tới các thầy, cô thuộc khoa Công nghệ thông tin –
Trường ĐH Công Nghệ, đã tạo mọi điều kiện thuận lợi giúp tôi trong quá trình
làm nghiên cứu sinh.
Tôi cũng xin cảm ơn tới các thầy cô ở khoa Toán, và lãnh đạo trường
Đại học Sư Phạm – Đại học Thái Nguyên, đã tạo mọi điều kiện thuận lợi về
mặt thời gian và công tác chuyên môn giúp tôi trong quá trình làm nghiên cứu
sinh.
Cuối cùng, tôi xin gửi lời cảm ơn sâu sắc tới gia đình, bạn bè nơi đã cho
tôi điểm tựa vững chắc để tôi có được thành công như ngày hôm nay.


2


MỤC LỤC
DANH MỤC BẢNG BIỂU .............................................................................. 7
DANH MỤC CÁC HÌNH ................................................................................. 9
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT ........................................... 10
MỞ ĐẦU ......................................................................................................... 12
Chương 1. DÓNG HÀNG CÁC MẠNG PROTEIN VÀ TỐI ƯU MỀM ...... 16
1.1.

Tin sinh học và dóng hàng các mạng protein ...................................... 16

1.1.2. Bài toán dóng hàng nhiều mạng các vị trí liên kết protein. ................. 22
1.1.3. Bài toán dóng hàng mạng tương tác protein - protein ......................... 26
1.2.

Tối ưu mềm .......................................................................................... 31

1.2.1. Bài toán tối ưu tổ hợp và tiếp cận mềm ............................................... 31
1.2.2. Phương pháp tối ưu đàn kiến ............................................................... 35
1.2.3. Tính toán tiến hóa và các thuật toán memetic ..................................... 44
1.2.4. Thuật toán tìm kiếm Tabu .................................................................... 45
1.3.

Động cơ nghiên cứu ............................................................................. 47

1.4.


Kết luận chương ................................................................................... 48

Chương 2. DÓNG HÀNG CÁC MẠNG CÁC VỊ TRÍ LIÊN KẾT PROTEIN
......................................................................................................................... 49
2.1.

Bài toán dóng hàng nhiều đồ thị .......................................................... 49

2.1.1. Tập nhiều đồ thị ................................................................................... 50
2.1.2. Dóng hàng nhiều đồ thị ........................................................................ 50
2.1.3. Hàm đánh giá chất lượng dóng hàng ................................................... 51
3


2.2.

Thuật toán dựa trên ACO ..................................................................... 54

2.2.1. Đồ thị cấu trúc ...................................................................................... 55
2.2.2. Thủ tục bước ngẫu nhiên để xây dựng một dóng hàng........................ 56
2.2.3. Qui tắc cập nhật mùi ............................................................................ 59
2.2.4. Thủ tục tìm kiếm cục bộ ...................................................................... 59
2.3.

Thuật toán theo lược đồ memetic ........................................................ 60

2.3.1. Lược đồ chung ..................................................................................... 61
2.3.2. Đồ thị cấu trúc ...................................................................................... 63
2.3.3. Vết mùi và thông tin heuristic.............................................................. 63
2.3.4. Thủ tục bước ngẫu nhiên xây dựng một dóng hàng ............................ 64

2.3.5. Qui tắc cập nhật vết mùi ...................................................................... 64
2.3.6. Thủ tục tìm kiếm cục bộ ...................................................................... 65
2.4.

Thuật toán memetic mới kết hợp ACO và tìm kiếm Tabu .................. 65

2.4.1. Đồ thị cấu trúc ...................................................................................... 67
2.4.2. Thông tin heuristic ............................................................................... 67
2.4.3. Thủ tục bước ngẫu nhiên xây dựng một dóng hàng ............................ 67
2.4.4. Qui tắc cập nhật vết mùi ...................................................................... 68
2.4.5. Thủ tục tìm kiếm Tabu ......................................................................... 68
2.5.

Các kết quả thực nghiệm...................................................................... 69

2.5.1. Dữ liệu thực nghiệm ............................................................................ 69
2.5.2. Thực nghiệm so sánh thuật toán ACO-MGA với thuật toán Greedy và
GAVEO ........................................................................................................... 70
4


2.5.3. Thực nghiệm so sánh các thuật toán ACOTS-MGA, ACO-MGA2,
GAVEO và Greedy ......................................................................................... 75
2.6.

Kết luận chương ................................................................................... 80

Chương 3. DÓNG HÀNG TOÀN CỤC HAI MẠNG TƯƠNG TÁC
PROTEIN-PROTEIN ...................................................................................... 81
3.1.


Bài toán dóng hàng toàn cục mạng tương tác protein ......................... 81

3.1.1. Phát biểu bài toán ................................................................................. 81
3.1.2. Đánh giá chất lượng dóng hàng toàn cục............................................. 82
3.2.

Thuật toán FASTAN ............................................................................ 84

3.2.1. Xây dựng dóng hàng ban đầu .............................................................. 85
3.2.2. Thủ tục Rebuild .................................................................................... 87
3.2.3. Độ phức tạp của thuật toán FASTAN so với SPINAL ........................ 88
3.3.

Thuật toán ACOGNA .......................................................................... 89

3.3.1. Lược đồ chung ..................................................................................... 91
3.3.2. Đồ thị cấu trúc ...................................................................................... 92
3.3.3. Vết mùi và thông tin heuristic.............................................................. 93
3.3.4. Thủ tục bước ngẫu nhiên để xây dựng dóng hàng ............................... 94
3.3.5. Quy tắc cập nhật vết mùi ..................................................................... 94
3.3.6. Thủ tục tìm kiếm cục bộ ...................................................................... 95
3.4.

Thuật toán ACOGNA++ ...................................................................... 95

3.4.1. Mô tả thuật toán ................................................................................... 96
3.4.2. Vết mùi ................................................................................................. 96
5



3.4.3. Thủ tục xác định cặp đỉnh dóng hàng .................................................. 97
3.4.4. Quy tắc cập nhật vết mùi ..................................................................... 98
3.4.5. Thủ tục tìm kiếm cục bộ ...................................................................... 99
3.5.

Kết quả thực nghiệm ............................................................................ 99

3.5.1. Dữ liệu thực nghiệm ............................................................................ 99
3.5.2. Thực nghiệm so sánh thuật toán FASTAN với thuật toán SPINAL . 100
3.5.3. Thực nghiệm so sánh thuật toán ACOGNA với các thuật toán FASTAN
và MAGNA++ .............................................................................................. 103
3.5.4. Thực nghiệm so sánh thuật toán ACOGNA++ với các thuật toán
ACOGNA, MAGNA++ và ModuleAlign..................................................... 108
3.6.

Kết luận chương ................................................................................. 110

KẾT LUẬN ................................................................................................... 113
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN
QUAN ĐẾN LUẬN ÁN ............................................................................... 117
TÀI LIỆU THAM KHẢO ............................................................................. 118

6


DANH MỤC BẢNG BIỂU
Bảng 2.1. So sánh chất lượng dóng hàng S(A) và thời gian chạy với các bộ dữ
liệu gồm 4, 8, 16 và 32 đồ thị, số đỉnh trung bình của mỗi đồ thị là 20 đỉnh.
................................................................................................................. 71

Bảng 2.2. So sánh chất lượng dóng hàng S(A) và thời gian chạy với các bộ dữ
liệu gồm 4, 8, 16 và 32 đồ thị, số đỉnh trung bình của mỗi đồ thị là 50 đỉnh
................................................................................................................. 71
Bảng 2.3. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian
chạy là 50s. .............................................................................................. 73
Bảng 2.4. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian
chạy là 150s ............................................................................................. 73
Bảng 2.5. So sánh điểm chất lượng dóng hàng S(A)với các bộ dữ liệu là 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 20 đỉnh và thời gian
chạy là 200s ............................................................................................. 73
Bảng 2.6. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4, 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời gian
chạy là 200s ............................................................................................. 74
Bảng 2.7. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4, 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời gian
chạy là 300s ............................................................................................. 74
Bảng 2.8. So sánh điểm chất lượng dóng hàng S(A) với các bộ dữ liệu là 4, 8,16
và 32 đồ thị, với số đỉnh trung bình của mỗi đồ thị là 50 đỉnh và thời gian
chạy là 600s ............................................................................................. 74
7


Bảng 2.9. So sánh chất lượng lời giải của các thuật toán với các tập dữ liệu gồm
4, 8, 16 và 32 đồ thị ................................................................................. 76
Bảng 2.10. So sánh thời gian chạy (tính theo giây) của các thuật toán với các
tập dữ liệu gồm 4, 8, 16 và 32 đồ thị ...................................................... 77
Bảng 2.11. So sánh điểm chất lượng dóng hàng S(A) của 3 thuật toán với cùng
thời gian chạy với các tập gồm 4,8,16 và 32 đồ thị. ............................... 79

Bảng 3.1. Mô tả bộ dữ liệu ............................................................................ 100
Bảng 3.2. So sánh thuật toán FASTAN và thuật toán Spinal theo các hàm mục
tiêu GNAS và giá trị | E12| với các giá trị tham số α khác nhau .......... 102
Bảng 3.3. Thời gian chạy trung bình của thuật toán FASTAN (tính theo đơn vị
giây) và thuật toán SPINAL khi chạy với cùng bộ dữ liệu................... 103
Bảng 3.4. So sánh thuật toán ACOGNA và thuật toán FASTAN theo tiêu chuẩn
GNAS và giá trị |E12| với các giá trị α khác nhau. ............................... 105
Bảng 3.5. So sánh ACOGNA và MAGNA++ theo tiêu chuẩn EC .............. 106
Bảng 3.6. So sánh ACOGNA và MAGNA++ theo tiêu chuẩn S3 ............... 107
Bảng 3.7. So sánh các thuật toán theo tiêu chuẩn S3.................................... 109

8


DANH MỤC CÁC HÌNH
Hình 1.1. Quá trình tổng hợp protein .............................................................. 17
Hình 1.2. Dóng hàng cục bộ và dóng hàng toàn cục ...................................... 27
Hình 1.3. Cách các con kiến thực chọn đường đi ngắn nhất để tha mồi về tổ 36
Hình 2.1. Một dóng hàng nhiều đồ thị của tập 4 đồ thị, đỉnh hình vuông là giả
còn các đỉnh tròn là đỉnh thực có nhãn là các ký tự tương ứng. ..................... 51
Hình 2.2. Ví dụ dóng hàng 2-đồ thị. ............................................................... 53
Hình 2.3. Đồ thị cấu trúc khi dóng hàng n đồ thị, trong đó mỗi đồ thị có 2 hoặc
3 nút thực ......................................................................................................... 56
Hình 2.4. Kiến xây dựng lời giải..................................................................... 58
Hình 2.5. Một hoán vị cặp đỉnh có cùng nhãn trong thủ tục tìm kiếm địa phương
......................................................................................................................... 60
Hình 2.6. So sánh chất lượng lời giải các thuật toán với bộ dữ liệu gồm 16 đồ
thị và thời gian tăng từ 1000s đến 6000s. ....................................................... 78
Hình 3.1. Đồ thị cấu trúc của thuật toán ACOGNA ....................................... 93
Hình 3.2. So sánh thời gian chạy tính theo giây của 2 thuật toán ACOGNA++

và MAGNA++ .............................................................................................. 110

9


DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
SốTT

Tiếng Việt

Tiếng Anh

Viết

tắt,

ký hiệu

1

Tối ưu hóa đàn kiến

Ant Colony Optimization

ACO

2

Giải thuật di truyền


Genetic Algorithm

GA

3

Bài toán người chào hàng

Travelling Salesman Problem

TSP

4

Tối ưu tổ hợp

Combinatorial Optimization

TƯTH

5

Bầy ong nhân tạo

Artificial Bee Colony

ABC

6


Tối ưu bầy đàn

Particle Swarm Optimization

PSO

7

Hệ đàn kiến

Ant Colony System

ACS

8

Hệ kiến

Ant System

AS

9

Hệ kiến max - min

Max – Min Ant System

MMAS


10

Hệ kiến max – min trơn

Smooth Max – Min Ant System SMMAS

11

Tương tác protein

Protein – Protein Interaction

PPI

12

Sự chính xác về cạnh

Edge Correctness

EC

13

Bảo tồn cấu trúc cảm sinh Induced Conserved Structure

ICS

14


Điểm cấu trúc con đối xứng Symmetric substructure score

S3

15

Điểm dóng hàng toàn cục

Global Network Aligment Score GNAS

16

Nấm men

Saccharomyces Cerevisiae

SC

17

Ruồi giấm

Drosophila Melanogaster

DM

10


18


Người tinh khôn

Homo Sapiens

HS

19

Giun tròn

Caenorhabditis Elegans

CE

20

Dóng hàng nhiều đồ thị

Multigraph Alignment

MGA

11


MỞ ĐẦU

Những phát hiện về cơ chế di truyền trong cơ thể sống đã thúc đẩy sinh
học phân tử nói riêng và công nghệ sinh học nói chung phát triển mạnh mẽ

trong nửa thế kỷ qua, trở nên lĩnh vực nghiên cứu và ứng dụng hấp dẫn. Tuy
nhiên các nghiên cứu trong phòng thí nghiệm đòi hỏi nhiều thời gian và tốn
kém. Cùng với sự phát triển của công nghệ thông tin, tin-sinh học [Junker, B &
Schreiber, 2008; M.Lesk, 2002] ra đời và là công cụ trợ giúp hiệu quả cho các
nghiên cứu sinh-y-dược.
Ngày nay, người ta hiểu rõ rằng các protein trong mỗi cơ thể sống quyết
định các đặc điểm sinh học quan trọng như kiểu hình, hệ miễn dịch… và việc
tổng hợp chúng được quy định bởi DNA hay là các bộ gene tương ứng theo
quá trình biểu diễn gene. Các mã di truyền của mỗi cá thể được lưu trong DNA
của nó, phát triển tuân theo quá trình tiến hóa đã được Darwin phát hiện và
Watson và Crick củng cố dựa trên các nghiên cứu vật lý.
Thoạt tiên, các kỹ thuật học máy được áp dụng để phân tích các trình tự
DNA và protein để phát hiện tính tương đồng/dị biệt cấu trúc giữa chúng. Các
phương pháp TƯTH mềm đã giải quyết hiệu quả các bài NP-khó trong lĩnh vực
này như dóng hàng các trình tự, xây dựng cây phân loài, suy diễn haplotype,
phát hiện motif và vị trí của nó trong bộ gene… Các kết quả này hỗ trợ đắc lực
cho lĩnh vực y học và sinh học trong phân tích các bộ gen, nghiên cứu đặc điểm
tiến hóa giữa các loài, phát hiện và điều trị bệnh di truyền…
Tuy nhiên, việc nghiên cứu tính tương đồng/khác biệt cấu trúc tuần tự là
không đủ để phát hiện tính tương đồng/khác biệt về chức năng trong cơ thể
sống. Việc nghiên cứu các mạng sinh học [Junker, B & Schreiber, 2008] như
mạng tương tác protein-protein (PPI), mạng điều hòa gen, mạng các vị trí liên
kết protein, mạng trao đổi chất …mang lại tiếp cận nghiên cứu hiệu quả hơn về
12


phân tích chức năng trong sinh học phân tử. Đặc biệt, việc dóng hàng các mạng
các vị trí liên kết protein và các mạng tương tác protein-protein cho phép chúng
ta dự đoán đặc điểm chức năng ở các loài chưa nghiên cứu kỹ từ các tri thức
của các loài đã biết, nhờ đó hiểu rõ hơn quan hệ tiến hóa sinh học, hỗ trợ thông

tin để nghiên cứu thuốc điều trị các bệnh di truyền. Các bài toán này thuộc loại
NP-khó và đang thu hút nhiều người nghiên cứu/ứng dụng do tính quan trọng
của chúng.
Hiểu rõ tầm quan trọng của tin-sinh học đối với phát triển công nghệ sinh
học của nước nhà, trong hơn 10 năm qua, ở khoa Công nghệ thông tin, Đại học
Công nghệ, Đại học Quốc gia Hà Nội đã hình thành và phát triển một nhóm
nghiên cứu các bài toán cơ bản và thời sự trong tin-sinh học nhằm góp phần tạo
tiền đề phát triển công nghệ sinh học nước nhà.
Trong bối cảnh đó, chúng tôi chọn chủ đề nghiên cứu "Một số thuật toán
dóng hàng các mạng protein” với nội dung là nghiên cứu áp dụng các kỹ thuật
TƯTH mềm để đề xuất một số thuật toán thông minh giải hai bài toán dóng
hàng nhiều mạng các vị trí liên kết protein và dóng hàng toàn cục hai mạng
tương tác protein-protein với chất lượng lời giải và thời gian tính toán tốt hơn
so với các thuật toán mới nhất hiện nay.
Nhiệm vụ cụ thể đặt ra đối với tác giả luận án là:
 Tìm hiểu các dạng bài toán dóng hàng các mạng protein nêu trên và
đánh giá ưu nhược điểm của các thuật toán giải cho các bài toán này
đã được đề xuất trong thời gian gần đây. Bên cạnh đó là tìm hiểu các
kỹ thuật tính toán mềm để thấy rõ ưu và nhược điểm của từng phương
pháp. Trên cơ sở đó, đề xuất các thuật toán mới với chất lượng lời
giải tốt hơn các thuật toán hiện tại trong thời gian ngắn hơn cho các
bài toán này.
13


 Cài đặt và chạy thực nghiệm các thuật toán đề xuất trên các bộ dữ liệu
thực để đánh giá hiệu quả của các thuật toán mới đề xuất so với các
thuật toán trước đó.
Trong thời gian qua, cùng với cán bộ hướng dẫn và các cộng sự, tác giả
luận án đã có đóng góp sau.

 Đề xuất ba thuật toán dựa trên tối ưu đàn kiến cho bài toán dóng hàng
nhiều đồ thị, bao gồm ACO-MGA, ACO-MGA2 và ACOTS-MGA.
 Đề xuất ba thuật toán cho bài toán dóng hàng toàn cục mạng tương
tác protein-protein, bao gồm thuật toán heuristic FASTAN và hai
thuật toán tối ưu đàn kiến: ACOGNA và ACOGNA++.
Kết quả thực nghiệm cho thấy hiệu quả của các thuật toán đề xuất tốt hơn
so với các thuật toán được đề xuất trước đó.
Các kết quả của luận án đã được công bố trong 5 báo cáo hội nghị/hội
thảo quốc gia/quốc tế bao gồm 4 báo cáo hội nghị quốc tế (Công trình 1, 2, 3,
5) và một hội thảo toàn quốc “Nghiên cứu cơ bản và ứng dụng công nghệ thông
tin” (Công trình 4), và một bài báo đăng ở tạp chí VNU Journal of Science:
Computer Science and Communication Engineering (công trình 6).
Ngoài phần mở đầu và kết luận, luận án được tổ chức như sau:
Chương 1 giới thiệu tổng quan về tin sinh học, hai bài toán dóng hàng
đồng thời nhiều mạng các vị trí liên kết protein và dóng hàng mạng tương tác
protein-protein cùng một số vấn đề liên quan. Giới thiệu các phương pháp
metaheuristic bao gồm giải thuật di truyền, phương pháp tối ưu đàn kiến, tính
toán tiến hóa, các thuật toán memetic và tìm kiếm Tabu.

14


Chương 2 trình bày ba thuật toán dựa trên phương pháp tối ưu đàn kiến
để giải bài toán dóng hàng đồng thời nhiều mạng các vị trí liên kết của protein.
Thuật toán thứ nhất là thuật toán ACO-MGA dựa trên phương pháp tối ưu đàn
kiến để giải bài toán dóng hàng nhiều đồ thị. Thuật toán thứ hai là thuật toán
ACO-MGA2 dựa trên lược đồ memetic, trong đó sử dụng phương pháp tối ưu
đàn kiến để tạo ra tập các lời giải và sử dụng các chiến lược tìm kiếm cục bộ
khác nhau để cải thiện chất lượng lời giải tốt nhất do các kiến tìm được. Thuật
toán thứ ba ACOTS-MGA là một thuật toán memetic dựa trên kết hợp ACO và

tìm kiếm cấm. Các kết quả thực nghiệm trên các bộ dữ liệu mô phỏng và dữ
liệu thực cho thấy các thuật toán đề xuất tốt hơn so với các thuật toán mới nhất
để giải bài toán dóng hàng đồng thời nhiều mạng các vị trí liên kết protein.
Chương 3 trình bày ba thuật toán đề xuất để giải bài toán dóng hàng toàn
cục hai mạng tương tác protein-protein. Thuật toán thứ nhất là thuật toán
FASTAN theo hướng tiếp cận heuristic. Tiếp theo là 2 thuật toán ACOGNA và
ACOGNA++ dựa trên phương pháp tối ưu đàn kiến. Hiệu quả của các thuật
toán được kiểm nghiệm trên các bộ dữ liệu chuẩn (IsoBase) được sử dụng bởi
các thuật toán mới nhất hiện nay. Các thực nghiệm đã cho thấy hiệu quả nổi
trội của các thuật toán đề xuất.

15


Chương 1. DÓNG HÀNG CÁC MẠNG PROTEIN VÀ TỐI ƯU MỀM
Trong chương này, đầu tiên luận án giới thiệu ngắn gọn bức tranh chung
của tin sinh học và giới thiệu 2 bài toán tối ưu tổ hợp quan trọng trong lĩnh vực
Tin sinh học là: Bài toán dóng hàng mạng nhiều mạng vị trí liên kết protein và
bài toán dóng hàng tương tác protein-protein. Tiếp theo đó, luận án giới thiệu
về các phương pháp tối ưu mềm là cơ sở để đề xuất các thuật toán mới để giải
quyết 2 bài toán dóng hàng các mạng protein.
1.1.

Tin sinh học và dóng hàng các mạng protein
1.1.1. Giới thiệu về tin sinh học
Trong thế kỷ 19, nhà tự nhiên học đồng thời là nhà địa lý và sinh vật học

người Anh C. R. Darwin (1809 –1882) đã nhận thấy rằng theo thời gian, mỗi
loài sinh vật luôn biến đổi tiến hóa để phù hợp với môi trường sinh tồn của
chúng và đưa ra học thuyết tiến hóa nổi tiếng của ông. Nhờ các thành tựu của

khoa học và kỹ thuật vật lý, năm 1953, Crick và Watson đã khám phá cấu trúc
DNA mở đầu cho kỷ nguyên chinh phục cơ chế di truyền trong sinh vật phù
hợp với học thuyết Darwin.
Hơn 60 năm qua, sinh học phân tử nói riêng và công nghệ sinh học nói
chung phát triển mạnh mẽ, trở nên lĩnh vực nghiên cứu và ứng dụng hấp dẫn,
tạo ra cuộc cách mạng đối với sự hiểu biết của chúng ta về chức năng của tế
bào, mở ra con đường để phát hiện ra cơ chế sinh học phức tạp và sự liên quan
của chúng đến bệnh tật và sự phát triển của cơ thể sống. Trong đó, hiểu biết về
quá trình tổng hợp protein đặt nền tảng cho sinh học phân tử.
1.1.1.1. Quá trình tổng hợp protein
DNA mang thông tin di truyền và điều khiển tổng hợp protein của sinh
vật, còn protein quyết định đặc tính, chức năng và quá trình phát triển của cơ
16


thể sống [Lê Sỹ Vinh, 2014]. DNA là chuỗi xoắn kép được cấu tạo từ 4 loại
nucleotide: Adenine, Cytosine, Guanine và Thymine, chúng được ký hiệu
tương ứng là A, C, G và T. Một đoạn của chuỗi DNA mang thông tin cần thiết
để tạo nên protein gọi là một đoạn gen hay gọn hơn là một gen. Mỗi sinh vật
có nhiều gen, chẳng hạn con người có khoảng 25 nghìn gen khác nhau.
Quá trình tổng hợp protein từ thông tin ở DNA gồm 2 giai đoạn: phiên
mã và dịch mã [Lê Sỹ Vinh, 2014] như được minh họa trong hình 1.1.
Trong giai đoạn phiên mã, đoạn gen mang thông tin hướng dẫn tổng hợp
protein được chuyển sang đoạn RNA có nội dung tương tự đoạn gen nhờ thay
Thymine bởi Uracil, được ký hiệu là U.
Trong giai đoạn dịch mã, đoạn RNA được dịch mã để tạo nên chuỗi các
amino acid và chuỗi này được cuộn gấp (folded) tạo thành protein. Các protein
được cấu tạo từ 20 loại amino acid.

Hình 1.1. Quá trình tổng hợp protein

Trong quá trình tiến hóa, các gen/RNA/protein được di truyền và có thể
biến đổi nhờ các biến dị của các nucleotide/amino acid thành phần dưới dạng
xóa/chèn/ thay thế một nucleotide bằng một nucleotide khác. Tùy theo việc đặc
điểm sinh học của sinh vật do protein quy định có phù hợp với môi trường hay
không mà biến dị được củng cố tồn tại/ phát triển hoặc tiếp tục biến đổi bởi
17


biến dị khác nếu không triệt tiêu cùng các cá thể mang nó. Sự biến đổi theo thời
gian của các bộ gen tạo nên quá trình tiến hóa của các loài sinh vật. Nhận thức
này đặt cơ sở cho các nghiên cứu và ứng dụng trong sinh học phân tử và
tin-sinh học.
1.1.1.2. Sinh học phân tử và phân tích các trình tự trong tin sinh học
Thoạt tiên, các nghiên cứu sinh học phân tử được thực hiện và kiểm
chứng bằng thực nghiệm trong các phòng thí nghiệm. Tuy nhiên việc nghiên
cứu trong phòng thí nghiệm đòi hỏi nhiều thời gian và chi phí cao nên kìm hãm
tiến trình nghiên cứu. Các tri thức về quá trình tổng hợp protein và cấu trúc của
quá trình tổng hợp protein cùng sự phát triển, ứng dụng rộng rãi của công nghệ
thông tin cho phép thực hiện các phân tích Tin-Sinh để trợ giúp các dự đoán và
nghiên cứu trong sinh học phân tử.
Các bài toán và kỹ thuật dóng hàng trình tự [Lê Sỹ Vinh, 2014]
Dựa trên sự phân tích tương đồng/dị biệt cấu trúc của các trình tự DNA và
protein, người ta có được các nhận biết về quan hệ giữa các loài sinh vật và các
cá thể, dự đoán các đặc tính sinh học từ các loài mới dựa trên đặc tính của các
loài đã nghiên cứu kỹ gần với nó.
Như đã nói ở trên, trong quá trình tiến hóa của các loài, các gen/RNA/protein
được di truyền và có thể biến đổi nhờ các biến dị của các nucleotide/amino acid
thành phần dưới dạng xóa/chèn/ thay thế một nucleotide bằng một nucleotide
khác. Sau khi giải trình tự gen/RNA/protein người ta sử dụng các kỹ thuật học
máy để phân tích chúng, bắt đầu từ các bài toán đơn giản như dóng hàng 2 hoặc

nhiều trình tự, xác định trình tự con đến các bài toán phức tạp hơn như: xây
dựng cây phân loài, tìm kiếm motif và vị trí của chúng (xác định miền điều hòa
gen), suy diễn haplotype, dự đoán biến đổi amino acid, v.v.

18


Các bài toán phức tạp này được mô hình hóa dựa trên các nhận xét của các
nhà sinh học. Nhiều bài toán trong chúng là những bài toán tối ưu tổ hợp xử lý
dữ liệu tuần tự và thuộc loại NP-khó. Để dễ hình dung cách đặt bài toán và sử
dụng, ta trở lại với bài toán tìm kếm motif và làm quen với bài toán xây dựng
cây phân loài.
Bài toán tìm kiếm DNA motif và mô hình hóa tổng quát
DNA motif là một đoạn ngắn trong DNA, chúng thường có chức năng đặc
biệt đối với các gen trong bộ gen, chẳng hạn, điều hòa gen [Hoang X. Huan,
Tuyet, Ha, & Hung, 2015]. Đoạn này thường lặp đi lặp lại trong bộ gen. Các
thuật toán tin sinh sẽ tìm ra các đoạn nghi ngờ là motif và vị trí của chúng trên
các bộ gen để các nhà sinh vật kiểm tra lại bằng thực nghiệm thay vì tìm kiếm
mù để làm thực nghiệm.
Bài toán được mô hình hóa tổng quát như sau [Hoang X. Huan et al., 2015]:
Xét tập S = {S1,S2, ..., SN } các trình tự độ dài m trên bộ chữ cái Σ . Với giá trị l
< m cho trước , cần tìm trình tự x = {𝑥1, 𝑥2 , ..., 𝑥𝑖 , ...𝑥𝑙 } trên bộ chữ cái Σ với

độ dài l và tập xâu con M = {𝑚1 , 𝑚2 ,..., 𝑚𝑁 } có cùng độ dài l được lấy ra từ

các chuỗi Si tương ứng sao cho nó tốt nhất theo một tiêu chuẩn định trước nào
đó.

Tiêu chuẩn đồng thuận xác định bởi tổng khoảng cách Hamming tới các xâu
trong tập là nhỏ nhất. Tuy nhiên người ta cũng có thể định nghĩa motif là xác

định hàm mục tiêu khác theo mục đích của nhà sinh học, chẳng hạn số trình tự
trong tập S có khoảng cách Hamming tới x là nhỏ nhất.
Với tiêu chuẩn được chọn, các thuật toán đề xuất sẽ cho ta các motif và vị
trí của chúng trên các trình tự để nhà sinh học xem xét quyết định làm thực
nghiệm kiểm định hay không (trợ giúp quyết định).

19


Bài toán xây dựng cây phân loài [Lê Sỹ Vinh, 2014]
Trong bài toán này, dựa trên phân tích tính tương đồng thể hiện qua dữ liệu
sinh học phân tử (DNA/protein) của các loài, người ta dự đoán quan hệ giữa
các loài và xây dựng cây phân loài. Hai loài có hệ gen và protein càng gần nhau
thì quan hệ tiến hóa càng gần nhau. Dựa trên phân tích quan hệ như vậy, người
ta xây dựng cây nhị phân không gốc với cấu trúc như sau:
 Mỗi nút là ứng với một loài sinh vật hiện thời
 Mỗi nút trong ứng với một loài sinh vật tổ tiên mà thông thường ta
không có thông tin về loài này.
 Mỗi cạnh của cây nối nút của cây ứng với hai loài sinh vật có quan
hệ tiến hóa trực tiếp.
 Khoảng cách nối hai nút ứng với hai loài trên cây cho biết khoảng
cách tiến hóa giữa chúng
Các quan hệ trên cây xây dựng được cho ta kết qủa dự đoán dựa trên kỹ
thuật phân tích hiện có, khi có thêm kỹ thuật mới để xét tính tương đồng, chẳng
hạn, tính tương tự mạng protein (sẽ đề cập ở dưới) ta sẽ điều chỉnh cho chính
xác hơn. Mặc dù các cây được xây dựng như thế không hoàn toàn chính xác
với tiến hóa thực nhưng nó rất hữu ích cho các nhà sinh học khi nghiên cứu các
loài sinh vật. Nhờ nó mà các nhà sinh học có thể dự đoán một số đặc điểm sinh
học có tính di truyền từ các đặc điểm của những loài gần gũi với nó.
Việc nghiên cứu tính tương đồng các trình tự DNA/Protein không đủ thông

tin cho nghiên cứu chức năng và đặc tính y học nên người ta quan tâm đến các
bài toán phân tích dữ liệu 3 chiều. Chẳng hạn, người ta nhận thấy trong quá
trình tổng hợp protein, nếu các amino acid được cuộn gấp sai sẽ gây nên các
bệnh di truyền. Nếu ta dự báo và phát hiện được lỗi cuộn gấp thì có thể phát
hiện bệnh và tìm được phương thức điều trị. Để phát triển nghiên cứu, người ta
đã xây dựng các CSDL không gian và các mạng sinh học.
20


1.1.1.3. Các mạng sinh học
Dóng hàng các chuỗi thuộc hệ gen đã tăng cường kiến thức y sinh học nhờ
phát hiện các vùng trình tự có sự tương đồng giữa các gen ở các loài khác nhau,
các vùng đó có khả năng phản ánh các mối quan hệ chức năng và tiến hóa giữa
các trình tự [Alföldi & Lindblad-Toh, 2013; Altschul, Gish, Miller, & Lipman,
1990; Biesecker et al., 2009; Tsai, Iafrate, & Joung, 2014]. Tuy nhiên, các gen
hoặc các sản phẩm protein của chúng không hoạt động một cách độc lập mà
chúng thực hiện các quá trình tế bào bằng cách tương tác với nhau.
Các tương tác này được mô hình hóa bởi mạng sinh học, chẳng hạn như:
mạng điều hòa gen, mạng trao đổi chất, mạng tương tác protein-protein
(protein-protein interactive: PPI), mạng các vị trí liên kết protein. Không giống
như các nghiên cứu về các chuỗi gen, nghiên cứu mạng sinh học cho phép hiểu
được các quá trình tế bào phức tạp phát sinh từ các hoạt động chung của các
phân tử sinh học.
Những tiến bộ trong công nghệ sinh học hiện thời cung cấp nhiều dữ liệu
cho phép ta nghiên cứu sâu hơn về các mạng sinh học và cho ta nhiều tri thức
quý giá. Chẳng hạn, việc dóng hàng mạng sinh học nhằm tìm ánh xạ tương ứng
đủ tốt giữa các nút mạng của các loài khác nhau cho phép xác định các vùng
mạng có sự tương đồng về kiểu cấu trúc tô pô và cấu trúc trình tự, nhờ đó có
thể chuyển một cách hiệu quả các kiến thức về chức năng của tế bào từ các loài
đã được nghiên cứu tốt sang những loài chưa được nghiên cứu nhiều hoặc khó

làm thực nghiệm. Bởi vì việc nghiên cứu thực nghiệm trên con người gặp nhiều
khó khăn bởi các rào cản đạo đức và pháp luật, nhờ dóng hàng mạng mà người
ta có thể chuyển các tri thức đã biết từ nấm men (Saccharomyces cerevisiae),
ruồi giấm (Drosophila melanogaster), hoặc sâu (Caenorhabditis elegans) sang
tri thức của con người dựa trên phát hiện các vùng mạng được bảo tồn [Clark
& Kalita, 2014; Malod-Dognin & Pržulj, 2014; R. Sharan & Ideker, 2006].
21


Luận án này tập trung nghiên cứu hai bài toán thời sự: dóng hàng nhiều
mạng các vị trí liên kết protein và dóng hàng toàn cục hai mạng tương tác
protein-protein (về sau sẽ gọi gọn là mạng tương tác protein).
1.1.2. Bài toán dóng hàng nhiều mạng các vị trí liên kết protein.
Suy diễn chức năng của các protein chưa biết thông qua các protein đã
biết giữ vai trò quan trọng trong lĩnh vực khoa học sự sống nói chung và lĩnh
vực hóa dược nói riêng [Borrel, 2016; W. Yang & Lai, 2017; Yuan, Xu, Yuan,
& Xu, 2018]. Trong đó, so sánh các protein giữ vai trò trung tâm.
Dự đoán chức năng của các protein có thể thực hiện được ở cả mức chuỗi
và mức độ cấu trúc. Nhận thấy rằng các protein với sự giống nhau của chuỗi
amino axit trên 40% thường có các chức năng tương tự [Todd, Orengo, &
Thornton, 2001] nên so sánh theo trình tự thường là phương pháp đầu tiên được
sử dụng. Nhiều phương pháp tiếp cận khác nhau được giới thiệu và sử dụng
rộng rãi [Altschul et al., 1997; Edgar, 2004; Notredame, Higgins, & Heringa,
2000; Sjolander, 2004; Thompson, Higgins, & Gibson, 1994]. Tuy nhiên,
phương pháp này không phù hợp để xác định sự tương đồng chức năng giữa
các phân tử bởi vì sự tương đồng chức năng có liên quan mật thiết với các đặc
tính cấu trúc hơn là các đặc tính tuần tự [Aladag & Erten, 2013; CONTE,
FOGGIA, SANSONE, & VENTO, 2004; Notredame et al., 2000; Yan, Yu, &
Han, 2005].
Để phân tích cấu trúc của các protein, một số tác giả [Aladag & Erten,

2013; CONTE et al., 2004; Kinoshita & Nakamura, 2005; Oleksii Kuchaiev &
Pržulj, 2011; Mernberger, Klebe, & Hullermeier, 2011; Xifeng Yan, Feida Zhu,
Jiawei Han, & Yu, 2006; Yan et al., 2005; S. Zhang, Hu, & Yang, 2007] đề
xuất sử dụng mô hình đồ thị để biểu diễn cấu trúc 3 chiều của protein.

22


1.1.2.1. Mô hình hóa mạng các vị trí liên kết protein thành đồ thị
Để nghiên cứu cấu trúc của các protein, bước đầu tiên là cần biểu diễn
cấu trúc của các protein theo mô hình đồ thị. Các nghiên cứu [Fober,
Mernberger, Klebe, & Hüllermeier, 2009; Weskamp, Hüllermeier, Kuhn, &
Klebe, 2007] được thực hiện trên cơ sở dữ liệu Cavbase [Schmitt, Kuhn, &
Klebe, 2002] – một hệ thống cơ sở dữ liệu sử dụng thuật toán LIGSITE
[Hendlich, Rippmann, & Barnickel, 1997] để tự động phát hiện, trích xuất và
lưu trữ các khoang protein (các túi liên kết – binding pockets) từ các cấu trúc
protein được xác định qua thực nghiệm (có sẵn từ ngân hàng dữ liệu protein
[Berman et al., 2002]). Trong cơ sở dữ liệu này, các túi liên kết được biểu diễn
xấp xỉ bằng các đồ thị [Hendlich, Bergner, Günther, & Klebe, 2003; Schmitt et
al., 2002].
Để mô hình hóa một túi liên kết thành 1 đồ thị, sự sắp xếp trong không
gian và các thuộc tính lý hóa của một túi liên kết được gọi là tâm giả
(pseudocenter)- các điểm trong không gian biểu thị cho tâm của một đặc trưng
riêng [Weskamp et al., 2007]. Kiểu và vị trí không gian của các tâm phụ thuộc
vào các amino axit được bao quanh bởi các túi liên kết và biểu hiện các nhóm
chức năng của chúng. Chúng thu được từ cấu trúc của protein sử dụng một tập
các luật định trước [Schmitt et al., 2002]. Các loại tâm giả bao gồm:
pseudocenters, hydrogenbond donor, acceptor, mixed donor/acceptor,
hydrophobic aliphatic, metal ion, pi.
Một túi liên kết được mô hình hóa bởi đồ thị G(V,E), trong đó V là tập

các đỉnh, E là tập các cạnh. Nhãn của các đỉnh thuộc một tập L = {A, B, C, D,
E, F, G}, trong đó A đại diện cho donor, B đại diện cho acceptor, v.v. Hai đỉnh
được xem như có kết nối với nhau và được biểu diễn bởi 1 cạnh trong đồ thị G

23


Xem Thêm

×