Tải bản đầy đủ (.pdf) (72 trang)

Ứng dụng thuật toán adaboost và hog vào hệ thống trợ lái thông minh adas để phát hiện, phân loại các phương tiện chuyển động

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (1.97 MB, 72 trang )

...
i

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG

NGUYỄN THỊ MAI

ỨNG DỤNG THUẬT TỐN ADABOOST VÀ HOG VÀO HỆ THỐNG TRỢ LÁI
THÔNG MINH ADAS ĐỂ PHÁT HIỆN, PHÂN LOẠI
CÁC PHƯƠNG TIỆN CHUYỂN ĐỘNG

Luận văn thạc sỹ kỹ thuật điều khiển tự động hóa

Thái Nguyên - 2020


ii

ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THƠNG

NGUYỄN THỊ MAI

ỨNG DỤNG THUẬT TỐN ADABOOST VÀ HOG VÀO HỆ THỐNG TRỢ LÁI
THÔNG MINH ADAS ĐỂ PHÁT HIỆN, PHÂN LOẠI
CÁC PHƯƠNG TIỆN CHUYỂN ĐỘNG

Ngành: Kỹ thuật điều khiển và tự động hóa
Mã số: 852 02 16


Luận văn thạc sỹ kỹ thuật điều khiển tự động hóa
Người hướng dẫn khoa học

TS. Lê Hùng Linh

Thái Nguyên - 2020


iii

LỜI CAM ĐOAN
Họ và tên: Nguyễn Thị Mai
Năm sinh: Ngày 09 tháng 06 năm 1992
Học viên lớp CĐK17A – KTĐK&TĐH,Trường Đại học Công nghệ
thông tin và Truyền thông - Đại học Thái Ngun.
Tơi xin cam đoan đây là cơng trình nghiên cứu của riêng tôi. Các số
liệu nêu trong luận văn là trung thực. Những kết luận trong luận văn chưa
từng được cơng bố trong bất kỳ cơng trình nào. Mọi thơng tin trích dẫn trong
luận văn đều chỉ rõ nguồn gốc.
Tác giả luận văn

Nguyễn Thị Mai


ii

LỜI CẢM ƠN
Tơi xin trân trọng bày tỏ lịng biết ơn sâu sắc đến thầy giáo TS Lê Hùng
Linh - người đã hướng dẫn, tận tình giúp đỡ tơi hồn thành luận văn thạc sĩ
này.

Tôi xin chân thành cảm ơn các thầy cơ giáo ở Khoa cơng nghệ tự động
hóa trường Đại học Công nghệ Thông tin và Truyền thông Thái Nguyên đã
đóng góp nhiều ý kiến và tạo điều kiện thuận lợi cho tơi hồn thành luận văn.
Tơi xin chân thành cảm ơn Ban giám hiệu, các Khoa, Phòng chức năng
trường Đại học Công nghệ Thông tin và Truyền thông Thái Nguyên đã tạo
những điều kiện thuận lợi nhất về mọi mặt để tơi hồn thành khóa học!
Tác giả luận văn

Nguyễn Thị Mai


iii

MỤC LỤC
LỜI CAM ĐOAN ........................................................................................................ i
MỤC LỤC ...................................................................................................................ii
DANH SÁCH HÌNH VẼ ............................................................................................ v
LỜI CẢM ƠN .............................................................................................................ii
LỜI MỞ ĐẦU ............................................................................................................. 1
Chương 1: KHÁI QUÁT CÔNG NGHỆ VÀ HỆ THỐNG TRỢ LÁI THÔNG
MINH .......................................................................................................................... 3
1.1 TỔNG QUAN VỀ HỆ THỐNG TRỢ LÁI THÔNG MINH ........................................... 3
1.2 HỆ THỐNG PHÁT HIỆN VÀ PHÂN LOẠI CÁC PHƯƠNG TIỆN DI ĐỘNG ........... 6
1.2.1 Phương pháp phát hiện dựa trên hình dạng .......................................................... 7
1.2.2 Phương pháp phát hiện dựa trên máy học ............................................................. 9
1.3 NGUYÊN TẮC THU THẬP VÀ XỬ LÝ DỮ LIỆU CỦA HỆ THỐNG ADAS ........... 9
1.3.1 Thuật toán học tập dựa trên AdaBoost ............................................................... 11
1.3.2 Tính năng Haar-Like ........................................................................................... 12
1.3.3 Cấu trúc tầng để phát hiện nhanh đối tượng ....................................................... 13
1.3.4 Luồng phát hiện .................................................................................................. 13

1.4 KẾT LUẬN CHƯƠNG 1 .............................................................................................. 15

Chương 2: ĐỀ XUẤT MƠ HÌNH TRỢ LÁI THƠNG MINH ................................. 16
2.1 NGUYÊN TẮC KIỂM SOÁT DỮ LIỆU CỦA HỆ THỐNG ....................................... 16
2.2 PHẦN MỀM CHO HỆ THỐNG TRỢ LÁI THÔNG MINH ........................................ 17
2.2.1 Tổng quan về visual studio 2010 ........................................................................ 17
2.2.2. Tổng quan về phần mềm mơ phịng OpenCV ................................................... 20
2.3. THUẬT TỐN ADABOOST VÀ HOG...................................................................... 28
2.3.1. Thuật tốn AdaBoost ......................................................................................... 28
2.3.2 Thuật tốn HOG.................................................................................................. 38
2.4. MƠ HÌNH HỆ THỐNG TRỢ LÁI THÔNG MINH ĐƯỢC ĐỀ XUẤT ..................... 48


iv

2.5. KẾT LUẬN CHƯƠNG 2 ............................................................................................. 53

Chương 3: ĐÁNH GIÁ HIỆU SUẤT VÀ SO SÁNH .............................................. 54
3.1. YÊU CẦU CỦA HỆ THỐNG VÀ CẤU TRÚC CHƯƠNG TRÌNH ........................... 54
3.2. NGUYÊN TẮC VẬN HÀNH, THỬ NGHIỆM VÀ ĐÁNH GIÁ HỆ THỐNG .......... 54
3.3. CÁC KẾT QUẢ THỬ NGHIỆM ................................................................................. 57
3.4. HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI ........................................................................ 61
3.5. KẾT LUẬN CHƯƠNG 3 ............................................................................................. 62

KẾT LUẬN VẦ KIÊN NGHỊ................................................................................... 63
TÀI LIỆU THAM KHẢO ......................................................................................... 64


v


DANH SÁCH HÌNH VẼ
Hình 1.1. Tầm nhìn của một ơ tơ đang di chuyển trên đường ...................................3
Hình 1.2. Hệ thống camera lắp ở đầu xe .....................................................................4
Hình 1.3. Hệ thống cảnh báo mất tập trung ................................................................5
Hình 1.4. Các vị trí của một đề cử điểm ảnh cho tâm đối tượng [6] ..........................7
Hình 1.5. Nhân các góc gradient của một tam giác với 3 [6] .....................................8
Hình 1.6. Ví dụ về các tính năng Haar-like. Những tính năng đơn giản này tương tự
như Chức năng cơ sở Haar ........................................................................................11
Hình 1.7. Vùng xác định trong điểm ảnh gốc ...........................................................12
Hình 1.8. Cấu trúc tầng của hệ thống ........................................................................13
Hình 1.9. Bước nhảy của quá trình phát hiện vật [7] ................................................14
Hình 2.1. Cấu trúc Visual Studio 2010 .....................................................................17
Hình 2.2. Thiết lập cấu hình ......................................................................................18
Hình 2.3. Quá trình phát triển của OpenCV ............................................................21
Hình 2.4. Cấu trúc cơ sở của OpenCV ....................................................................22
Hình 2.5. Boosting ....................................................................................................30
Hình 2.6. Các khái niệm cơ bản được sử dụng trong phát hiện đối tượng AdaBoost
[8] ..............................................................................................................................33
Hình 2.7. Sơ lược về quy trình phân loại dựa trên AdaBoost

[9] ..........................36

Hình 2.8. Các giai đoạn của thuật tốn [9]................................................................37
Hình 2.9. Ảnh input và hai đạo hàm của nó. .............................................................39
Hình 2.10. Tổng quan về các bước trừ nền ...............................................................43
Hình 2.11. Hình nền được tạo ra từ ảnh gốc .............................................................48


vi


Hình 2.12. Một ví dụ minh họa của bộ mơ tả HOG ..................................................49
Hình 2.13. Cấu trúc tầng của các giai đoạn phân loại ...............................................50
Hình 2.14. Bốn đặc trưng Haar-like. .........................................................................51
Hình 2.15. Tính tốn tổng các điểm ảnh bên trong hình chữ nhật D ........................52
Hình 3.1. Các mẫu đào tạo dương và âm trong tập dữ liệu đào tạo ..........................55
Hình 3.2. Kỹ thuật ROI được đề xuất trong đề tài ....................................................56
Hình 3.3. Các kết quả được phát hiện bởi thuật toán đề xuất ...................................59
Hình 3.4. So sánh hiệu suất của phương pháp đề xuất và phương pháp khác ..........60


1

LỜI MỞ ĐẦU
Xử lý ảnh bao gồm lý thuyết và các kỹ thuật liên quan nhằm mục đích
tạo ra một hệ thống nhân tạo có thể tiếp nhận thơng tin từ các hình ảnh thu
được hoặc các tập dữ liệu đa chiều. Đối với mỗi người chúng ta, quá trình
nhận thức bên ngồi là một điều dễ dàng, q trình nhận thức đó được học
thơng qua q trình sống của mỗi người. Tuy nhiên với các vật vô tri vô giác
như máy tính, robot… thì điều đó quả thật là một bước tiến gian nan. Các
thiết bị ngày nay không chỉ nhận thơng tin ở dạng tín hiệu đơn lẻ mà cịn có
thể có cái nhìn thật với thế giới bên ngồi. Cái nhìn này qua q trình phân
tích, kết hợp với các mơ hình như máy học, mạng noron… sẽ giúp cho thiết bị
tiến dần tới một hệ thống nhân tạo có khả năng quyết định linh hoạt và đúng
đắn hơn rất nhiều. OpenCV là thư viện mã nguồn mở về xử lí ảnh của Intel nó
đáp ứng đầy đủ các yêu cầu đó của lĩnh vực xử lý ảnh.
Trên thế giới lĩnh vực công nghiệp, nghiên cứu đã ứng dụng xử lý ảnh
phát triển vô cùng mạnh mẽ và có được những bước tiến kinh ngạc. Ở Việt
Nam lĩnh vực này đang rất phát triển, tuy nhiên việc sử dụng xử lý ảnh trong
cơng nghiệp cịn rất mới mẻ và non yếu do thiếu thiết bị hỗ trợ, tài liệu nghiên
cứu. Vì vậy đây sẽ là một hướng phát triển mới đầy hứa hẹn và cũng khơng ít

thách thức. Với mong muốn tham gia vào lĩnh vực còn mới này và góp phần
vào sự phát triển xử lý ảnh ở Việt Nam, tôi thực hiện đề tài “ Ứng dụng
thuật toán ADABOOST và HOG vào hệ thống trợ lái thông minh ADAS
để phát hiện, phân loại các phương tiện chuyển động”.


2

NỘI DUNG
LUẬN VĂN ĐƯỢC CHIA LÀM 3 CHƯƠNG
Chương 1. Khái quát công nghệ và hệ thống trợ lái thông minh.
Chương 2. Đề xuất phương án trợ lái thông minh.
Chương 3. Đánh giá hiệu suất và so sánh.
Với thời gian và kiến thức có hạn, luận văn khơng thể tránh khỏi sai
sót. Rất mong được sự góp ý của các thầy cô, bạn bè và đồng nghiệp.
Tôi xin chân thành cảm ơn!
Thái Nguyên, ngày tháng năm 2020
Tác giả luận văn

Nguyễn Thị Mai


3

Chương 1: KHÁI QUÁT CÔNG NGHỆ VÀ HỆ THỐNG TRỢ LÁI
THÔNG MINH
1.1 TỔNG QUAN VỀ HỆ THỐNG TRỢ LÁI THÔNG MINH
Nhạy bén ở mọi giác quan:
Tránh tai nạn và giảm thiểu hậu quả tai nạn: đây là phương pháp tiếp cận tích
hợp được sử dụng trong nghiên cứu tai nạn của Mercedes-Benz dưới khẩu hiệu

"Cuộc sống thực sự an toàn". Theo thuật ngữ chung "Lái xe thông minh",
Mercedes-Benz theo đuổi chiến lược này một cách hệ thống với nhiều hệ thống hỗ
trợ mới, tính năng tăng cường và hệ thống bảo vệ sáng tạo. Hệ thống lái thông minh
Mercedes-Benz biến chiếc xe hơi của bạn thành một "bạn đồng hành thơng minh":
xe có thể phát hiện hầu hết các nguy hiểm và hỗ trợ thơng qua cảnh báo bằng hình
ảnh, âm thanh hoặc xúc giác, đồng thời có thể thúc đấy phản ứng của lái xe. Một số
hệ thống thậm chí đưa ra hành động khắc phục trong trường hợp khẩn cấp như tự
động phanh để tránh tai nạn hoặc giảm nhẹ độ nghiêm trọng - do đó lái xe có thể thả
lỏng và thoải mái hơn. Tổ hợp các cảm biến và hệ thống thông minh và tân tiến này
là một dấu mốc quan trọng để lái xe tự động và khơng tai nạn.

Hình 1.1. Tầm nhìn của một ô tô đang di chuyển trên đường


4

Mạng lưới thông minh:
Các chức năng mới đều dựa trên hệ thống cảm biến hiện có, bao gồm một
stereo camera mới và cảm biến ra-đa nhiều bậc. Chúng đóng vai trị là đơi mắt và
đơi tai của xe. Với stereo camera đa năng (SMPC) mới, camera stereo dành cho
công nghệ "Vision 6D" và tầm ngắn, phạm vi quan sát của chiếc xe được tăng lên
rất nhiều. Camera cung cấp thông tin về khơng gian phía trước xe tối đa 50 mét và
ghi nhận mơi trường 500 mét phía trước. Các xe đang lái phía trước, phương tiện
đang đến và đi ngang qua, người đi bộ cũng như các biển báo giao thông và dải
phân cách đều được phát hiện và xử lý. Các dữ liệu từ các cảm biến ra-đa tầm ngắn
được định vị xung quanh xe cũng như từ các cảm biến ra-đa tầm xa với khả năng
phát hiện tầm trung cung cấp thông tin về khoảng cách từ đối tượng phát hiện. Các
thông tin từ hệ thống camera và ra-đa được biên soạn trong bộ thiết bị điều khiển,
tại đó thơng tin được kết hợp với nhau một cách thông minh. "Tổ hợp cảm biến"
này cho phép phối hợp hiệu quả cơng nghệ an tồn chủ động và thụ động trên xe.


Hình 1.2. Hệ thống camera lắp ở đầu xe


5

Hệ thống tư duy tương lai:
Dưới đây là một tổng quan về các hệ thống hỗ trợ mới có chức năng đã cải
thiện đáng kể giúp giảm bớt áp lực cho lái xe khi xe đang ở trong đường và hệ
thống có thể tự động một phần đi theo xe các xe trước, dừng xe và lưu thông. Nhờ
camera quan sát, hệ thống hỗ trợ phanh kết hợp với tính năng dự đốn va chạm khi
có phương tiện băng qua đường giúp phát hiện phương tiện giao thông và người đi
bộ băng qua đường cũng như cảnh báo lái xe phanh xe. Nếu các vạch dấu làn đường
là nét đứt, hỗ trợ duy trì làn đường có thể phát hiện khi làn đường liền kề có xe, đặc
biệt có phương tiện đang đi tới, và giảm nguy cơ xe vô ý lấn khỏi làn đường bằng
cách áp dụng hệ thống phanh ở một bên. Hệ thống hỗ trợ đèn pha chủ động cho
phép đèn pha chùm chính chiếu sáng liên tục mà khơng gây chói cho người tham
gia giao thơng khác. Với sự hỗ trợ của một camera ảnh nhiệt, hệ thống hỗ trợ quan
sát ban đêm có thể cảnh báo cho lái xe những nguy hiểm tiềm ẩn từ người đi bộ
hoặc động vật ở các khu vực không có ánh sáng. Hệ thống cảnh báo mất tập trung
bây giờ có thể cảnh báo lái xe khi khơng tập trung và buồn ngủ trên một phạm vi
tốc độ mở rộng.

Hình 1.3. Hệ thống cảnh báo mất tập trung


6

1.2 HỆ THỐNG PHÁT HIỆN VÀ PHÂN LOẠI CÁC PHƯƠNG TIỆN DI
ĐỘNG

Phân loại ảnh là một bài toán đã và đang thu hút được sự quan tâm của các
nhà nghiên cứu và phát triển, được ứng dụng rộng rãi nhiều ứng dụng hữu ích như:
tìm kiếm ảnh, nhận dạng, theo dõi và phát hiện đối tượng... Trong giám sát đối
tượng chuyển động từ video chẳng hạn như giám sát phương tiện giao thơng, thì
phân loại ảnh là bài tốn kế tiếp sau bài toán phát hiện đối tượng chuyển động. Cách
tiếp cận phổ biến của bài toán phân loại ảnh là đối sánh ảnh, tức là tìm ra những
vùng giống nhau trên hai ảnh dựa trên những điểm đặc trưng. Khi đó bài tốn đối
sánh ảnh sẽ quy về bài tốn so sánh các đặc trưng trích chọn. Các đặc trưng cho
phép biểu diễn ảnh đã được nghiên cứu bao gồm đường biên vùng ảnh, điểm ảnh
đặc trưng, lược đồ xám,...
Có hai vấn đề cơ bản thường đặt ra trong bài tốn đối sánh ảnh:
Một là, làm sao có thể biểu diễn thông tin một cách hiệu quả nhằm thực hiện
việc đối sánh hai ảnh nhanh nhất có thể;
Hai là, làm thế nào để giải pháp đối sánh vẫn hoạt động hiệu quả khi có sự
thay đổi của mơi trường: nhiễu trong quá trình thu nhận ảnh, sự thay đổi về ánh
sáng, sự che khuất,...
Các phương pháp đối sánh ảnh dựa trên đối sánh các điểm đặc trưng được đề
xuất rất nhiều và đạt được sự thành công đáng kể. Tuy nhiên để đạt được một độ
chính xác nhất định, các phương pháp này đều đòi hỏi rất nhiều thời gian tính tốn.
Trong những ứng dụng thời gian thực như giám sát giao thông tự động, việc đưa ra
một phương pháp đối sánh ảnh thực hiện trong thời gian thực là một cơng việc cần
thiết.
Đề tài nghiên cứu này trình bày và giới thiệu một phương pháp tiếp cận phân
loại mạnh mẽ đối với ô tô và xe máy trong ảnh giao thơng. Đóng góp cơ bản trong
bài tốn này là đề xuất một phương pháp phát hiện và phân loại các phương tiện di


7

động cho hệ thống trợ lái thông minh áp dụng cho việc nhận dạng và phân loại đối

tượng.
1.2.1 Phương pháp phát hiện dựa trên hình dạng
Phát hiện biển báo giao thơng dựa trên hình dạng có nhiều cách tiếp cận đã
được công bố trong nhiều tài liệu hiện nay. Tuy nhiên có lẽ phương pháp dựa trên
hình dạng phổ biến nhất là sử dụng phép biến đổi Hough.
Phép biến đổi Hough là một kĩ thuật dùng để xác định một hình dạng ngẫu
nhiên trong ảnh. Ý tưởng cơ bản là sử dụng một cạnh của ảnh, mỗi điểm ảnh của
cạnh ảnh có khả năng là tâm của đối tượng nếu như điểm ảnh đó nằm trên biên. Kĩ
thuật này sớm ra đời trong lịch sử thị giác máy tính (computer vision). Nó đã được
mở rộng và thay đổi nhiều lần với nhiều biến thể khác nhau. Ở đây chúng ta chỉ
trình bày về nghiên cứu của Loy và Barnes, và nó được x là phương pháp hiệu quả
cho việc nhận dạng biển báo giao thông. Loy và Barnes đã đề xuất bộ phát hiện đa
giác đều tổng quát và chỉ sử dụng nó để phát hiện biển báo giao thơng. Bộ phát hiện
dựa trên phép biến đổi đối xứng xuyên tâm, về mặt tổng quan nó tương tự như phép
biến đổi Hough. Đầu tiên ta tính đạo hàm cấp một của ảnh từ ảnh gốc. Ảnh đạo hàm
cấp một sau đó được phân ngưỡng để cho các điểm có biên độ thấp bị loại bỏ. Các
điểm ảnh cịn lại có khả năng là vị trí của tâm đa giác đều. Một điểm ảnh đóng vai
trị là điểm có khả năng được chọn trên nhiều vị trí được phân bổ dọc theo đường
trực giao với đạo hàm cấp một của điểm ảnh và có khoảng cách đến các điểm ảnh là
tương đương với các bán kính của đa giác đều (X hình 1.4). Lưu ý rằng thật sự có
tới hai đường thẳng có thể thỏa mãn yêu cầu này, một là cùng hướng với đạo hàm
và một là theo hướng ngược lại. Cả hai đều có thể sử dụng nếu chúng ta không thể
biết trước liệu biển báo này sáng hơn hay tối hơn so với quang cảnh nền.

Hình 1.4. Các vị trí của một đề cử điểm ảnh cho tâm đối tượng [6]


8

Chiều dài của đường biểu quyết được bao bởi bán kính của đa giác đều. Các

điểm ảnh được chọn ở cuối đường thẳng có trọng số tiêu cực, để tối thiểu hóa ảnh
hưởng của các đường thẳng trong ảnh mà dài quá để có thể x như là một cạnh của
đa giác. Kết quả ảnh đề cử được gán nhãn là

.

Ngoài ảnh đề cử ra, một ảnh khác được gọi là ảnh đẳng giác được tạo. Thủ
tục được đề xuất như sau: Nếu góc đạo hàm của các điểm ảnh trên cạnh của một đa
giác đều

mặt

–sided) được nhân với , thì kết quả các góc sẽ bằng nhau (X hình

1.5). Ví dụ, xét một tam giác đẳng giác và thử một giá trị góc đạo hàm tại mỗi bên.
Giả sử chúng ta có được các giá trị đạo hàm của 730, 1930, và 3130. Các đạo hàm
được cách nhau một khoảng

= 1200. Sau đó 730 x 3 = 2190 và 1930 x 3 = 5790,

5790 – 3600 = 2190. Tương tự như vậy 3130 x 3 = 9390, 9390 – 2 x 3600 = 2190. Với
từng điểm ảnh được chọn là tâm của đa giác, một vector đơn vị được tạo ra. Độ dốc
(slope) của vector đơn vị được cho bằng với góc đạo hàm của điểm ảnh nhân với số
mặt của đa gia đều. Các điểm ảnh sau đó một lần nữa được chọn trên những vị trí
được mơ tả bằng một đường thẳng đề cử, ngoại trừ đề cử mang dạng của một vector
đơn vị. Các điểm được chọn được biểu diễn trong một ảnh mới gọi là ảnh đẳng giác.
Từng điểm trong ảnh đại diện cho một vector là tổng của các điểm được chọn đóng
góp. Các điểm được chọn từ các cạnh của đa giác đẳng giác sẽ có cùng độ dốc
(slope), do đó độ lớn của các vector được chọn trong trọng tâm đa giác đẳng giác sẽ
là lớn nhất.


Hình 1.5. Nhân các góc gradient của một tam giác với 3 [6]

Kết quả các góc sẽ bằng nhau.
Cuối cùng, ảnh đề cử và định mức của ảnh đẳng giác được kết hợp để tạo ra
đáp ứng tổng thể. Độ phức tạp của phương thức này là O(Nkl,) trong đó l là độ dài


9

cực đại của đường thẳng được chọn, N là số lượng điểm ảnh có trong ảnh và k là số
lượng bán kính đang được x xét.
Khuyết điểm chính của hướng tiếp cận này là bán kính của đa giác phải được
biết trước, và đây không bao giờ là điều dễ thực hiện. Ở đây có thể được giải quyết
bằng cách thử nhiều bán kính nhưng nó tiêu tốn q nhiều thời gian xử lý.
1.2.2 Phương pháp phát hiện dựa trên máy học
Với phương pháp tiếp cận dựa trên hình dạng thì để giải quyết bài tốn phải
tự giải quyết bằng tay. Tuy nhiên, với kiến thức này cũng có thể được phát hiện
bằng cách dùng máy học.
Nghiên cứu của Viola và Jones là một cột mốc quan trong trong lĩnh vực thị
giác máy tính. Viola và Jones đã phát triển một thuật tốn có khả năng xác định một
đối tượng trong thời gian thực. Bộ phát hiện được huấn luyện bằng cách sử dụng
một tập các mẫu tích cực và tiêu cực chứa các mẫu dương và mẫu âm. Nghiên cứu
gốc chỉ dành cho việc phát hiện khuôn mặt, tuy nhiên nhiều nhà nghiên cứu khác
cũng đã ứng dụng thành công bộ phát hiện cho nhiều đối tượng khác. Trong số đó,
nhiều phương tiện cũng như các biển báo giao thông cũng được phát hiện thành
công.
Bộ phát hiện của Viola và Jones kết hợp giữa hai khái niệm Adaboost và bộ
phân lớp Haar-like.
1.3 NGUYÊN TẮC THU THẬP VÀ XỬ LÝ DỮ LIỆU CỦA HỆ THỐNG

ADAS
Phát hiện vật thể, thường được sử dụng như một bước trong các hệ thống
nhận diện mặt người đi bộ, là một thách thức gần đây trong lĩnh vực thị giác máy
tính. Lược đồ phát hiện đối tượng được đề xuất bởi Viola và Jones, một trong
những thuật toán dựa trên AdaBoost được sử dụng rộng rãi nhất, đạt được tỷ lệ phát
hiện cao và nhanh chóng phát triển. Khung phát hiện của họ sử dụng khơng chỉ cho
khn mặt, mà cịn cho cả người đi bộ và các phương tiện đang di chuyển.


10

Để đạt được các hệ thống thực tế để nhận dạng hình ảnh, thời gian thực xử lý
là khơng thể thiếu, và một số phương pháp nhanh để phát hiện đối tượng đã được đề
xuất để đạt được xử lý như vậy. Ví dụ, thư viện Computer Vision của Intel Open
source (OpenCV), cung cấp nhiều chức năng tiện lợi cho các thuật tốn xử lý hình
ảnh phổ biến và các thuật tốn thị giác máy tính trên các hệ thống dựa trên PC, có
thể xử lý nhanh chóng với các chức năng được tối ưu hóa cao cho CPU. Vì có giới
hạn về cách xử lý nhiều có thể được tăng tốc với một bộ xử lý đơn lẻ, những tiến bộ
hơn nữa phải đạt được thông qua việc thực hiện trên các hệ thống tính tốn song
song, chẳng hạn như bộ xử lý đa nhân hoặc đa lõi bộ vi xử lý.
Mặt khác, xử lý nhận dạng hình ảnh theo thời gian thực là bắt buộc đối với
các hệ thống nhúng, ví dụ: ơ tơ, hệ thống bảo mật và thiết bị di động. Để sử dụng
trong các hệ thống nhúng, chúng ta phải xử lý được thời gian thực trong hệ thống.
Tuy nhiên, các phương pháp được mô tả ở trên khơng phù hợp với mục đích này vì
chúng địi hỏi tiêu thụ điện năng cao hoặc trong các hệ thống lớn.
Một số ví dụ về phần cứng chuyên dùng cho phát hiện đối tượng đã được đề
xuất. Tuy nhiên, khơng có cơng việc nào khai thác hiệu quả tính song song của
thuật tốn phát hiện đối tượng đạt được tỷ lệ phát hiện cao và xử lý nhanh. Trong đó
để phát triển một hệ thống nhúng hiệu quả, có hai tính năng quan trọng. Đầu tiên là
phân tích thuật tốn phát hiện chi tiết. Chúng ta phải chọn thuật toán phù hợp nhất

để thực hiện dựa trên phần cứng đã phân tích như vậy. Vì hiệu suất cần thiết và hạn
chế của các nguồn lực rất khác nhau tùy thuộc vào hệ thống ta muốn tạo ra, một
thiết kế kiến trúc duy nhất không đủ.
Đề xuất phát hiện đối tượng nhanh và mạnh mẽ bằng cách sử dụng một biến
thể của thuật toán AdaBoost cho cả hai chọn các tính năng và đào tạo trình phân
loại. Trong kế hoạch của Viola và Jone, phương pháp trích xuất tính năng được gọi
là “tính năng Haar-like” được sử dụng đối với các bộ phân loại yếu và cấu trúc tầng
của một trình phân loại được giới thiệu để đạt được phát hiện nhanh chóng. Chi tiết
của từng phương pháp được mô tả như sau.


11

1.3.1 Thuật toán học tập dựa trên AdaBoost
Để phát hiện đối tượng từ một hình ảnh đầu vào, cần phải phân loại để xác
định x khu vực nào là đối tượng mục tiêu. Một chức năng phân loại có thể đạt được
bằng phương pháp máy học, sử dụng một số lượng lớn các hình ảnh để đào tạo phân
loại. Một số đề án đã được đề xuất để đạt được chức năng phân loại theo máy học.
Ví dụ, Sung và Poggio sử dụng hỗn hợp các mơ hình. Gaussian cùng Rowley và
cộng sự đã sử dụng một tập hợp nhỏ các tính năng hình ảnh đơn giản và mạng thần
kinh. Osuna et al đã sử dụng máy vectơ hỗ trợ. Yang và các cộng sự đề xuất một
hình ảnh đại diện ban đầu và sử dụng phương pháp học tập Winnow.
Mặt khác, Viola và Jones đã sử dụng thuật toán AdaBoost, là một trong
những máy học được đề xuất. Vì phát hiện đối tượng đòi hỏi một số lượng lớn phân
loại khu vực mục tiêu, yêu cầu cho mỗi khu vực phải nhỏ.

Hình 1.6. Ví dụ về các tính năng Haar-like. Những tính năng đơn giản này tương tự như
Chức năng cơ sở Haar

Thuật tốn dựa trên AdaBoost có thể đạt được phân loại chính xác với ít chi

phí tính tốn nếu các tính năng đầy đủ được chấp nhận.


12

Thuật toán học AdaBoost được sử dụng để tăng hiệu suất phân loại của một
thuật toán học tập đơn giản. Với thuật tốn này, một trình phân loại cao được xây
dựng bằng cách kết hợp nhiều phân loại yếu. Trình phân loại cao được biểu diễn
dưới dạng tuyến tính kết hợp các kết quả có trọng số của các phân loại yếu này và
trọng số cho các phân loại yếu được đào tạo với nhiều hình ảnh ở các hình dạng
khác nhau.
1.3.2 Tính năng Haar-Like
Đối với các bộ phân loại yếu trong thuật toán AdaBoost, Viola và Jones sử
dụng các tính năng Haar-like, có thể phát hiện một cạnh hoặc một đường thẳng và
giống với hàm cơ sở Haar. Các ví dụ được thể hiện trong hình 1.6. Các tính năng
Haar-like thu được từ hình ảnh đầu vào bằng các thao tác sau. Đầu tiên, tổng các giá
trị pixel trong màu trắng và bên trong các vùng màu đen trong hình 1.6 được tính
tốn, và sau đó là sự khác biệt của các trọng số trong các khu vực này được tính
tốn. Nếu sự khác biệt vượt q ngưỡng được xác định trước, bộ phân loại yếu phát
hiện, có nghĩa là một tính năng cạnh tồn tại. Nếu khơng, bộ phân loại đầu ra của
trình phân loại sai. Bằng cách kết hợp các bộ phân loại yếu này, để tăng mạnh phân
loại có thể phát hiện các đối tượng phức tạp hơn. Tính tốn tổng các giá trị pixel
trong màu trắng và hình chữ nhật màu đen được tăng tốc bằng cách sử dụng hình
ảnh tích phân.
Các hình ảnh tích phân tại vị trí chứa tổng của pixel trong vùng được xác
định bởi một điểm gốc và điểm (x hình 1.7)

Hình 1.7. Vùng xác định trong điểm ảnh gốc



13

1.3.3 Cấu trúc tầng để phát hiện nhanh đối tượng
Để đạt được phát hiện nhanh đối tượng, Viola và Jones đã đề xuất một cấu
trúc xếp tầng của một trình phân loại là một chuỗi các bộ phân lớp giai đoạn. Mặc
dù phân loại chính xác là khó khăn và địi hỏi một số lượng lớn của các trình phân
loại yếu, ngoại trừ các vùng phủ định rõ ràng có thể đạt được với một vài phân loại
đơn giản hơn. Cách tiếp cận khai thác thực tế này và đặt các trình phân loại đơn
giản hơn từ chối hiệu quả phần lớn các cửa sổ phụ trước khi các bộ phân loại phức
tạp thực hiện phân loại chính xác. Các cấu trúc tầng được thể hiện trong hình 1.8
của một số trình phân loại giai đoạn, bao gồm các trình phân loại yếu. Các cửa sổ
phụ được đánh giá tuần tự bởi các bộ phân loại giai đoạn và quy trình tiếp theo chỉ
được gọi nếu giai đoạn ban đầu trả về tích cực. Cấu trúc tầng này giảm đáng kể thời
gian xử lý vì trình phân loại được đào tạo để nhanh chóng từ chối các cửa sổ phụ
khơng phải đối tượng và chi tiêu nhiều tính tốn hơn trên các vùng giống như đối
tượng đầy hứa hẹn.

Hình 1.8. Cấu trúc tầng của hệ thống

1.3.4 Luồng phát hiện
Phát hiện được thực hiện trên mỗi hình chữ nhật vùng được gọi là cửa sổ
con, qt tồn bộ hình ảnh đầu vào trong các bước. Ở đây, là yếu tố tỷ lệ của các
cửa sổ phụ và là bước cố định bất kể yếu tố tỷ lệ. Viola và Jones đạt được phát hiện
các đối tượng có kích thước lớn bằng cách mở rộng các cửa sổ phụ. Bước nhảy của
quá trình phát hiện như sau.


14

Bước 1: Tạo ra một hình ảnh tích phân từ một hình ảnh gốc.

Bước 2: Đối với tất cả các cửa sổ phụ trong hình ảnh đầu vào.
Bước 2.1: Bắt đầu với giai đoạn xếp tầng.
Bước 2.2: Đánh giá các bộ phân loại yếu trong giai đoạn như sau:
+, Tính tốn tính năng Haar-like cho từng phân loại yếu bằng cách sử
dụng hình ảnh tích phân.
+ Trả về đúng nếu đối tượng vượt quá ngưỡng đối tượng địa lý hoặc sai
khác.
Bước 2.3: Nếu tổng trọng số của các bộ phân loại yếu trong giai đoạn
vượt quá ngưỡng, sau đó cập nhật và đi đến 2b. Trong trường hợp của
giai đoạn cuối cùng, đầu ra đúng và đi đến 3. Nếu tổng không vượt quá
ngưỡng, xuất sai và chuyển đến 3.
Bước 3: Thay đổi hệ số tỷ lệ của các cửa sổ phụ, và lặp lại Bước 2.

Hình 1.9. Bước nhảy của quá trình phát hiện vật [7]


15

1.4 KẾT LUẬN CHƯƠNG 1
Chương này trình bày một số phương pháp tiếp cận cơ bản trong việc phát
hiện, nhận dạng vật thể đã được áp dụng trong nhiều đề tài nghiên cứu đồng thời
phân tích nguyên tắc thu thập và xử lý dữ liệu của hệ thống ADAS. Thông qua đó
chọn lựa và xác định những thuật tốn, cơng nghệ phù hợp để xây dựng đề tài.


16

Chương 2: ĐỀ XUẤT MƠ HÌNH TRỢ LÁI THƠNG MINH
2.1 NGUYÊN TẮC KIỂM SOÁT DỮ LIỆU CỦA HỆ THỐNG
Phát hiện đối tượng theo thời gian thực đang trở nên cần thiết với số lượng

lớn các ứng dụng liên quan đến thị giác và hình ảnh máy tính, bảo mật, tin sinh học
và một số lĩnh vực khác. Việc triển khai phần mềm hiện tại của các thuật toán phát
hiện đối tượng là bị hạn chế ở các hình có độ phân giải thấp và dựa vào điều kiện
thuận lợi trong khung hình để đạt được tỷ lệ khung hình phát hiện trong thời gian
thực. Nỗ lực thiết kế kiến trúc phần cứng đã mang lại những kết quả khích lệ, nhưng
chủ yếu hướng đến một ứng dụng duy nhất, nhắm mục tiêu tới các môi trường hoạt
động cụ thể. Do đó, cần có một kiến trúc phần cứng có khả năng phát hiện một số
đối tượng trong các ảnh có độ phân giải cao và có thể được sử dụng trong một số
các tình huống phát hiện đối tượng. Luận văn đề xuất sử dụng một kiến trúc chung,
linh hoạt, phù hợp cho tất cả các phạm vi của các ứng dụng phát hiện đối tượng và
kích thước hình ảnh. Kiến trúc phát hiện và phân loại đối tượng dựa trên thuật toán
AdaBoost, được coi là một trong những thuật tốn phát hiện đối tượng hiệu quả
nhất. Thơng qua việc lập trình, mơ phỏng và thực thi quy mơ lớn, kiến trúc có thể
phát hiện các đối tượng trong các ảnh có độ phân giải cao (lên đến 1024 x 768
pixel) với tốc độ khung hình có thể thay đổi giữa 64–139 khung hình / giây cho các
ứng dụng khác nhau.
Phát hiện đối tượng trong video và hình ảnh là một hoạt động quan trọng
trong một số ứng dụng nhúng, chẳng hạn như ứng dụng xử lý hình ảnh và máy tính,
tin sinh học, an ninh, và trí tuệ nhân tạo. Phát hiện đối tượng liên quan đến trích
xuất thơng tin từ một hình ảnh, xử lý thơng tin và xác định x liệu thông tin chứa một
đối tượng cụ thể và vị trí chính xác của nó trong hình ảnh. Q trình này được tính
tốn chun sâu, và một số ứng dụng đã được thực hiện để thiết kế dựa trên phần
cứng các thuật toán phát hiện đối tượng, đặc biệt là trong ngữ cảnh của các hệ thống
thời gian thực và nhúng. Điều này đặc biệt được nhấn mạnh trong các ứng dụng
quan trọng về an toàn như các hoạt động tìm kiếm và cứu nạn, các ứng dụng y sinh


17

học (như phẫu thuật nội soi), giám sát cơ sở hạ tầng quan trọng và một số ứng dụng

khác. Có một số thuật toán được sử dụng để thực hiện phát hiện đối tượng, mỗi
thuật tốn trong đó có những ưu và nhược điểm riêng. Luận văn này đề đề xuất
thêm một số kỹ thuật mới như ROI, đường cơ sở phát hiện tọa độ của đối tượng
nhằm tăng tốc độ xử lý cho thuật tốn phát hiện AdaBoost. Ngồi ra, để giảm tỷ lệ
phát hiện lỗi trên mỗi khung hình đề tài này đề xuất thêm chiến lược đào tạo cho
thuật toán nhận dạng như là: bổ sung thêm các mẫu dương và âm cùng với các tập
mẫu hiện tại, hiệu chỉnh thay đổi các tầng trong quá trình đào tạo máy học. Mơ hình
được đề xuất trong đề tài này có khả năng phát hiện đối tượng ở tốc độ cao 55
khung hình/giây với tỷ lệ phát hiện là 99.4% và một tỷ lệ cảnh báo lỗi thấp 4.08%.
2.2 PHẦN MỀM CHO HỆ THỐNG TRỢ LÁI THÔNG MINH
2.2.1 Tổng quan về visual studio 2010
2.2.1.1 Giới thiệu visual studio 2010

Hình 2.1. Cấu trúc Visual Studio 2010

Visual Studio là bộ cơng cụ hồn chỉnh cho phép xây dựng cả các ứng dụng cho
máy để bàn lẫn các ứng dụng web doanh nghiệp theo nhóm. Ngồi khả năng xây


×