Tải bản đầy đủ

Phát hiện tin tức giả mạo với deep learning sử dụng mô hinh NLP

MỞ ĐẦU
Với sự phát triển của công nghệ thông tin, mạng Internet đã lan rộng và phủ
sóng toàn cầu. Bên cạnh những lợi ích to lớn mà mạng xã hội mang lại, chúng ta
đang đối mặt với nhiều nguy cơ, thách thức không nhỏ, thậm chí đe dọa đến an
ninh quốc gia và trật tự an toàn xã hội. Trong đó, phải kể đến những ảnh hưởng tiêu
cực từ các thông tin xấu, độc được lan truyền trên mạng xã hội cũng như vấn nạn
tin giả - Fake News. Hệ lụy của việc lan truyền “tin giả” không chỉ dừng lại ở
những cá nhân đơn lẻ, những nhóm người ở từng địa phương nhất định mà còn có
tác động rộng lớn hơn, đe dọa trực tiếp tới an ninh quốc gia.
Tin giả lan tràn như con virus, dịch bệnh gây ra rất nhiều tổn thất không những
với cá nhân mà với cả các tổ chức kinh tế. Như việc tung tin thất thiệt về dịch tả lợn
châu Phi của một tài khoản Facebook khiến dư luận hoang mang, tẩy chay thịt lợn,
ảnh hưởng tới chăn nuôi của người nông dân, khiến nhiều người hoảng loạn, mất
phương hướng trong cuộc sống, hay mất lòng tin vào những chỉ đạo của các cơ
quan quản lý nhà nước. Ngoài những thiệt hại về kinh tế, một trong những hậu quả
nghiêm trọng nhất mà tin giả gây ra là làm suy giảm niềm tin của công chúng vào
truyền thông nói chung và báo chí chủ lưu nói riêng. Tin giả khiến công chúng
không xác định được đâu là những nguồn tin đáng tin cậy để tiếp nhận, luôn ở trạng
thái ngờ vực, tham khảo cả những nguồn tin không chính thống dẫn đến bị nhiễu
loạn.
Từ những lý trên, tác giả đã chọn đề tài “sử dụng deep learning phát hiện tin

tức giả mạo” làm bài kết thúc môn học.


NỘI DUNG
CHƯƠNG I: GIỚI THIỆU CHUNG.
1. Tổng quan.
Vài năm trở lại đây, đặc biệt là từ cuối năm 2016 đến nay, thế giới đề cập
nhiều về tin tức giả, từ định nghĩa, hiện trạng tin tức giả đến các biện pháp ứng phó.
Tuy nhiên, đến nay vẫn chưa có định nghĩa rõ ràng, thống nhất về tin tức giả. Theo
định nghĩa của từ điển Collins, tin tức giả là “những thông tin sai, thường là giật
gân, được phát tán dưới vỏ bọc tin tức. Trong khi đó một số hãng tin tức định
nghĩa, tin tức giả là những tin tức hoặc câu chuyện trên internet không đúng sự thật.
Định nghĩa của từ điển Collins sát nhất với nghĩa của từ “fake news” hiện đang
được đề cập nhiều trên truyền thông trong khi định nghĩa còn lại bao hàm rộng hơn,
ngoài những thông tin sai dưới vỏ bọc tin tức còn có những thông tin, câu chuyện
không đúng sự thật được lan truyền trên internet.
Chiếu theo các định nghĩa kể trên, có thể phân loại tin tức giả thành hai loại:
− Loại thứ nhất là những thông tin hoàn toàn không chính xác (bao gồm
cả những thông tin thông thường và những thông tin được trình bày
giống như một tin báo chí) được cố tình đăng tải, lan truyền vì một mục
đích nào đó;
− Loại thứ hai là những thông tin có thể có một phần sự thật nhưng không
hoàn toàn chính xác do người viết chúng không kiểm chứng toàn bộ sự
thật trước khi đăng tải chia sẻ hoặc có thể họ phóng đại một phần của
câu chuyện đó. Trên thế giới và Việt Nam đều có những trường hợp xảy
ra đối với hai loại tin tức giả này.
Với loại tin tức giả thứ nhất, có thể thấy trường hợp điển hình là trong cuộc
bầu cử Tổng thống Mỹ năm 2016. Đây được xem như là một môi trường gần như
hoàn hảo cho sự nảy nở của tin tức giả. Sự kiện này được thảo luận trên toàn cầu
với nhiều luồng ý kiến tranh luận. Trong một bầu không khí mà người ta chưa bao
giờ biết điều gì có thể xảy ra tiếp theo hoặc có thể tin vào điều gì thì họ sẽ trở nên
dễ tiếp nhận những điều được cường điệu hóa hay xuyên tạc. “Giáo hoàng ủng hộ


Trump”, “Hillary bán vũ khí cho IS”, “Mật vụ FBI tình nghi trong vụ rò rỉ thư điện
tử của bà Hillary Clinton được tìm thấy đã chết” – những tin tức giả này đã được
lan truyền ngay trước thềm bầu cử, thu hút sự chú ý lớn của mọi người, vượt qua cả
những tin tức chính xác được chia sẻ trên mạng xã hội Facebook.
Theo một phân tích của BuzzFeed News, trong ba tháng cuối của chiến dịch
tranh cử Tổng thống Mỹ, các tin tức giả đã thu hút sự tương tác nhiều hơn các tin


tức hàng đầu của các hãng tin lớn như New York Times, Washington Post,
Hufftington Post, NBC News... Trong suốt những tháng quan trọng này, 20 tin tức
giả về bầu cử thu hút được nhiều sự tương tác nhất xuất phát từ các trang tin giả và
các trang blog ủng hộ đảng phái quá khích, thu hút được 8,711 triệu lượt chia sẻ,
phản hồi và bình luận trên Facebook. Trong cùng thời gian đó, 20 tin tức hàng đầu
từ 19 website tin tức lớn thu hút được tổng cộng 7,367 triệu lượt chia sẻ, bày tỏ
cảm xúc và bình luận trên Facebook.
Đặc trưng chung nhất của những tin tức giả kiểu này là chúng thường xuất
phát từ những sự kiện, hiện tượng nóng, gây tranh cãi trong đời sống thực. Những
sự kiện nào càng nóng, càng gây tranh cãi thì càng là đề tài béo bở cho tin tức giả
phát tác từ đó. Chẳng hạn như những tin tức về các sự kiện chính trị quan trọng như
bầu cử, họp Quốc hội, về thiên tai nghiêm trọng, khủng bố,… Chúng có thể được
thể hiện dưới dạng văn bản, hình ảnh được chỉnh sửa hoặc các video cắt ghép,… và
thường được đăng tải, phát tán trên các trang thông tin không chính thống, qua các
nền tảng mạng xã hội và các ứng dụng tin nhắn hay công cụ tìm kiếm như Google.
Động cơ của các đối tượng sản xuất loại tin tức giả này có thể vì mục đích tài
chính, chính trị hay hạ uy tín của cá nhân, tổ chức một cách có chủ đích. Tuy nhiên,
có những trường hợp, các đối tượng tạo ra tin tức giả chỉ đơn giản để được nổi bật,
thu hút sự chú ý. Phần lớn các chuyên gia cho rằng, các động cơ sản xuất và phát
tán tin tức giả là liên quan đến tài chính phổ biến hơn nhiều so với các mục đích
chính trị hay những mục đích khác.
Tại Việt Nam, những tin tức giả kiểu này xuất hiện không phải là ít. Chính
những tin được đề cập ngay phần mở đầu của bài viết là những tin tức giả được
đăng tải trên trang tin phapluat.news, sau đó được lan truyền nhanh chóng trên
mạng xã hội Facebook và được các trang tin không chính thống khác đăng tải lại.


Xét loại tin tức giả thứ hai, là những thông tin có thể có một phần sự thật
nhưng không hoàn toàn chính xác do người viết chúng không kiểm chứng thông
tin. Những tin tức này thường xuất hiện trên báo chí chủ lưu và thậm chí nhiều
hãng thông tấn lớn cũng gặp phải những sự cố tin tức giả này.

Hồi đầu tháng 10-2017, kênh truyền hình Fox News đã phát sóng một câu
chuyện về một cựu chiến binh được trao tặng huy chương danh giá: một lính đặc
nhiệm tinh nhuệ của Hải quân Mỹ (Navy SEAL) từng tham chiến tại Việt Nam và
được trao tặng hai huân chương Trái tim Tím (Purple Hearts). Tuy nhiên, đến ngày
19-10, kênh truyền hình này đã đính chính phóng sự được đăng ngày 8-10 về cựu
binh John Garofalo và khẳng định “mọi thứ ông này nói đều không đúng”.

Một sự cố khác do báo Independent mắc phải hồi tháng 11-2017, khi phiên
bản điện tử của báo đã phát trực tiếp trên Facebook một đoạn video mà tờ báo này
khẳng định là được “phát trực tiếp từ vũ trụ”, tuy nhiên đoạn video này đã được ghi
từ năm 2015. Hơn 180 nghìn người đã xem video này trong suốt quá trình “phát
trực tiếp” với ít nhất 2.000 lượt chia sẻ.

Tại Việt Nam, một trong những sự cố lớn trong làng báo là vào cuối năm 2016
liên quan đến vụ nước mắm nhiễm Arsen, khi nhiều cơ quan báo chí đồng loạt dẫn
khảo sát mập mờ của báo Thanh niên và Hội Tiêu chuẩn và Bảo vệ người tiêu dùng
Việt Nam (Vinastas) đăng tải thông tin sai sự thật. Hay vụ “Cậu bé 11 tuổi tự tử vì
không có áo mới đến trường”, tại tỉnh Gia Lai. Tuy nhiên, sau khi các cơ quan chức
năng tại Gia Lai làm rõ vụ việc, nguyên nhân vụ việc tự tử không phải do không có
áo mới đến trường như một số báo đã nêu.

Ngoài tạo ra các tin tức sai sự thật, còn một hình thức giả mạo khác được các
đối tượng sử dụng đó là mạo danh các tổ chức, công ty, các tờ báo lớn, chính thống
hay các cá nhân là người nổi tiếng, là lãnh đạo, nguyên thủ quốc gia để đưa tin theo


chủ đích của chúng. Nhiều lãnh đạo Đảng, Nhà nước tại Việt Nam cũng bị mạo
danh đặt tên là các trang tin tổng hợp hay các tài khoản, fanpage trên mạng xã hội.

Có thể nói dù cố ý hay vô ý các tin tức giả đã, đang và sẽ xuất hiện trên các
phương tiện truyền thông từ báo chí chủ lưu đến các loại hình truyền thông xã hội.
Những câu chuyện giả mạo được chia sẻ rộng rãi trên truyền thông xã hội và sau đó
được Google và các công cụ tìm kiếm khác xếp hạng cao giúp chúng được tìm thấy
dễ dàng hơn và gia tăng cảm giác tin tưởng của người đọc đối với chúng. Hiện
Google và Facebook nằm trong số những nền tảng phân phối tin tức giả lớn nhất.
2. Khó khăn trong ngăn chặn tin tức giả mạo.
Tin tức giả thường được phát tán rất nhanh, nhanh hơn gấp nhiều lần so với
khả năng ngăn chặn và xử lý chúng. Với sự phát triển của công nghệ, người ta có
thể dễ dàng tạo lập một website, một trang blog hay tài khoản hoặc fanpage trên
các mạng xã hội với chi phí gần như bằng không. Đây chính là những công cụ hỗ
trợ đắc lực cho việc phát tán tin tức giả. Do vậy, dù là vô tình hay cố ý, lực lượng
tạo ra và phát tán tin tức giả có thể là bất cứ thành phần nào trong xã hội: từ cá
nhân, tổ chức và thậm chí là có cả một ngành công nghiệp sản xuất tin tức giả ở
một nơi như thị trấn Veles, thuộc Macedonia, nơi được xem như là cái nôi của
ngành công nghiệp tin tức giả ăn theo chiến dịch tranh cử Mỹ. Cũng nhờ công nghệ
tiên tiến, các đối tượng sản xuất tin giả có thể tìm ra những cách phát tán tin tức giả
một cách nhanh chóng đến mức khó kiểm soát. Cách thức tạo ra và phát tán tin tức
giả từ nghiệp dư đến chuyên nghiệp đều góp phần làm số lượng tin tức giả được
phát tán trên trực tuyến là vô cùng lớn so với khả năng phát hiện và ngăn chặn
chúng của các lực lượng chức năng liên quan.
Theo thống kê của Smartinsights.com, mỗi phút có khoảng 360 nghìn người
dùng đăng ký mới trên Facebook, 150 nghìn tin nhắn được trao đổi, 300 nghìn
status được cập nhật, 50 nghìn link được chia sẻ, 133.300 ảnh được đăng tải và 100
nghìn đề nghị kết bạn mới. Trong khi đó, trên Youtube, mỗi phút có hơn 400 giờ
nội dung được đăng tải. Còn theo Google, công cụ tìm kiếm này nhận thấy số
lượng tìm kiếm đã đạt đến hàng nghìn tỷ mỗi năm, trong đó 15% lượng tìm kiếm


mỗi ngày có nội dung hoàn toàn mới. Ngày 1-11-2017, Facebook thừa nhận có tới
270 triệu tài khoản trên mạng xã hội này là không hợp pháp. Với số lượng tài
khoản không hợp pháp và nội dung đăng tải lớn như trên, việc phát hiện và ngăn
chặn những nội dung không đúng sự thật trên các nền tảng mạng xã hội là vô cùng
khó. Tin tức giả chỗ này chặn chưa xong thì tin tức giả ở nhiều chỗ khác đã mọc lên
như nấm sau mưa.
Một tin tức giật gân về một vấn đề nóng nào đó sẽ thu hút được sự quan tâm,
bàn luận đặc biệt và chia sẻ nhanh chóng của công chúng. Thêm vào đó, với thói
quen tiếp nhận và chia sẻ thông tin của người dùng hiện nay thường không cẩn
trọng phán xét đúng đắn trước những tiêu đề, nội dung câu chuyện được chia sẻ
trên trực tuyến, không kiểm chứng thông tin trước khi bình luận hay chia sẻ. Thậm
chí, có người dùng chỉ đọc tiêu đề một tin tức nào đó được chia sẻ mà không cần
xem nội dung cụ thể tin tức đó nói gì. Hành động này cũng phần nào phản ánh tâm
lý người dùng muốn thông báo, chia sẻ những thông tin mới nhất, nóng nhất trên
trang cá nhân của mình cho bạn bè, người thân. Đây cũng chính là một nhân tố làm
góp phần gia tăng tốc độ phát tán tin tức giả trên trực tuyến. Chẳng hạn như tin giả
“Cấm công chức mua xăng ở cây xăng Nhật” xuất hiện đúng lúc dư luận đang bàn
luận ủng hộ về cách thức kinh doanh của cây xăng này thì tin giả này lại xuất hiện,
gây bất bình, tranh cãi trong dư luận và được chia sẻ trên mạng xã hội Facebook
với tốc độ chóng mặt.
Trong khi các tin tức giả được lan truyền từng giây thì các lực lượng tham gia
chống tin tức giả như các công ty công nghệ, các chính phủ, các tổ chức liên quan
dù đã và đang nỗ lực nghiên cứu thực hiện các biện pháp nhằm ngăn chặn sự lan
truyền tin tức giả nhưng vẫn chưa tìm ra các giải pháp hiệu quả để ứng phó với vấn
nạn này. Do thế, dù tin tức giả là thứ ai cũng biết và các nỗ lực ngăn chặn đều đang
thực hiện nhưng chúng vẫn hiện hữu ở mọi nơi trên toàn cầu và gây nhiều hệ lụy,
phiền toái cho nhiều người.
3. Hệ lụy tin tức giả mạo.
Tin tức giả được phát tán từ các cá nhân hay nhóm người chuyên sản xuất loại
tin này nhưng những hệ quả mà chúng gây ra lại ảnh hưởng đến nhiều nhóm đối


tượng khác nhau. Trong đó có những hệ quả nghiêm trọng, thậm chí gây nguy hiểm
đến tính mạng con người.

Trước hết, với các tin tức giả nhắm trực tiếp đến các cá nhân, tổ chức cụ thể.
Những tin tức giả này làm ảnh hưởng xấu đến uy tín, danh dự của cá nhân, tổ chức
và cả về mặt kinh tế nếu các cá nhân, tổ chức hoạt động trong lĩnh vực kinh doanh.
Trong nhiều trường hợp, các cá nhân là nạn nhân trong các vụ thông tin sai sự thật
có thể bị ảnh hưởng nghiêm trọng tới tinh thần, thậm chí có thể khiến các nạn nhân
có các hành động gây nguy hiểm đến tính mạng.
Tại Việt Nam, thời gian qua, những vụ việc tung tin thất thiệt gây ảnh hưởng
đến uy tín, danh dự của các nhân không phải là hiếm. Điển hình như vụ đăng tin
“Hai nữ sinh hiếp dâm một nam thanh niên dẫn đến tử vong” được chia sẻ “chóng
mặt” trên mạng xã hội hồi đầu tháng 7-2017. Thông tin thất thiệt này đã khiến hai
nữ sinh bị vu khống suy sụp tinh thần nghiêm trọng, làm xáo trộn đến cuộc sống
sinh hoạt thường ngày của hai nữ sinh này.
“Tôi cảm thấy sốc và không muốn gặp ai, không muốn ra khỏi nhà khi đọc
thông tin trên”, chị N., một trong hai người là nạn nhân của tin đồn thất thiệt này
chia sẻ trên báo Tuổi Trẻ.
Không chỉ các cá nhân, nhiều tổ chức là các doanh nghiệp, nhãn hàng lớn
cũng điêu đứng vì tin tức giả trên Facebook và Youtube. Chẳng hạn như video gây
tổn hại nghiêm trọng đến uy tín và doanh số bán hàng của Heineken Việt Nam
được lan truyền trên Facebook và Youtube từ ngày 4-5-2017, hay các fanpage mạo
danh các hãng ô-tô lớn Toyota, Honda, Kia Morning đều lan truyền các tin tức kiểu
tặng xe cho những người may mắn nhân dịp các sự kiện quan trọng của công ty.
Nhiều website, fanpage của các doanh nghiệp, các cơ quan thông tấn báo chí cũng
bị mạo danh. Ngay cả báo Nhân Dân cũng bị mạo danh hình ảnh trang chủ và một
phần nội dung thông tin trong bài viết được đăng trên báo để đăng bài quảng cáo
thuốc. Chính nhân vật bị mạo danh trong bài viết đã gửi đơn thư tới báo Nhân Dân
yêu cầu làm rõ việc này.


Không chỉ gây ảnh hưởng đến uy tín, danh dự của các cá nhân, tổ chức là nạn
nhân của các thông tin giả, có những thông tin giả gây bất bình trong dư luận, tạo
dư luận xấu như tin cấm công chức mua xăng, bán chó hoang cho Thảo Cầm Viên
làm mồi cho sư tử; các thông tin xuyên tạc, bịa đặt về các lãnh đạo Đảng, Nhà nước
và các chính trị gia nói chung. Trong khi đó, một số kiểu tin tức giả lại có nội dung
gây hoang mang dư luận, chẳng hạn như loan tin về các đối tượng bắt cóc trẻ em,
dẫn lại tin bão Hải Yến từ năm 2013 khi cơn bão số 12 năm nay vừa quét qua Việt
Nam gây thiệt hại nặng nề, tung tin thất thiệt về các vụ thảm án, rơi máy bay ở sân
bay Nội Bài, phát trực tiếp lại những thiên tai, hỏa hoạn đã xảy ra trong quá khứ,…

Một trong những hệ quả nghiêm trọng nhất mà các tin tức giả gây ra đó là làm
suy giảm niềm tin của công chúng vào truyền thông nói chung và của báo chí chủ
lưu nói riêng. Chúng khiến cho công chúng không xác định được đâu là những
nguồn tin đáng tin cậy để tiếp nhận.
Khảo sát tại Mỹ, Brazil, Anh và Pháp, cho thấy, những tranh cãi liên quan
đến tin tức giả đã gây ảnh hưởng tiêu cực đến niềm tin của công chúng đối với các
nền tảng truyền thông xã hội, các ứng dụng nhắn tin và các hãng tin tức chỉ có
phiên bản điện tử.
Theo khảo sát công bố ngày 30-10-2017 của công ty nghiên cứu và dữ liệu
Kantar đối với 8.000 người tại Mỹ, Brazil, Anh và Pháp, những tranh cãi liên quan
đến tin tức giả đã gây ảnh hưởng tiêu cực đến niềm tin của công chúng vào truyền
thông tại những nước này. Trong đó, sự suy giảm niềm tin của công chúng chủ yếu
đối với các nền tảng truyền thông xã hội, các ứng dụng nhắn tin và các hãng tin tức
chỉ có phiên bản điện tử. Cụ thể, các tin tức về chính trị và các cuộc bầu cử trên các
nền tảng truyền thông xã hội (chủ yếu là Facebook) và các ứng dụng nhắn tin (chủ
yếu là Snapchat) bị suy giảm niềm tin gần một nửa, với tỷ lệ lần lượt là 54% và
49%. Trong khi đó, các hãng tin tức chỉ có phiên bản điện tử cũng bị suy giảm niềm
tin đáng kể đối với các tin tức về chính trị và bầu cử, với tỷ lệ là 40%. Tuy nhiên,
khảo sát cũng cho thấy niềm tin của công chúng đối với các kênh truyền hình và ấn
phẩm in vẫn ở mức cao, với tỷ lệ 71% số người được hỏi bày tỏ tin tưởng tương
đương hay nhiều hơn vào các kênh tin tức này so với trước khi xuất hiện tin tức giả.


Các tin tức giả không chỉ gây hệ quả tiêu cực đối với các tập thể, cá nhân mà
chúng nhắm đến hay những người tiếp nhận thông tin nói chung mà chính các
mạng xã hội bị lợi dụng để phát tán các tin tức giả cũng phải chịu những sức ép vô
cùng lớn từ nhiều phía.
Sau khi kết thúc chiến dịch bầu cử Tổng thống Mỹ năm 2016, mạng xã hội
Facebook đã hứng chịu những chỉ trích cho rằng những tin tức giả được phát tán
trên mạng xã hội này đã gây ảnh hưởng lên kết quả bầu cử. Mặc dù vẫn chưa có
bằng chứng thuyết phục nào cho thấy các chỉ trích trên là đúng nhưng từ đó đến
nay, các chính phủ trên thế giới đều đã gia tăng sức ép bằng các chính sách, quy
định cụ thể với Facebook, Youtube nói riêng và các nền tảng mạng xã hội khác nói
chung phải tăng cường thực hiện các biện pháp quyết liệt nhằm ngăn chặn việc lan
truyền tin tức giả trên các nền tảng này. Ngay cả chính ban lãnh đạo của Facebook
cũng chịu sức ép từ các cổ đông yêu cầu có các biện pháp hiệu quả để giải quyết
vấn nạn tin tức giả.
Sức ép lớn nhất của các nền tảng truyền thông xã hội đó chính là sức ép về uy
tín của các nền tảng này đối với các đối tác và khách hàng. Trước tình trạng tin tức
giả mạo nói riêng và các nội dung không phù hợp được đăng tải đến mức khó kiểm
soát trên các nền tảng truyền thông xã hội, rất nhiều công ty, nhãn hàng lớn trên thế
giới đã thay đổi chính sách quảng cáo, thậm chí là ngừng quảng cáo trên các nền
tảng này, gây ảnh hưởng lớn đến một trong những nguồn thu chính của chính
những nền tảng này.
4. Cuộc chiến chống các tin tức giả mạo trên thế giới.
Vấn nạn tin giả với dụng ý bóp méo sự thật đang ảnh hưởng không nhỏ đến
đời sống chính trị-xã hội của nhiều quốc gia trên thế giới. Đế đối phó, Nga vừa ban
hành hai đạo luật hạn chế sự phát tán các thông tin giả mạo. Nhiều quốc gia khác
cũng không đứng ngoài “cuộc chiến” này.
− Nga mạnh tay chống tin giả:
Tổng thống Nga Vladimir Putin ngày 18-3-2019 vừa ký ban hành và công bố
hai đạo luật, theo đó sẽ phạt nặng các hành vi phổ biến tin giả mạo và xúc phạm
biểu tượng Nhà nước trên mạng (online).


Đạo luật thứ nhất cấm truyền bá các thông tin giả mạo "có tầm ảnh hưởng xã
hội lớn", có nguy cơ gây nguy hại cho cuộc sống của công dân, gây xáo trộn trật tự
xã hội quy mô lớn hoặc vi phạm an ninh công cộng. Theo đó, nếu loan truyền
những thông tin không đúng, tạo ra mối đe dọa gây tổn hại đối với tính mạng hoặc
sức khỏe của người dân, vi phạm trật tự công cộng, nếu những hành động này
không có hình phạt hình sự thì sẽ bị xử phạt hành chính từ 30.000 - 100.000 ruble
(khoảng 1600 USD) đối với cá nhân; từ 60.000 - 200.000 ruble đối với quan chức;
đối với các tổ chức, mức phạt giao động từ 200.000 - 500.000 ruble. Trường hợp
phổ biến những thông tin giả mạo gây ra sự nhiễu loạn trong hoạt động các công
trình bảo đảm đời sống, cơ sở hạ tầng giao thông hoặc xã hội, viễn thông, năng
lượng thì mức phạt đối với cá nhân dao động từ 100 - 300.000 ruble, quan chức từ
300.000 - 600.000, trong khi mức phạt đối với các tổ chức được nâng lên mức
500.000 - 1 triệu ruble. Mức phạt tăng lên đối với hành vi phổ biến trên các phương
tiện thông tin đại chúng và mạng Internet những thông tin giả mạo gây ra chết
người, làm phương hại sức khỏe hay tài sản, ngừng hoạt động các cơ sở bảo đảm
đời sống, hạ tầng giao thông hay xã hội, viễn thông, năng lượng. Trong trường hợp
này mức phạt cao nhất lên tới 1,5 triệu ruble (khoảng 22.000 USD).
Đạo luật thứ hai được ông Putin ký ban hành nhằm xử lý các hành vi "xúc
phạm các biểu tượng và thể chế Nhà nước". Người vi phạm sẽ bị phạt với mức tối
đa là 300.000 ruble (4.500 USD). Đạo luật này xác định trình tự hạn chế tiếp cận
“thông tin được thể hiện dưới hình thức khiếm nhã, xúc phạm nhân phẩm và đạo
đức xã hội, thiếu tôn trọng xã hội, nhà nước, các biểu tượng nhà nước chính thức
của LB Nga, Hiến pháp LB Nga hay các cơ quan thực hiện quyền hành pháp nhà
nước tại LB Nga”. Trong trường hợp phát hiện thông tin dạng này, các cơ quan
chức năng sẽ yêu cầu áp dụng các biện pháp loại bỏ và ngăn chặn lan truyền. Nếu
trong vòng 24 giờ không thực hiện yêu cầu của cơ quan chức năng, trang web chứa
thông tin vi phạm sẽ bị đóng.
Các nghị sĩ Nga cho rằng các biện pháp mới này đóng vai trò quan trọng trong
việc chống lại tin giả và lạm dụng các bình luận trực tuyến. Luật mới cho phép nhà
chức trách có quyền chặn các trang web nếu không tuân thủ với yêu cầu dỡ bỏ


thông tin mà chính quyền cho là sai sự thật. Theo luật mới, cơ quan công tố có
thẩm quyền quyết định mức nguy hiểm mà thông tin online giả mạo gây ra và yêu
cầu cơ quan giám sát viễn thông Roskomnadzor hạn chế quyền truy cập các nguồn
tin online này.

− Thế giới đang tràn ngập thông tin giả mạo (fake news):
Các luật trên được ban hành ở Nga trong bối cảnh trên thế giới cũng xuất hiện
làn sóng tin giả mạo gây ảnh hưởng không nhỏ.
Cho đến nay vẫn chưa có định nghĩa rõ ràng, thống nhất về tin tức giả, nhưng
tin tức giả có thể xác định là “những thông tin sai, thường là giật gân, được phát tán
dưới vỏ bọc tin tức" (theo định nghĩa của từ điển Collins).
Tin tức giả có thể phân thành hai loại: Là những thông tin hoàn toàn không
chính xác được cố tình đăng tải, lan truyền vì một mục đích nào đó; và những
thông tin có thể có một phần sự thật nhưng không hoàn toàn chính xác do người
viết chúng không kiểm chứng toàn bộ sự thật trước khi đăng tải chia sẻ hoặc có thể
họ phóng đại một phần của câu chuyện đó.
Mục đích ban đầu của các tin tức giả chỉ là đánh lừa người dùng để tiếp thị
quảng cáo sản phẩm - dịch vụ, dần dần lôi cuốn hình thành những trào lưu giải trí,
nghiêm trọng hơn là những thông tin xấu, độc hại, đả kích chính quyền, xuyên tạc.
Đối tượng bị nhắm tới là cá nhân, tổ chức quan chức nhà nước và cả các
doanh nghiệp kinh doanh… Những tin tức giả này làm ảnh hưởng xấu đến uy tín,
danh dự của cá nhân, tổ chức cả về mặt kinh tế lẫn đời sống tinh thần, thậm chí có
thể khiến các nạn nhân có các hành động gây nguy hiểm đến tính mạng. Một trong
những hệ quả nghiêm trọng nhất mà các tin tức giả gây ra đó là làm suy giảm niềm
tin của công chúng vào truyền thông nói chung và của báo chí chủ lưu nói riêng.
Chúng khiến cho công chúng không xác định được đâu là những nguồn tin đáng tin
cậy để tiếp nhận.
Trên thế giới, trường hợp điển hình của tình trạng tin giả mạo có thể kể đến là
trong cuộc bầu cử Tổng thống Mỹ năm 2016. Sự kiện này được thảo luận trên toàn


cầu với nhiều luồng ý kiến tranh luận. Khi người dân còn đang xem xét, chưa đi
đến quyết định ủng hộ, bầu cho ai thì hàng loạt thông tin chưa được kiểm chứng rõ
ràng phát tán trên mạng xã hội, mạng Internet với tốc độ lan truyền chóng mặt như:
“Giáo hoàng ủng hộ Trump”, “Hillary bán vũ khí cho IS”, “Mật vụ FBI tình nghi
trong vụ rò rỉ thư điện tử của bà Hillary Clinton được tìm thấy đã chết”… thu hút
sự chú ý lớn của mọi người, vượt qua cả những tin tức chính thống.
Hay tại Pháp, thời gian vừa qua các tin tức không đúng sự thật lưu truyền
trong phong trào biểu tình "Áo vàng" đã nhận được hơn 100 triệu lượt xem và 4
triệu lượt chia sẻ trên Facebook.
Tại Nga, trước cuộc bầu cử quốc gia vào tháng 3-2018 khoảng 1 năm, Tổng
thống Putin đã trở thành mục tiêu của rất nhiều tin đồn giật gân như: Sở hữu khối
tài sản hơn 200 tỷ USD; Tổng thống Putin là robot máy; cuộc sống với người tình
trẻ của Putin sau khi li dị vợ cũ....
Ở Ấn Độ và nhiều nước khác ở châu Á, Trung Đông, châu Phi, tin tức giả mạo
thường nhắm vào chủ đề tôn giáo với ý đồ chính trị. Những tin tức sai sự thật được
tạo ra với chủ ý tạo mâu thuẫn trong các cộng đồng tôn giáo khác nhau. Hậu quả
của vấn nạn tin giả trong lĩnh vực tôn giáo, sắc tộc là rất nguy hiểm bởi từ những
bản tin, bài báo giả, những cộng đồng tôn giáo có thể thù ghét, xung đột, chiến
tranh với nhau, từ đó tạo ra những khu vực bất ổn quy mô lớn.
Còn nhớ, các mạng truyền thông xã hội cũng đã từng bị các lực lượng chống
đối lợi dụng để thực hiện cái gọi là Mùa Xuân Arab, kích động làn sóng biểu tình,
gây bạo loạn và tiến tới lật đổ các chính phủ hợp hiến tại Tunisia, Ai Cập, Yemen,
Libya,… Theo một cuộc điều tra của Al Jazeera, có tới 90% số người được hỏi tại
Tunisia và Ai Cập đã thừa nhận rằng họ từng sử dụng mạng xã hội Facebook để
loan truyền lời kêu gọi các cuộc biểu tình. Những thông tin giả mạo, bịa đặt, mang
tính kích động được phát tán một cách nhanh chóng, khiến người dân không đủ tỉnh
táo và bị cuốn vào làn sóng bạo loạn, lật đổ...
Thực tế này gióng lên một hồi chuông cảnh báo người dùng Internet về tính
xác thực của thông tin mà họ nhận được hàng ngày.
− Các nước hành động


Nhiều chính phủ trên thế giới đã có những biện pháp quyết liệt để đối phó với
tình trạng tin giả, quy định những khoản tiền phạt lên đến hàng chục triệu USD đối
với các nền tảng công nghệ khổng lồ như Google hay Facebook nếu không cho
phép người dùng khiếu nại về nội dung kích động thù hận và tin giả, hoặc từ chối
loại bỏ những nội dung bất hợp pháp.
Tại Đông Nam Á, Singapore là quốc gia đã nêu cao các cảnh báo về nạn tin
giả. Singapore đã thành lập một Ủy ban đặc biệt gồm 10 thành viên để nghiên cứu
cách thức chống lại những đối tượng truyền bá thông tin sai lệch một cách cố ý có
hiệu quả nhất, đặc biệt là trong các cuộc bầu cử và trưng cầu dân ý.
Ở Philippines, đích thân Tổng thống Rodrigo Duterte cũng đã có những hành
động mạnh tay đối với những tờ báo thuộc sở hữu của nước ngoài cũng như các
trang mạng xã hội trên Facebook, những tổ chức mà nhà lãnh đạo Philippines cho
là chuyên phao và lan truyền tin giả chống lại chính quyền.
Tại Malaysia, vào tháng 4-2018, chính quyền nước này đã hình sự hóa tội tung
tin giả trên mạng. Theo đó, các đối tượng cố ý tung tin giả có thể bị phạt tù tới 6
năm. Phạm vi áp dụng luật mới rất rộng, gồm cả ấn bản số và truyền thông xã hội.
Đối tượng tung tin giả có thể sống tại Malaysia hoặc quốc gia khác, gồm cả người
nước ngoài nếu hậu quả ảnh hưởng tới Malaysia hoặc công dân nước này.
Tại Thái Lan, chính phủ nước này đã lập kế hoạch chi hơn 128 triệu Baht
(tương đương 3 triệu USD) để trang bị công nghệ theo dõi mạng xã hội. Theo đó,
hệ thống phân tích dữ liệu mạng xã hội sẽ theo dõi và lưu trữ tất cả dữ liệu trên
mạng xã hội để phân tích và giám sát hàng triệu người.
Trung Quốc thì không cho phép bất cứ mạng xã hội nào của nước ngoài được
hoạt động, thay vào đó, Bắc Kinh hối thúc các công ty công nghệ của nước này
sáng tạo và đưa vào sử dụng các mạng xã hội riêng vừa để kiểm soát an ninh mạng
vừa coi đó là biện pháp hạn chế tin giả.
Với nước Mỹ, dưới sức ép của chính quyền và dư luận, một số ông chủ của
các công nghệ lớn, điển hình là Giám đốc điều hành của mạng xã hội lớn nhất hành
tinh Facebook trong năm 2018 vừa qua cũng đã phải ra điều trần trước Quốc hội
Mỹ, cam kết hợp tác chặt chẽ với các cơ quan chức năng để điều tra về những chiến


dịch tung tin giả từ nước ngoài trong đó có sử dụng dịch vụ quảng cáo có trả tiền và
những dữ liệu người dùng mà Facebook đã cung cấp cho một công ty thứ 3 ở châu
Âu trong chiến dịch tranh cử Tổng thống cuối năm 2016.
Tại Pháp, hãng thông tấn AFP đã ký một thỏa thuận kiểm chứng sự thật với
Facebook để xác minh và vạch trần tin tức giả mạo được lan truyền trên mạng, theo
đó các bài viết phải được đăng phát trên trang blog Fact Check của AFP trước khi
được đăng lên Facebook cho người dùng…
Có thể thấy, trong thời đại 4.0 hiện nay, mạng Internet nói chung và mạng xã
hội nói riêng đã tạo ra nhiều giá trị tích cực cho cộng đồng, nhưng mặt trái của nó
cũng đang ảnh hưởng trực tiếp đến đời sống của người dân và các lĩnh vực kinh tế,
chính trị, xã hội của đất nước.


CHƯƠNG II:
MẠNG NƠ-RON VÀ PHƯƠNG PHÁP SEQ2SEQ
1. Kiến thức tổng quan.
Trí tuệ nhân tạo (artificial intelligence - AI): là trí tuệ được biểu diễn bởi bất
cứ một hệ thống nhân tạo nào. Thuật ngữ này thường dùng để nói đến các máy tính
có mục đích không nhất định và ngành khoa học nghiên cứu về các lý thuyết và
ứng dụng của trí tuệ nhân tạo. Trí thông minh nhân tạo liên quan đến cách cư xử, sự
học hỏi và khả năng thích ứng thông minh của máy móc. Các ví dụ ứng dụng bao
gồm các tác vụ điều khiển, lập kế hoạch và lập lịch (scheduling), khả năng trả lời
các câu hỏi về chẩn đoán bệnh, trả lời khách hàng về các sản phẩm của một công
ty, nhận dạng chữ viết tay, nhận dạng tiếng nói và khuôn mặt. Bởi vậy, trí thông
minh nhân tạo đã trở thành một môn học, với mục đích chính là cung cấp lời giải
cho các vấn đề của cuộc sống thực tế. Ngày nay, các hệ thống nhân tạo được dùng
thường xuyên trong kinh tế, y dược, các ngành kỹ thuật và quân sự, cũng như trong
các phần mềm máy tính thông dụng trong gia đình và trò chơi điện tử.
Học máy (machine learning): là một lĩnh vực của trí tuệ nhân tạo liên quan
đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống “học” tự động
từ dữ liệu để giải quyết những vấn đề cụ thể. Ví dụ như các máy có thể "học" cách
phân loại thư điện tử xem có phải thư rác (spam) hay không và tự động xếp thư vào
thư mục tương ứng. Học máy rất gần với suy diễn thống kê (statistical inference)
tuy có khác nhau về thuật ngữ. Học máy có liên quan lớn đến thống kê, vì cả hai
lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy
tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán. Nhiều bài
toán suy luận được xếp vào loại bài toán NP-khó, vì thế một phần của học máy là
nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lý được. Học
máy có hiện nay được áp dụng rộng rãi bao gồm máy truy tìm dữ liệu, chẩn đoán y
khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng
15


khoán, phân loại các chuỗi DNA, nhận dạng tiếng nói và chữ viết, dịch tự
động, chơi trò chơi và cử động rô-bốt (robot locomotion).
Kho dữ liệu (data warehouse): là một tập các dữ liệu có những đặc điểm sau:
tập trung vào một chủ đề, tổng hợp từ nhiều nguồn dữ liệu khác nhau, từ nhiều thời
gian, và không sửa đổi. Được dùng trong việc hỗ trợ ra quyết định trong công tác
quản lý. Trong phạm trù của luận văn, kho dữ liệu được hiểu là tập dữ liệu được thu
thập từ Internet, hoặc từ người bán hàng trong lĩnh vực thương mại điện tử. Kho dữ
liệu sẽ là đầu vào cho quá trình tự học
Tự học (auto learning): là quá trình “học” tự động từ kho dữ liệu thu thập
được thông qua một số phương pháp học máy nào đó. Kết quả của quá trình này
phụ thuộc vào 2 yếu tố: nguồn dữ liệu đầu vào và thuật toán sử dụng để “học”.
Quay lại bài toán đặt ra ban đầu, yêu cầu tiên quyết để thực hiện mô hình là
mô hình cần có sự tham gia của học máy, giúp cho ứng dụng tư vấn có thể tự học
những mẫu giao tiếp thông qua kho dữ liệu người bán hàng.
Hiện tại, phương pháp xây dựng các hệ thống tự động trước đây, như
chatbotSkype, thường theo quy trình 3 bước chung. Đầu tiên, phân tích câu hỏi
nhằm tạo ra “truy vấn” cho bước trích chọn tài liệu liên quan và tìm ra những thông
tin hữu ích cho bước trích xuất câu trả lời. Tiếp đến là trích chọn tài liệu liên quan,
dựa trên câu truy vấn được tạo ra ở bước phân tích câu hỏi để tìm ra các tài liệu liên
quan đến câu hỏi. Bước cuối cùng là trích xuất câu trả lời, phân tích câu trả lời từ
bước trích chọn tài liệu liên quan và sử dụng các thông tin hữu tích từ bước phân
tích câu hỏi để đưa ra câu trả lời phù hợp.
Những mô hình được xây dựng thông qua quy trình như trên đa phần tiếp cận
đưa vào trích gọn thông tin (Retrieval-based). Các kỹ thuật thường sử dụng một
kho đã định nghĩa trước các câu trả lời kết hợp với một vài phương pháp trích chọn
Heuristic để nhặt ra một đáp án thích hợp nhất dự vào mẫu hỏi input và ngữ cảnh.
Kỹ thuật heuristic sử dụng ở đây đơn giản có thể là sự so khớp các biểu thức dựa
vào luật (rule-based), hoặc phức tạp như việc kết hợp học máy để phân lớp các câu


hỏi và đáp án trả về. Những hệ thống kiểu này không sinh ra văn bản mới, chúng
chỉ nhặt một đáp án từ một tập dữ liệu cố định sẵn có. Kết quả như vậy sẽ không
“thông minh”, và có hạn chế chung là không có khả năng tự động, đơn giản nhất
nếu không trích chọn được tài liệu liên quan, mô hình sẽ trả về giá trị mặc định
được cài đặt sẵn hoặc không có câu trả lời.
2. Lý thuyết mạng nơ-ron.
Để có thể hiểu về mạng phương pháp học chuỗi liên tiếp Seq2Seq, cần có
những lý thuyết căn bản về mạng nơ-ron. Khái niệm này được bắt đầu vào cuối
thập kỷ 1800 khi các nhà nghiên cứu cố gắng mô tả hoạt động của trí tuệ con
người. Ý tưởng này bắt đầu được áp dụng cho các mô hình tính toán từ mạng
Perceptron.
2.1 Mạng nơ-ron nhân tạo ANN.
Mạng nơ-ron nhân tạo (Artificial Neural Network – ANN) hay thường được
gọi ngắn gọn là mạng nơ-ron là một mô hình xử lý thông tin được mô phỏng dựa
trên hoạt động của hệ thống thần kinh của sinh vật, bao gồm số lượng lớn các
nơron được gắn kết để xử lý thông tin. ANN được giới thiệu năm 1943 bởi nhà thần
kinh học Warren McCulloch và nhà logic học Walter Pits, nó hoạt động giống như
bộ não của con người, được học bởi kinh nghiệm (thông qua việc huấn luyện), có
khả năng lưu giữ các tri thức và sử dụng các tri thức đó trong việc dự đoán các dữ
liệu chưa biết (unseen data) [5]. Processing Elements (PE) của ANN gọi là nơron,
nhận các dữ liệu vào (inputs) xử lý chúng và cho ra một kết quả (output) duy nhất.
Kết quả xử lý của một nơ-ron có thể làm input cho các nơ-ron khác.



Hình 2.1. Kiến trúc mạng nơ-ron nhân tạo ANN
Kiến trúc chung của một ANN gồm 3 thành phần đó là input layer, hidden
layer và output layer. Trong đó, lớp ẩn (hidden layer) gồm các nơ-ron, nhận dữ liệu
input từ các nơ-ron ở lớp trước đó và chuyển đổi các input này cho các lớp xử lý
tiếp theo. Quá trình xử lý thông tin của một ANN như sau:

Hình 2.2: Quá trình xử lý thông tin của nơ-ron j trong mạng ANN.
Trong đó, mỗi input tương ứng với 1 thuộc tính của dữ liệu. Ví dụ như trong
ứng dụng của ngân hàng xem xét có chấp nhận cho khách hàng vay tiền hay không
thì mỗi input là một thuộc tính của khách hàng như thu nhập, nghề nghiệp, tuổi, số
con…Output là một giải pháp cho một vấn đề, ví dụ như với bài toán xem xét chấp
nhận cho khách hàng vay tiền hay không thì output là yes - cho vay hoặc no không cho vay. Trọng số liên kết (Connection Weights) là thành phần rất quan trọng
của một ANN, nó thể hiện mức độ quan trọng hay có thể hiểu là độ mạnh của dữ
liệu đầu vào đối với quá trình xử lý thông tin, chuyển đổi dữ liệu từ layer này sang
layer khác. Quá trình học (Learning Processing) của ANN thực ra là quá trình điều
chỉnh các trọng số (Weight) của các input data để có được kết quả mong muốn.
Hàm tổng (Summation Function) cho phép tính tổng trọng số của tất cả các input
được đưa vào mỗi nơ-ron. Hàm tổng của một nơ-ron đối với n input được tính theo
công thức sau:


Kết quả trên cho biết khả năng kích hoạt của nơ-ron đó. Các nơ-ron này có thể
sinh ra một output hoặc không trong ANN, hay nói cách khác rằng có thể output
của 1 nơ-ron có thể được chuyển đến layer tiếp trong mạng nơ-ron hoặc không là
do ảnh hưởng bởi hàm chuyển đổi (Transfer Function). Việc lựa chọn Transfer
Function có tác động lớn đến kết quả của ANN. Vì kết quả xử lý tại các nơ-ron là
hàm tính tổng nên đôi khi rất lớn, nên transfer function được sử dụng để xử lý
output này trước khi chuyển đến layer tiếp theo. Hàm chuyển đổi phi tuyến được sử
dụng phổ biến trong ANN là sigmoid (logical activation) function.

Kết quả của Sigmoid Function thuộc khoảng [0, 1] nên còn gọi là hàm chuẩn
hóa (Normalized Function). Đôi khi thay vì sử dụng hàm chuyển đổi, ta sử dụng
giá trị ngưỡng (Threshold value) để kiểm soát các output của các nơ-ron tại một
layer nào đó trước khi chuyển các output này đến các layer tiếp theo. Nếu output
của một nơ-ron nào đó nhỏ hơn Threshold thì nó sẽ không được chuyển đến Layer
tiếp theo. Ứng dụng thực tế của mạng nơ-ron thường được sử dụng trong các bài
toán nhận dạng mẫu như nhận dạng chữ cái quang học (Optical character
recognition), nhận dạng chữ viết tay, nhận dạng tiếng nói, nhận dang khuôn mặt.
2.2. Mạng nơ-ron tái phát RNN.
Mạng nơ-ron tái phát (RNN - Recurrent Neural Network) là một trong những
mô hình Deep Learning được đánh giá có nhiều ưu điểm trong các tác vụ xử lý
ngôn ngữ tự nhiên (NLP). Ý tưởng của RNN đó là thiết kế một mạng nơron sao cho
có khả năng xử lý được thông tin dạng chuỗi như câu hỏi. Recurrent có nghĩa là
thực hiện lặp lại cùng một tác vụ cho mỗi thành phần trong chuỗi. Trong đó, kết
quả đầu ra tại thời điểm hiện tại phụ thuộc vào kết quả tính toán của các thành phần
ở những thời điểm trước đó. Nói cách khác, RNNs là một mô hình có trí nhớ, có


khả năng nhớ được thông tin đã tính toán trước đó, không như các mạng nơ-ron
truyền thống đó là thông tin đầu vào (input) hoàn toàn độc lập với thông tin đầu ra
(output). Về lý thuyết, RNNs có thể nhớ được thông tin của chuỗi có chiều dài bất
kì, nhưng trong thực tế mô hình này chỉ nhớ được thông tin ở vài bước trước đó.
Các ứng dụng của RNN có khá nhiều trong các lĩnh vực như mô hình ngôn
ngữ và phát sinh văn bản (Generating text). Mô hình ngôn ngữ cho ta biết xác suất
của một câu trong một ngôn ngữ là bao nhiêu. Đây cũng là bài toán dự đoán xác
suất từ tiếp theo của một câu cho trước là bao nhiêu. Từ bài toán này, ta có thể mở
rộng thành bài toán phát sinh văn bản (generating text/generative model). Mô hình
này cho phép ta phát sinh văn bản mới dựa vào tập dữ liệu huấn luyện. Ví dụ, khi
huấn luyện mô hình này bằng các dữ liệu tư vấn bán hàng, ta có thể phát sinh được
các câu trả lời cho các câu hỏi liên quan đến thương mại điện tử. Tuỳ theo loại dữ
liệu huấn luyện, ta sẽ có nhiều loại ứng dụng khác nhau. Trong mô hình ngôn ngữ,
input là chuỗi các từ (được mã hoá thành one-hot vector [13]), output là chuỗi các
từ dự đoán được từ mô hình này. Một lĩnh vực khác của RNN là Dịch máy
(Machine Translation). Bài toán dịch máy tương tự như mô hình ngôn ngữ. Trong
đó, input là chuỗi các từ của ngôn ngữ nguồn (ví dụ tiếng Việt), output là chuỗi các
từ của ngôn ngữ đích (ví dụ tiếng Anh). Điểm khác biệt ở đây đó là output chỉ có
thể dự đoán được khi input đã hoàn toàn được phân tích. Điều này là do từ được
dịch ra phải có đầy đủ thông tin của các từ trước đó. Hoặc RNN có thể áp dụng cho
các bài toán phát sinh mô tả cho ảnh (Generating Image Descriptions). RNN kết
hợp với Convolution Neural Netwokrs có thể phát sinh ra được các đoạn mô tả cho
ảnh. Mô hình này hoạt động bằng cách tạo ra những câu mô tả từ các features rút
trích được trong bức ảnh.
Huấn luyện RNN tương tự như huấn luyện ANN truyền thống. Giá trị tại mỗi
output không chỉ phụ thuộc vào kết quả tính toán của bước hiện tại mà còn phụ
thuộc vào kết quả tính toán của các bước trước đó.


RNN có khả năng biểu diễn mối quan hệ phụ thuộc giữa các thành phần trong
chuỗi. Ví dụ, nếu chuỗi đầu vào là một câu có 5 từ thì RNN này sẽ unfold (dàn ra)
thành RNN có 5 layer, mỗi layer tương ứng với mỗi từ, chỉ số của các từ được đánh
từ 0 tới 4. Trong hình vẽ ở trên, �t là input (one-hot vector) tại thời điểm thứ t. � t là
hidden state [14] (memory) tại thời điểm thứ t, được tính dựa trên các hidden state
trước đó kết hợp với input của thời điểm hiện tại với công thức:

�−1 là hidden state được khởi tạo là một vector không. � � là output tại thời
điểm thứ t, là một vector chứa xác suất của toàn bộ các từ trong từ điển.

Không như ANN truyền thống, tại mỗi layer cần phải sử dụng một tham số
khác, RNNs chỉ sử dụng một bộ parameters (U, V, W) cho toàn bộ các bước. Trên
lý thuyết, xây dựng một RNN có thể nhớ được thông tin của một chuỗi dài vô tận là
có thể, nhưng thực tế xây dựng được như vậy là khó thực hiện vì điều kiện phần
cứng và thuật toán chưa cho phép. Trong vài năm qua, các nhà nghiên cứu đã phát
triển nhiều loại RNNs ngày càng tinh vi để giải quyết các mặt hạn chế của RNN.
− Bidirectional RNN: dựa trên ý tưởng output tại thời điểm t không chỉ phụ
thuộc vào các thành phần trước đó mà còn phụ thuộc vào các thành phần trong
tương lai. Ví dụ, để dự đoán một từ bị thiếu (missing word) trong chuỗi, ta cần


quan sát các từ bên trái và bên phải xung quanh từ đó. Mô hình này chỉ gồm hai
RNNs nạp chồng lên nhau. Trong đó, các hidden state được tính toán dựa trên cả
hai thành phần bên trái và bên phải của mạng.
− Long short-term memory networks (LSTM): mô hình này có cấu trúc
tương tự như RNNs nhưng có cách tính toán khác đối với các hidden layer.
Memory trong LSTMs được gọi là cells (hạt nhân). Ta có thể xem đây là một hộp
đen nhận thông tin đầu vào gồm hidden state trước đó và giá trị ��. Bên trong các
hạt nhân này, sẽ quyết định thông tin nào cần lưu lại và thông tin nào cần xóa đi,
nhờ vậy mà mô hình này có thể lưu trữ được thông tin dài hạn.
2.3. Mạng Long Short Term Memory LSTM.
Ý tưởng ban đầu của RNN là kết nối những thông tin trước đó nhằm hỗ trợ
cho các xử lý hiện tại. Nhưng đôi khi, chỉ cần dựa vào một số thông tin gần nhất để
thực hiện tác vụ hiện tại. Ví dụ, trong mô hình hóa ngôn ngữ, chúng ta cố gắng dự
đoán từ tiếp theo dựa vào các từ trước đó. Nếu chúng ta dự đoán từ cuối cùng trong
câu “đám_mây bay trên bầu_trời”, thì chúng ta không cần truy tìm quá nhiều từ
trước đó, ta có thể đoán ngay từ tiếp theo sẽ là “bầu_trời”. Trong trường hợp này,
khoảng cách tới thông tin liên quan được rút ngắn lại, mạng RNN có thể học và sử
dụng các thông tin quá khứ.

Hình 2.4: RNN phụ thuộc short-term.
Nhưng cũng có trường hợp chúng ta cần nhiều thông tin hơn, nghĩa là phụ
thuộc vào ngữ cảnh. Ví dụ nhưng khi dự đoán từ cuối cùng trong đoạn văn bản


“Tôi sinh ra và lớn lên ở Việt_Nam … Tôi có_thể nói thuần_thục Tiếng_Việt.” Từ
thông tin gần nhất cho thấy rằng từ tiếp theo là tên một ngôn ngữ, nhưng khi chúng
ta muốn biết cụ thể ngôn ngữ nào, thì cần quay về quá khứ xa hơn, để tìm được ngữ
cảnh Việt_Nam. Và như vậy, RRN có thể phải tìm những thông tin có liên quan và
số lượng các điểm đó trở nên rất lớn. Không được như mong đợi, RNN không thể
học để kết nối các thông tin lại với nhau.

Hình 2.5: RNN phụ thuộc long-term.
Hạn chế ở mạng RNN là hidden layer không có trí nhớ dài hạn, hay còn được
nhắc tới với tên vanishing/exploding gradient problem [7]. Nếu chỉ dừng lại ở việc
áp dụng phương án học chuỗi với RNN thì vấn đề độ dài câu đối thoại sẽ là một bài
toán khó. Bằng việc cải tiến, bổ sung các module nhớ cho RNN, LSTM (Long
Short Term Memory network) [8] – một là trường hợp đặc biệt của RNN được tích
hợp sẵn trong phương pháp học chuỗi seq2seq, đã giải quyết được vấn đề này.
Long Short Term Memory là trường hợp đặc biệt của RNN, có khả năng học
long-term dependencies. Mô hình này được giới thiệu bởi Hochreiter &
Schmidhuber (1997) [8], và được cải tiến lại. Sau đó, mô hình này dần trở nên phổ
biến nhờ vào các công trình nghiên cứu gần đây. Mô hình này có khả năng tương
thích với nhiều bài toán nên được sử dụng rộng rãi ở các ngành liên quan. LSTM
được thiết kế nhằm loại bỏ vấn đề phụ thuộc quá dài. Ta quan sát lại mô hình RNN
bên dưới, các layer đều mắc nối với nhau. Trong RNN chuẩn, module repeating này
có cấu trúc rất đơn giản chỉ gồm một lớp đơn giản tanh layer.


Hình 2.5. Các module lặp của mạng RNN chứa một layer.
LSTM cũng có cấu trúc mắt xích tương tự, nhưng các module lặp có cấu trúc
khác hẳn. Thay vì chỉ có một layer neural network, thì LSTM có tới bốn layer,
tương tác với nhau theo một cấu trúc cụ thể.

Hình 2.6: Các mô-đun lặp của mạng LSTM chứa bốn layer.
Trong đó, các ký hiệu sử dụng trong mạng LSTM gồm có: hình chữ nhật là
các lớp ẩn của mạng nơ-ron, hình tròn biểu diễn toán tử Pointwise, đường kẻ gộp
lại với nhau biểu thị phép nối các toán hạng, và đường rẽ nhánh biểu thị cho sự sao
chép từ vị trí này sang vị trí khác. Mô hình thiết kế của LSTM là một bảng mạch
số, gồm các mạch logic và các phép toán logic trên đó. Thông tin, hay nói khác hơn
là tần số của dòng điện di chuyển trong mạch sẽ được lưu trữ, lan truyền theo cách
thiết kế bảng mạch. Mấu chốt của LSTM là cell state (trạng thái nhớ), đường kẻ
ngang chạy dọc ở trên top diagram. Cell state giống như băng chuyền, chạy xuyên


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×