Tải bản đầy đủ

Phát triển một số phương pháp lọc thông tin cho hệ tư vấn

L I CAM OAN

Tôi xin cam oan ây là công trình nghiên c u c a riêng tôi. Các k t qu
ư c vi t chung v i các tác gi khác

u ư cs

ng ý c a

ng tác gi trư c

khi ưa vào lu n án. Các k t qu nêu trong lu n án là trung th c và chưa t ng
ư c công b trong các công trình nào khác.

Tác gi

Nguy n Duy Ph

1

ng



L i c m ơn

Th c hi n lu n án ti n s là m t th thách l n, òi h i s kiên trì và t p
trung cao

. Tôi th c s h nh phúc v i k t qu

tài nghiên

t ư c không ch là n l c cá nhân, mà còn có

c u c a mình. Nh ng k t qu
s h tr và giúp

t ư c trong

c a t p th giáo viên hư ng d n, nhà trư ng, b môn,

nghi p và gia ình. Tôi mu n bày t tình c m c a mình
Trư c tiên, tôi xin bày t s bi t ơn sâu s c
d n PGS TS T Minh Phương và PGS TS

ng

nv ih .

n t p th giáo viên hư ng

inh M nh Tư ng.

ư c làm vi c

v i hai th y là m t cơ h i l n cho tôi h c h i phương pháp nghiên c u. C m ơn
hai th y r!t nhi u vì s hư ng d n t n tình, nghiêm túc và khoa h c.
Tôi xin trân tr ng c m ơn B môn Khoa h c máy tính, Khoa Công ngh
thông tin, Phòng ào t o, Ban giám hi u trư ng

i h c Công ngh



ãt o i u

ki n thu n l i cho tôi trong su t quá trình th c hi n lu n án.
Tôi xin c m ơn t p th Lãnh

o H c Vi n Công ngh Bưu chính Vi"n

thông, cán b , gi ng viên khoa Công ngh thông tin – H c Vi n Công ngh
Bưu chính Vi"n thông ã c# v$

ng viên tôi trong quá trình nghiên c u.

Tôi c m ơn t!t c nh ng ngư i b n c a tôi, nh ng ngư i luôn chia s% và c#
v$ tôi trong nh ng lúc khó kh&n và tôi luôn ghi nh
Cu i cùng, tôi xin bày t lòng bi t ơn vô h n
luôn bên c nh ng h , giúp

tôi.

2

i u ó.
i v i cha m' và gia ình ã


M CL C

PH(N M)

(U .........................................................................................................

1. Tính c!p thi t c a lu n án ........................................................................... 11
2. M*c tiêu c a lu n án ................................................................................... 12
3. Các óng góp c a lu n án ........................................................................... 13
4. B c*c c a lu n án ...................................................................................... 15
CH+ƠNG 1. T-NG QUAN V. L/C THÔNG TIN CHO H0 T+ V1N .........16
1.1. GI2I THI0U CHUNG................................................................................ 16
1.1.1. Ki n trúc t#ng quát c a h th ng l c thông tin .................................. 17
1.1.2. L c thông tin và truy v!n thông tin..................................................... 18
1.1.3. H c máy và l c thông tin..................................................................... 19
1.1.4. L c thông tin và các h tư v!n............................................................ 21
1.2. PH+ƠNG PHÁP L/C THEO N3I DUNG.............................................. 24
1.2.1. Bài toán l c theo n i dung .................................................................. 25
1.2.2. Các phương pháp pháp l c theo n i dung............................................ 25
1.2.2.1. L c n i dung d a vào b nh ........................................................ 25
1.2.2.2. L c n i dung d a vào mô hình...................................................... 28
1.2.3. Nh ng v!n

t n t i............................................................................. 29

1.3. PH+ƠNG PHÁP L/C C3NG TÁC .......................................................... 30
1.3.1. Bài toán l c c ng tác............................................................................. 30
1.3.2. Các phương pháp l c c ng tác............................................................. 32
1.3.2.1. L c c ng tác d a trên b nh ....................................................... 32
1.3.2.2. L c c ng tác d a vào mô hình ..................................................... 35
1.3.3. Nh ng v!n

t n t i............................................................................. 38

1.4. PH+ƠNG PHÁP L/C K4T H5P.............................................................. 39
1.4.1. Bài toán l c k t h p .............................................................................. 39
1.4.2. Các phương pháp l c k t h p............................................................... 40
1.4.3. Nh ng v!n

còn t n t i .................................................................... 42

1.5. K4T LU6N ................................................................................................. 42
3


CH+ƠNG 2. L/C C3NG TÁC B7NG PH+ƠNG PHÁP H/C A NHI0M......
2.1. 8T V1N .............................................................................................. 44
2.1.1. V!n

d li u thưa c a l c c ng tác .................................................. 44

2.1.2. 9nh hư:ng c a v!n

d li u thưa .................................................... 45

2.1.3. Các phương pháp h n ch v!n

d li u thưa................................... 46

2.2. L/C C3NG TÁC B7NG PHÂN LO;I ................................................... 48
2.2.1. Phát bi u bài toán l c c ng tác b2.2.2. Phân lo i b2.3. PHÂN LO;I V2I CÁC 8C TR+NG CHUNG .................................... 56
2.3.1. Phương pháp h c a nhi m ................................................................. 56
2.3.2. Boosting

ng th i cho nhi u bài toán phân lo i............................... 59

2.3.2.1. Xây d ng hàm m*c tiêu................................................................ 59
2.3.2.2. Xây d ng b phân lo i y u........................................................... 60
2.2.2.3.

ph c t p thu t toán .................................................................. 63

2.4. TH= NGHI0M VÀ K4T QU9 ................................................................. 65
2.4.1. Phương pháp th nghi m..................................................................... 65
2.4.2. D li u th nghi m .............................................................................. 65
2.4.3. So sánh và ánh giá d a vào giá tr> MAE .......................................... 67
2.4.4. K t qu th nghi m.............................................................................. 67
2.4.5. Phân tích k t qu .................................................................................. 69
2.5. K4T LU6N ................................................................................................. 72
CH+ƠNG 3. L/C K4T H5P D?A TRÊN MÔ HÌNH @ THA............................
3.1. V1N . L/C K4T H5P........................................................................... 73
3.2. L/C C3NG TÁC D?A TRÊN MÔ HÌNH @ THA ............................... 75
3.2.1. Phương pháp bi u di"n
3.2.2. Phương pháp d
3.2.2.1. CDch

th>.............................................................. 75

oán trên

th> Ngư i dùng- S n phBm ................ 76

EFG> Ngư i HIng-EJ n phBm FGKnh LDc

EFG>Econ .............. 78

3.2.2.2. Phương MGDp d E NDn trên

EFG>EG+................................................ 80

3.2.2.3. Phương MGDp d E NDn trên

EFG>EG- ................................................ 83
4


3.2.2.4. Phương MGDp d E NDn theo t!t L E Dnh OPD...................................... 85
3.3. K4T H5P L/C C3NG TÁC VÀ L/C N3I DUNG ............................... 88
3.3.1. Bi u di"n

th> k t h p....................................................................... 88

3.3.2. Xây d ng liên k t ngư i dùng và n i dung s n phBm ....................... 91
3.3.3. Phương pháp d

oán .......................................................................... 95

3.3.3.1. L c c ng tác d a trên mô hình

th> k t h p............................. 95

3.3.3.2. L c n i dung d a trên mô hình

th> k t h p ............................ 95

3.3.3.3. Phương pháp l c k t h p ơn gi n............................................... 96
3.3.3.4. Phương pháp k t h p

xu!t ....................................................... 96

3.3.4. Thu t toán lan truy n m ng ............................................................... 102
3.4. TH= NGHI0M VÀ K4T QU9 ............................................................... 103
3.4.1. D li u th nghi m ............................................................................ 104
3.4.2. Phương pháp th nghi m................................................................... 105
3.4.3. So sánh và ánh giá d a vào Precision, Recall và F-measure......... 105
3.4.4. Phân tích k t qu ................................................................................ 107
3.4.5. Trư ng h p d li u thưa .................................................................... 110
3.5. K4T LU6N ............................................................................................... 111
K4T LU6N....................................................................................................... 113
DANH MQC CÁC CÔNG TRÌNH CÔNG BR............................................. 116
TÀI LI0U THAM KH9O (TI4NG VI0T):.................................................... 117
TÀI LI0U THAM KH9O (TI4NG ANH): .................................................... 117
PHQ LQC 1 XÂY D?NG H0 THRNG T+ V1N L?A CH/N PHIM D?A
TRÊN MÔ HÌNH @ THA K4T H5P.................................................................127

5


DANH M C CÁC CH
KÝ HI U

VI T T T
DI N GI I

AM

Aspect Model (Mô hình >nh hư ng)

AU

Active User (Ngư i dùng hi n th i)

CBF

Content-Based Filtering (L c d a trên n i dung)

CF

Collaborative Filtering (L c c ng tác)

DAC

Data Analyser Component (Thành ph n phân tích d li u)

DBC

Data-Based Concept (Nguyên lý d a vào d li u)

DF

Degree of Freedom (S b c t do)

EM

Expectation Maximization (C c

FC

Filtering Component (Thành ph n l c)

FMM

Flexible Mixture Model (Mô hình pha tr n linh ho t)

IBL

Instance-Based Learning (H c d a trên ví d*)

IDF

Inverse Document Frequency (T n su!t xu!t hi n ngư c)

IE

Information Extraction (CDch thông tin)

IF

Information Filtering (L c thông tin)

IO

Information Overload (Quá F i thông tin)

IR

Information Retrieval (Truy v!n thông tin)

KNN

K Neareast Neighbor (K ngư i láng gi ng g n nh!t)

KPC

i kS v ng)

KNN Pearson Correlation (Phương pháp K ngư i láng gi ng g n
nh!t d a trên

tương quan Pearson)

LC

Learning Component (Thành ph n h c)

LL

Lazy Learning (H c lư i)

LSE

Least Square Estimation (+ c lư ng bình phương t i thi u)

LSM

Latent Semantic Model (Mô hình ng ngh a Bn)

MAE

Mean Absolute Error (Trung bình giá tr> tuy t

MBF

Memory-Based Filtering (L c d a vào b nh )

MC

Multiclass Classification (Phân lo i nhi u l p)

MDBF

Model-Based Filtering (L c d a vào mô hình)

ML

Machine Learning (H c máy)

MM

Multinomial Model (Mô hình a th c)
6

i l i)


MMM

Multinomial Mixture Model (Mô hình pha tr n a th c)

MTL

Multi Task Learning (H c a nhi m)

PCA

Principal Components Analysis (Phân tích thành ph n chính)

RS

Recommender System (H th ng tư v!n)

SD

Standard Deviation (

SDP

Sparsity Data Problem (V!n

SE

Standard Error (L i chuBn)

STL

Single Task Learning (Phương pháp h c ơn l%)

SVD

Singular Value Decomposition (Phân TUEgiá tr> riêng)

SVM

Support Vector Machine (VDy h Etr EWXctơ)

TF

Term Frequency (T n su!t)

UMC

User-Model Component (Thành ph n mô hình ngư i dùng)

URP

User Rating Profile (H Esơ Dnh OPDEngư i HIng)

l ch chuBn)

7

d li u thưa)


DANH M C CÁC HÌNH

Hình 1.1. Ki n trúc t#ng quát c a h th ng l c thông tin. ...................................17
Hình 1.2. Các thành ph n c a h th ng l c c ng tác ...........................................31
Hình 2.1. Thu t toán GentleBoost. ........................................................................52
Hình 2.2. Phương pháp STL cho b n bài toán phân lo i

c l p nhau...............58

Hình 2.3. Phương pháp h c MTL cho b n bài toán phân lo i

ng th i............58

Hình 2.4. Thu t toán MC-Boost c i ti n s d*ng Yc trưng chung cho nhi u bài
toán. ..........................................................................................................................62
Hình 2.5. Phương pháp duy t t p con các bài toán phân lo i..............................64
Hình 3.1.

th> Ngư i dùng- S n phBm ..............................................................76

Hình 3.2.

th> G+ bi u di"n các ánh giá thích h p ..........................................79

Hình 3.3.

th> G- bi u di"n các ánh giá không thích h p. ..............................80

Hình 3.4. Thu t toán d

oán trên

EFG>EG+ .........................................................81

Hình 3.5. Thu t toán d

oán trên

EFG>EG- .........................................................84

Hình 3.6. Thu t toán d

oán trên t!t c

ánh giá................................................86

Hình 3.7.

th> k t h p ngư i dùng và n i dung s n phBm ...............................90

Hình 3.8.

th> thi t l p liên k t gi a ngư i dùng và Yc trưng n i dung ........94

Hình 3.9. Thu t toán d

oán trên

th> k t h p.................................................99

Hình 3.10. Thu t toán lan truy n m ng...............................................................103
Hình 3.11. Giá tr> F-Measure : các m c

8

thưa th t d li u...........................111


DANH M C CÁC B NG
B ng 1.1. Phân lo i các phương pháp tư v!n và m t s nghiên c u i n hình...23
B ng 1.2. Ví d* v ma tr n ánh giá c a l c c ng tác..........................................31
B ng 2.1. Ma tr n ánh giá ngư i dùng.................................................................45
B ng 2.2. Ma tr n

u vào c a l c c ng tác ..........................................................49

B ng 2.3. Ma tr n

u vào bài toán phân lo i theo ngư i dùng...........................50

B ng 2.4. Ma tr n

u vào bài toán phân lo i theo s n phBm ..............................50

B ng 2.5. K t qu th nghi m v i MovieLens .....................................................68
B ng 2.6. K t qu th nghi m v i EachMovie .....................................................68
B ng 2.7. Các tham s th ng kê v i K=5 ánh giá bi t trư c..............................70
c a t p d li u MovieLens......................................................................................70
B ng 2.8. Các tham s th ng kê v i K=10 ánh giá bi t trư c............................70
c a t p d li u MovieLens......................................................................................70
B ng 2.9. Các tham s th ng kê v i K=20 ánh giá bi t trư c............................71
c a t p d li u MovieLens......................................................................................71
B ng 2.10. Các tham s th ng kê v i K=5 ánh giá bi t trư c............................71
c a t p d li u EachMovie .....................................................................................71
B ng 2.11. Các tham s th ng kê v i K=10 ánh giá bi t trư c .........................71
c a t p d li u EachMovie .....................................................................................71
B ng 2.12. Các tham s th ng kê v i K=20 ánh giá bi t trư c .........................72
c a t p d li u EachMovie .....................................................................................72
B ng 3.1. Ma tr n ánh giá R.................................................................................74
B ng 3.2. Ma tr n S n phBm – N i dung Y...........................................................74
B ng 3.3. Ma tr n X bi u di"n ánh

th> Ngư i dùng- S n phBm ...................76

+

B ng 3.4. Ma tr n X bi u di"n LDc ánh giá thích h p........................................79
B ng 3.5. Ma tr n X- bi u di"n LDc ánh giá không thích h p ............................80
B ng 3.6. Ma tr n ánh giá R.................................................................................89
B ng 3.7. Ma tr n Ngư i dùng- S n phBm X........................................................89
9


B ng 3.8. Ma tr n S n phBm- N i dung Y ............................................................90
B ng 3.9. Giá tr> Precision, Recall, F-Measure ki m nghi m trên t p
MovieLens1 ...........................................................................................................106
B ng 3.10. Giá tr> Precision, Recall, F-Measure ki m nghi m trên t p
MovieLens2 ...........................................................................................................107
B ng 3.11. K t qu ki m nghi m paired t-test v i K=10 s n phBm c n tư v!n ......
trên t p MovileLens1 ............................................................................................108
B ng 3.12. K t qu ki m nghi m paired t-test v i K=20 s n phBm c n tư v!n ......
trên t p MovileLens1 ............................................................................................109
B ng 3.13. K t qu ki m nghi m paired t-test v i K=50 s n phBm c n tư v!n ......
trên t p MovieLens1..............................................................................................109
B ng 3.14. K t qu ki m nghi m paired t-test v i K=10 s n phBm c n tư v!n ......
trên t p MovileLens2 ............................................................................................109
B ng 3.15. K t qu ki m nghi m paired t-test v i K=20 s n phBm c n tư v!n ......
trên t p MovileLens2 ............................................................................................110
B ng 3.16. K t qu ki m nghi m paired t-test v i K=50 s n phBm c n tư v!n ......
trên t p MovileLens2 ............................................................................................110

10


PH N M

U

1. Tính c p thi t c a lu n án
V!n
l n

quá t i thông tin (Information Overload) ư c J.Denning nêu ra

u tiên vào n&m 1982 [49]. V i nh ng lý lZ và b
Denning kh[ng >nh kh n&ng l a ch n thông tin h u ích c a ngư i dùng máy
tính sZ gYp khó kh&n nghiêm tr ng b:i s gia t&ng không ng ng lư ng thông tin
kh#ng l

n t hàng tr&m kênh truy n hình, hàng tri u b&ng hình, sách, báo, t p

chí, tài li u thông qua các h th ng giao d>ch i n t . V!n
ngay l p t c ư c c ng

Denning công b

ng các nhà khoa h c máy tính nhi t tình hư:ng ng và

t p trung nghiên c u phương pháp h n ch

nh hư:ng c a v!n

quá t i thông tin

i v i ngư i dùng, thúc By m t l nh v c nghiên c u m i ó là l c thông tin.
L c thông tin (Information Filtering) là l nh v c nghiên c u các quá trình
\ c ] Enh ng thông tin không thích h p và cung c!p thông tin thích h p

nv i

m i ngư i dùng. L c thông tin ư c xem là phương pháp hi u qu h n ch tình
tr ng quá t i thông tin ư c quan tâm nhi u nh!t hi n nay.
L c thông tin ư c ti p c n theo hai xu hư ng chính, ó là l c d a trên tri
th c và l c d a trên d li u. Trong trư ng h p d a vào tri th c, h th ng th c
hi n l c thông tin bphương pháp này là

có ư c m t t p lu t

t t òi h i chi phí nhi u th i gian

và kinh nghi m c a chuyên gia; vi c c p nh t các lu t không th th c hi n ư c
t
bi n

ng vì ngu n d li u vào thư ng không có c!u trúc và luôn trong tr ng thái
ng. Chính vì v y, l c d a trên tri th c có xu hư ng ít ư c s d*ng.
i v i các h th ng l c d a trên d li u, các quy t c l c ư c xây d ng t

d li u mà h th ng thu th p ư c bh c máy. Cách ti p c n này cho phép t

ng c p nh t các quy t c l c và không

l thu c vào tri th c chuyên gia. H th ng l c d a trên d li u có kh n&ng thích
nghi cao và t n d*ng ư c ngu n d li u. Chính vì v y, cách ti p c n này ư c
quan tâm nghiên c u hơn so v i phương pháp d a vào tri th c.
11


H tư v!n (Recommender System) là h th ng có kh n&ng t

ng phân

tích, phân lo i, l a ch n và cung c!p cho ngư i dùng nh ng thông tin, hàng hóa
hay d>ch v* mà h quan tâm. H tư v!n ư c xem như m t bi n th

i n hình có

vai trò quan tr ng trong l c thông tin. Nhi u h tư v!n ã ư c thương m i hóa và
tri n khai thành công, tiêu bi u là h

tư v!n c a các hãng Amazon.com,

Netflix.com, Procter & Gamble.
H tư v!n ư c xây d ng d a trên hai k^ thu t l c thông tin chính: L c
theo n i dung (Content-Based Filtering) và l c c ng tác (Collaborative Filtering).
L c theo n i dung khai thác nh ng khía c nh liên quan

n n i dung thông tin s n

phBm ngư i dùng ã t ng s d*ng hay truy nh p trong quá kh
Trái l i, l c c ng tác khai thác nh ng khía c nh liên quan
s n phBm c a c ng

ng ngư i dùng có cùng s: thích

t o nên tư v!n.

n thói quen s d*ng

t o nên tư v!n.

Trong quá trình nghiên c u và ng d*ng, bên c nh nh ng v!n
c a bài toán l c thông tin thông thư ng, xu!t hi n m t s v!n
thù

chung

mang tính Yc

i v i thông tin tư v!n như tính thưa th t d li u hu!n luy n, x lý ngư i

dùng m i, hàng hóa m i, yêu c u k t h p các d ng thông tin khác nhau, làm vi c
v i d li u kích thư c l n ư c c p nh t thư ng xuyên. MYc dù ã có nhi u
nghiên c u nh m t i n i dung này, nhưng ây v n là nh ng v!n
m:, có tính th i s và thu hút s qua tâm c a c ng
tài “Phát tri n m t s ph

nghiên c u

ng nghiên c u.

ng pháp l c thông tin cho h t v n” ư c

th c hi n trong khuôn kh# lu n án ti n s chuyên ngành khoa h c máy tính nhgóp ph n gi i quy t m t s v!n

còn t n t i c a l c thông tin cho các h tư v!n.

2. M c tiêu c a lu n án
M*c tiêu c a lu n án là nghiên c u áp d*ng, c i ti n m t s k^ thu t h c
máy nh
chính xác c a l c thông tin trong các h tư v!n.

nghiên c u t p trung vào vi c nâng cao k t qu d

Yc bi t,

oán nhu c u ngư i dùng

trong trư ng h p d li u thưa, c$ng như trong trư ng h p có c d li u s: thích
ngư i dùng và thông tin n i dung s n phBm.

12


3. Các óng góp c a lu n án
óng góp th nh t c a lu n án là

xu t áp d ng m t k thu t Boosting

c i ti n cho nhi u bài toán phân lo i vào l c c ng tác [3, 81], bao g m:
-

xu!t phương pháp gi i quy t bài toán l c c ng tác bBoosting d a trên bi u di"n d li u phù h p cho bài toán phân lo i c a
h c máy;

-

_p H*ng k^ thu t Boosting L i ti n cho nhi u bài toán phân lo i bphương pháp h c a nhi m d a trên g c quy t >nh (Decision Stump) cho
\ c c ng FDc nh
-

Ed Eli u thưa;

Th nghi m và ánh giá k t qu phương pháp c i ti n, Yc bi t chú tr ng
ánh giá k t qu d

oán trong trư ng h p d li u thưa c a l c c ng tác.

H u h t các phương pháp h c máy cho l c c ng tác hi n nay

u th c hi n

nh ng nhi m v* h c ơn l% (Single Task Learning) v i gi thi t d li u hu!n
luy n và d li u ki m tra ư c mô t trong cùng m t không gian các giá tr> Yc
trưng v i cùng m t phân b . Khi phân b thay #i, t p d li u hu!n luy n và d
li u ki m tra ph i xây d ng l i. Trên th c t , vi c làm này không ph i lúc nào
c$ng th c hi n ư c làm cho k t qu d

oán các phương pháp kém tin c y.

MYt khác, t i m i th i i m, phương pháp ch th c hi n m t nhi m v* ơn
l%, k t qu c a m i nhi m v* c* th hoàn toàn

c l p v i các nhi m v* khác.

Chính vì v y, phương pháp ti p c n này sZ gYp khó kh&n khi d li u hu!n luy n
thưa th t.

gi i quy t v!n

này, lu n án

xu!t áp d*ng phương pháp h c a

nhi m (Multi-Task Learning) cho l c c ng tác nhgi a các nhi m v* h c ơn l%. T p thông tin chung tìm ư c óng vai trò chia s%
và b# sung thông tin vào quá trình hu!n luy n cho m i ngư i dùng khác nhau,
góp ph n nâng cao k t qu d

oán và h n ch

li u thưa trong l c c ng tác.

13

ư c nh hư:ng c a tình tr ng d


óng góp th hai c a lu n án là
trên mô hình
-

xu t m t ph

ng pháp l c k t h p d a

th [2, 80], bao g m:

Bi u di"n m i liên h gi a các

i tư ng tham gia h th ng l c (Ngư i

dùng, s n phBm và n i dung s n phBm) d a vào mô hình

th>;

-

Xây d ng phương pháp d

oán cho l c c ng tác d a trên mô hình

th>.

-

Xây d ng phương pháp trích ch n Yc trưng n i dung s n phBm d a trên
thói quen s d*ng s n phBm c a ngư i dùng;

-

Cá nhân hóa nh hư:ng c a các Yc trưng n i dung

i v i thói quen s

d*ng s n phBm c a ngư i dùng;
-

Áp d*ng thu t toán lan truy n m ng trên

th> k t h p

d

oán, phân

b# các s n phBm cho m i ngư i dùng;
-

Th nghi m và ánh giá k t qu phương pháp

xu!t.

t n d*ng l i th c a m i phương pháp l c, lu n án

xu!t phương pháp

k t h p gi a l c c ng tác và l c n i dung d a trên bi u di"n

th> các

i tư ng

tham gia quá trình l c, bao g m: ngư i dùng, s n phBm, ánh giá ngư i dùng và
n i dung s n phBm.
tránh nh ng h n ch c a các phương pháp l c k t h p trư c ây (phương
pháp trích ch n Yc trưng n i dung ch d a vào n i dung s n phBm), lu n án
xu!t phương pháp trích ch n Yc trưng n i dung d a vào thói quen ngư i dùng
i v i s n phBm. D a trên phương pháp này, nh ng Yc trưng n i dung ư c
xem là quan tr ng v i m i ngư i dùng ư c gi l i
Vi c tìm ra nh ng Yc trưng có nh hư:ng quan tr ng

ph*c v* m*c tiêu d

oán.

n thói quen ngư i dùng

không ch làm gi m chi phí tính toán c a phương pháp (vì s lư ng các Yc trưng
n i dung quan tr ng

i v i m i ngư i dùng còn l i r!t ít), mà còn lo i b

nh ng Yc trưng không nh hư:ng hoYc nh hư:ng không t t

ư c

n thói quen s

d*ng s n phBm c a ngư i dùng.
Phương pháp d

oán ư c ưa v bài toán tìm ki m trên

t n d*ng ư c các thu t toán hi u qu trên
h gián ti p gi a các

th> mà còn t n d*ng ư c m i liên

i tư ng tham gia h th ng.

14

th> không ch


Phương pháp l c k t h p

xu!t ư c th nghi m và áp d*ng cho h th ng

tư v!n l a ch n phim ã cho l i k t qu d

oán t t. H th ng cho phép xem,

ánh giá, bình lu n và g i ý nh ng phim ư c xem h p v i s: thích ng v i m i
ngư i dùng. H th ng g m b n ch c n&ng chính: Ch c n&ng c p nh t, phân tích
thông tin ngư i dùng và s n phBm; ch c n&ng h c; ch c n&ng l c và ch c n&ng tư
v!n. Trong ó, ch c n&ng h c và l c ư c th c hi n theo phương pháp l c k t
h p

xu!t.

4. B c c c a lu n án
N i dung lu n án ư c xây d ng thành ba chương và m t ph* l*c, trong ó:
Ch ơng 1. gi i thi u t#ng quan v l c thông tin. Trình bày nh ng nghiên
c u cơ b n c a l c thông tin, các phương pháp l c thông tin cho h tư v!n và
nh ng v!n

c n ti p t*c nghiên c u c a m i phương pháp. Trên cơ nh ng

nghiên c u cơ b n, xác >nh rõ hư ng nghiên c u c a

tài. M t k t qu nghiên

tài ư c công b trong [4].

c u cơ b n c a

Ch ơng 2. trình bày phương pháp h n ch

nh hư:ng c a v!n

d li u

thưa trong l c c ng tác btrong chương này ư c t#ng h p d a trên k t `a Enghiên c u UEcông b Etrong [3,
81].
Ch ơng 3. trình bày phương pháp k t h p gi a l c c ng tác và l c n i dung
d a trên mô hình

th>. N i dung trình bày trong chương này ư c t#ng h p t

k t qu nghiên c u UEcông b Etrong [2, 80]. Cu i cùng là m t s k t lu n và
xu!t các nghiên c u ti p theo.
Ph n ph l c. trình bày thi t k và xây d ng ng d*ng cho phương pháp l c
k th p ư c

xu!t trong Chương 3.

15


CHƯƠNG 1
T NG QUAN V L C THÔNG TIN CHO H TƯ V N
Chương này trình bày nh ng v!n

t#ng quan v l c thông tin, các

phương pháp l c thông tin cho h tư v!n cùng v i nh ng h n ch t n t i m i
phương pháp. Trên cơ s: nh ng nghiên c u cơ b n, xác >nh rõ hư ng nghiên
c u c* th c a

tài. Nh ng k t qu nghiên c u c a

tài sZ ư c trình bày

trong các chương ti p theo c a lu n án.
Do l c thông tin là l nh v c nghiên c u có ph m vi r ng l n, sau khi trình
bày ng n v l c thông tin nói chung, lu n án t p trung trình bày vào ch
nghiên c u chính c a lu n án ó là v!n

l c trong các h tư v!n.

1.1. GI I THI U CHUNG
L c thông tin (IF) là l nh v c nghiên c u các quá trình cung c!p thông tin
thích h p, ng&n ng a và g b thông tin không thích h p cho m i ngư i dùng
[75, 99]. Thông tin ư c cung c!p (còn ư c g i là s n phBm) có th là v&n b n,
trang web, phim, nh, d>ch v* hoYc b!t kS d ng thông tin nào ư c s n sinh ra t
các phương ti n truy n thông. Ph m vi ng d*ng c a l c thông tin tr i r ng
trong nhi u ng d*ng th c t khác nhau c a khoa h c máy tính. bng d*ng tiêu
bi u nh!t c a l c thông tin ư c k

n là l c k t qu tìm ki m trong các cDy

Fdm ki m (Search Engine), l c e-mail d a trên n i dung thư WKE h sơ ngư i
dùng, l c thông tin v&n b n trên các máy ch

cung c!p thông tin cho t p th

hoYc cá nhân thích h p, lo i b nh ng trang thông tin có nh hư:ng không t t
i v i ngư i dùng.

Yc bi t, l c thông tin có vai trò quan tr ng cho các h

th ng tư v!n (RS) ng d*ng trong thương m i i n t .
Các h th ng l c thông tin có th khác nhau v nguyên lý, phương pháp,
k^ thu t, ph m vi ng d*ng nhưng

u th c hi n m*c tiêu cung c!p cho ngư i

dùng nh ng thông tin c n thi t nh!t, lo i b nh ng thông tin không có giá tr>
hoYc không thích h p

i v i ngư i dùng. Nguyên lý ph# bi n ư c dùng trong

16


l c thông tin là nguyên lý d a vào d li u (Data-Based) và nguyên lý d a vào tri
th c (Knowledge-Based) [99]. Các phương pháp l c có th

ư c th c hi n d a

vào n i dung thông tin s n phBm hoYc l c d a trên thói quen s: thích ngư i
dùng. Các k^ thu t l c ư c phát tri n d a trên n n t ng t l nh v c truy v!n
thông tin (Information Retrieval), tách thông tin (Information Extraction), phân
lo i thông tin (Information Classificarion). Ph m vi ng d*ng c a các h th ng
l c ư c áp d*ng cho t!t c các mô hình thương m i i n t th c t : Khách hàng
- Khách hàng (Customer to Customer), Nhà cung c!p - Khách hàng (Business to
Customer), Nhà cung c!p - Nhà cung c!p (Business to Business) [75].
1.1.1. Ki n trúc t ng quát c a h th ng l!c thông tin
M t h th ng l c thông tin t#ng quát bao g m b n thành ph n cơ b n
[99]: Thành ph n phân tích d li u (Data Analyser Component), thành ph n mô
hình ngư i dùng (User Model Component), thành ph n h c (Learning
Component) và thành ph n l c ( Filtering Component).
Thành ph n mô
hình ngư i dùng

H sơ ngư i
dùng

Thành ph n
h c

Thông tin Yc t
ngư i dùng

Ngư i dùng

Ph n h i
ngư i dùng

S n phBm
phù h p v i
ngư i dùng

C p nh t thông
tin hu!n luy n
Bi u di"n Thông
tin s n phBm

Thành ph n l c

Nhà cung c!p
thông tin
Thông tin các
s n phBm

Bi u di"n Thông
tin s n phBm

Thành ph n
phân tích d
li u

Hình 1.1. Ki n trúc t ng quát c a h th ng l c thông tin.
• Thành ph n phân tích d li u (DAC) có nhi m v* thu th p d li u v s n
phBm t các nhà cung c!p thông tin (ví d* tài li u, thư i n t , sách, báo, t p
chí, phim, nh...). D li u v s n phBm ư c phân tích và bi u di"n theo m t
khuôn d ng thích h p, sau ó chuy n

17

n b ph n l c như Hình 1.1.


• Thành ph n mô hình ng

i dùng (UMC) có th “hi n” hoYc “Bn” dùng

l!y

thông tin v ngư i dùng, như gi i tính, tu#i, nơi sinh s ng và thông tin ngư i
dùng ã truy v!n trư c ó

t o nên h sơ ngư i dùng. H sơ ngư i dùng

sau khi t o ra ư c chuy n

n thành ph n h c

th c hi n nhi m v* hu!n

luy n.
• Thành ph n h c (LC) th c hi n hu!n luy n trên t p h sơ và ph n h i c a
ngư i dùng theo m t thu t toán h c máy c* th . Thu t toán h c l!y d li u t
thành ph n mô t ngư i dùng; l!y d li u v s n phBm ã ư c bi u di"n t
thành ph n l c k t h p v i thông tin ph n h i ngư i dùng

th c hi n nhi m

v* hu!n luy n. K t qu quá trình h c ư c chuy n l i cho b ph n l c
th c hi n nhi m v* ti p theo.
• Thành ph n l c (FC) là thành ph n quan tr ng nh!t c a h th ng, có nhi m
v* xem xét s phù h p gi a h sơ ngư i dùng và bi u di"n d li u s n phBm
ưa ra quy t >nh phân b# s n phBm. N u d li u s n phBm phù h p v i
h sơ ngư i dùng, s n phBm sZ ư c cung c!p cho ngư i dùng ó. Trong
trư ng h p ngư c l i, h th ng lo i b s n phBm kh i danh sách nh ng s n
phBm phân b# cho ngư i dùng. Ngư i dùng nh n ư c nh ng s n phBm thích
h p, xem xét, ánh giá, ph n h i l i cho thành ph n h c

ph*c v* quá

trình l c ti p theo.
1.1.2. L!c thông tin và truy v n thông tin
Belkin và Croft [75] nhìn nh n l c thông tin và truy v!n thông tin như hai
mYt c a cùng m t v!n

. Chính vì v y, nhi u Yc trưng cơ b n c a l c thông tin

có th tìm th!y trong l nh v c truy v!n thông tin (IR). Tuy nhiên, ta có th phân
bi t s khác bi t gi a hai h th ng này thông qua vi c so sánh m t s

Yc trưng

cơ b n dư i ây.
• Ki u ng

i dùng. H th ng truy v!n thông tin áp ng nhu c u cho t!t c

ngư i dùng t i m i th i i m mà không c n quan tâm
18

n h là ai. Trái


l i, l c thông tin quan tâm

n nh ng ngư i dùng thư ng xuyên s d*ng

h th ng dùng, có h sơ rõ ràng, có m i quan tâm dài h n

i v i h

th ng và luôn nh n ư c thông tin thích h p t h th ng : m i th i i m.
• Bi u di n nhu c u thông tin. H th ng truy v!n thông tin bi u di"n nhu
c u ngư i dùng b!t kS dư i d ng m t câu truy v!n. L c thông tin bi u
di"n nhu c u ngư i dùng lâu dài h th ng dư i d ng m t h sơ ngư i
dùng. H sơ ngư i dùng không ch ghi l i các Yc trưng thông tin cá nhân,
mà còn bao hàm các Yc trưng liên quan

n l>ch s truy c p hay thói

quen s d*ng thông tin c a ngư i dùng này.
• M c tiêu h th ng. H th ng truy v!n thông tin quan tâm

n các phương

pháp cung c!p thông tin thích h p cho m i ngư i dùng phù h p v i truy
v!n c a ngư i dùng này. L c thông tin quan tâm

n các phương pháp g

b d li u hơn là vi c n l c tìm ki m thêm d li u. C$ng vì lý do này,
l c thông tin ư c xem là phương pháp gi m t i thông tin chính ư c
quan tâm nh!t hi n nay.
• C s d li u. H th ng truy v!n thông tin th c hi n cung c!p thông tin
trên các cơ s: d li u t nh. L c thông tin cung c!p thông tin trên cơ s: d
li u

ng, có c!u trúc khác nhau và thư ng xuyên bi n #i.

• Ph m vi t

ng tác. H th ng truy v!n không quan tâm

n s tương tác

gi a nh ng ngư i dùng khác nhau. L c thông tin quan tâm

n s tương

ng theo s: thích, thói quen hay nh ng Yc trưng xã h i, t nhiên khác
nhau c a t p ngư i dùng. H th ng luôn có m t mô hình ngư i dùng
gi l i nh ng Yc trưng c n thi t cho m i ngư i dùng.
1.1.3. H!c máy và l!c thông tin
H!c máy (Machine Learning). H c máy là l nh v c nghiên c u c a trí
tu nhân t o t p trung vào vi c ra quy t >nh hoYc phát hi n tri th c d a trên
d li u [1, 85, 97]. Các k^ thu t h c máy ư c s d*ng trong vi c d
19

oán (ví


d* d

oán nhu c u ngư i dùng), phân lo i, x p h ng (ví d* phân lo i, x p

h ng thông tin, phân lo i ngư i dùng).
L c thông tin có cùng chung m*c tiêu v i h c máy (ML) ó là cung c!p
thông tin c n thi t cho m i ngư i dùng d a trên nh ng gì có th h c t nh ng
kinh nghi m c a c ng

ng trong quá kh . Chính vì v y, thành ph n l c thông

tin ư c xây d ng theo hai cách ti p c n chính c a h c máy: l c d a trên tri
th c và l c d a trên d li u.
L!c d"a trên tri th#c (KBC). Thông tin ư c l c bcác lu t. M i lu t bi u di"n nhu c u thông tin ngư i dùng hoYc m t m u thông
tin c n l c. M i quy t >nh l c sZ ư c th c hi n n u nh ng i u ki n c a lu t
ưa ra ư c th a mãn. Ví d* trong h th ng l c thư i n t , m i lu t có th
ư c >nh ngh a và áp d*ng cho các trư ng tiêu
ch

thư (Ngư i g i, ngày g i,

...).
i m quan tr ng c a cách ti p c n này là các lu t do ngư i dùng

(chuyên gia) cung c!p d a trên kinh nghi m hay tri th c c a mình. +u i m
c a cách ti p c n này là h th ng sZ ơn gi n hơn do không c n s d*ng các k^
thu t h c t

ng. Như c i m là vi c xây d ng các lu t l c t t òi h i nhi u

th i gian, kinh nghi m c a chuyên gia. Vi c c p nh t các lu t c$ng không th
th c hi n t

ng. Do như c i m này, l c d a trên tri th c có xu hư ng ít

ư c s d*ng.
L!c d"a trên d$ li u (DBC). Khác v i l c d a trên tri th c, trong cách
ti p c n d a trên d li u, các quy t c cho thành ph n l c ư c xây d ng t d
li u mà h th ng thu th p ư c bthu t toán h c máy. Cách ti p c n này cho phép t o ra và c p nh t quy t c l c
thông tin mà không c n t i tri th c chuyên gia,

ng th i ch!t lư ng l c có th

t t hơn so v i cách ti p c n d a trên tri th c, Yc bi t khi có lư ng d li u l n
và thư ng xuyên bi n

ng.

20


Do vi c thu th p d li u ngày càng nhanh và d", l c d a trên d li u
ang d n tr: thành cách ti p c n chính trong l c thông tin. Chính vì v y, lu n
án s t p trung nghiên c u k thu t l c thông tin cho h t v n d a trên cách
ti p c n này.
1.1.4. L!c thông tin và các h t v n
H t v n (RS) là trư ng h p riêng c a các h th ng l c thông tin. D a
trên thông tin ã có v ngư i dùng, h tư v!n xem xét trong s lư ng r!t l n
hàng hóa hay thông tin và tư v!n cho ngư i dùng m t danh sách ng n g n
nhưng

y

nh ng hàng hóa mà ngư i dùng có kh n&ng quan tâm [25, 26,

40, 51, 53, 54, 67, 70, 83].
S d*ng h tư v!n trong các ng d*ng thương m i i n t sZ h tr
khách hàng không c n th c hi n các thao tác tìm ki m s n phBm, mà ch c n
l a ch n hàng hóa hoYc d>ch v* ưa thích do h th ng cung c!p.

i u này sZ

làm gia t&ng n&ng l c mua, bán c a toàn b h th ng. Chính vì lý do này, hàng
lo t các công ty a qu c gia (Amazon.com, Netflix.com, CDNOW, J.C. Penney,
Procter & Gamble..) ã

u tư và phát tri n thành công công ngh tư v!n

gia t&ng h th ng khách hàng và bán hàng qua m ng [7].
Do là trư ng h p riêng c a h th ng l c tin, h tư v!n có nhi u Yc i m
c a h l c tin tiêu bi u. Tuy nhiên, do Yc i m c a d li u, ngư i dùng và n i
dung, h tư v!n c$ng như các k^ thu t ư c s d*ng có m t s khác bi t nh!t
>nh. Tùy vào phương pháp l c tin, các h tư v!n ư c phân lo i thành ba lo i:
T

v n d a vào ph

ng pháp l c theo n i dung (Content-Based Filtering

Recommendation), t v n d a vào ph

ng pháp l c c ng tác (Collaborative

Filtering Recommendation) và t v n d a vào ph
Filtering Recommendation)[36, 107].

21

ng pháp l c k t h p (Hybrid


• Ph

ng pháp t v n d a vào l c n i dung: H th ng tư v!n cho ngư i

dùng nh ng s n phBm m i có n i dung tương t v i m t s s n phBm h
ã t ng mua hoYc t ng truy nh p trong quá kh .
• Ph

ng pháp t v n d a vào l c c ng tác: Ngư i dùng sZ ư c tư v!n
ã t ng ưa thích

m t s s n phBm c a nh ng ngư i có s: thích gi ng h
trong quá kh .
• Ph

ng pháp t v n d a vào l c k t h p: H th ng tư v!n cho ngư i

dùng nh ng s n phBm tương t v i m t s s n phBm h

ã t ng mua

hoYc t ng truy nh p trong quá kh và s n phBm c a nh ng ngư i có s:
thích gi ng h

ã t ng ưa thích trong quá kh .

M i phương pháp l c áp d*ng cho các h tư v!n ư c phân thành hai
hư ng ti p c n [36, 107]: l c d a vào b nh (Memory-Based Filtering) và l c
d a vào mô hình (Model-Based Filtering).
• Các ph
69]:
d

ng pháp l c d a vào b nh (MBF) [21, 22, 29, 52, 57, 63, 64,

ây là phương pháp lưu l i toàn b các ví d* hu!n luy n. Khi c n
oán, h th ng tìm các ví d* hu!n luy n gi ng trư ng h p c n d

oán nh!t và ưa ra tư v!n d a trên các ví d* này. Trư ng h p tiêu bi u
c a l c d a vào b

nh

là thu t toán K ngư i láng gi ng g n nh!t

(KNN). +u i m chính c a phương pháp ti p c n này là ơn gi n, d" cài
Yt. Tuy nhiên, phương pháp này có th i gian l c ch m do vi c d

oán

òi h i so sánh và tìm ki m trên toàn b lư ng ngư i dùng và s n phBm.
• Ph

ng pháp l c d a trên mô hình (MDBF) [27, 30, 32, 33, 34, 35, 37,

41, 43, 45, 90, 95, 96, 108, 109, 121]. Trong phương pháp này, d li u
ư c s d*ng

xây d ng mô hình rút g n, ví d* mô hình xác su!t hay

cây quy t >nh. Mô hình này sau ó ư c s d*ng
Phương pháp này cho phép th c hi n vi c d
d

oán th c hi n trên mô hình ã h c trư c ó.

22

ưa ra các tư v!n.

oán nhanh, do quá trình


B ng 1.1 th ng kê m t s nghiên c u tiêu bi u các phương pháp l c
thông tin cho h tư v!n [36].
B ng 1.1. Phân lo i các phương pháp tư v!n và m t s nghiên c u i n hình
PHƯƠNG PHÁP TƯ V N D%A VÀO L C N&I DUNG
L!c n'i dung d"a vào b' nh(
L!c n'i dung d"a vào mô hình
Các k thu t thông d ng:
Các k thu t thông d ng:
• T n su!t xu!t hi n ngư c
• Mô hình m ng Bayes
• Phân c*m (Clustering)
• Mô hình phân c*m
• Mô hình cây quy t >nh
• Mô hình m ng nơ ron nhân t o
Nh ng nghiên c u i n hình:
Nh ng nghiên c u i n hình:
• Balabanovic và Shoham [69]
• Pazzani [74]
• Pazzani và Billsus [73]
• Mooney và Roy [92]
• Billsus và Pazzani [30]
• Zhang và các c ng s [113]
PHƯƠNG PHÁP TƯ V N D%A VÀO L C C&NG TÁC
L!c c'ng tác d"a vào b' nh(
L!c c'ng tác d"a vào mô hình
Các k thu t thông d ng:
Các k thu t thông d ng:
• K ngư i láng gi ng g n nh!t (K• Mô hình m ng Bayes
Nearest Neighbour) s d*ng
• Mô hình phân c*m
tương t cosin hoYc các
• Mô hình cây quy t >nh
tương quan.
• Mô hình m ng nơ ron nhân t o
• Phân c*m
• Mô hình h i qui tuy n tính

tương quan gián ti p
• Mô hình th ng kê
(Indirect Similarity)
• Mô hình
th>
Nh ng nghiên c u i n hình:
Nh ng nghiên c u i n hình:
• Resnick và các c ng s [83]
• Nakamura và Abe [11]
• Breese và các c ng s [52]
• Umyarov và Alexander
• Nakamura và Abe [11]
Tuzhilin [15, 16, 17]
• M. Deshpande and G. Karypis
• Ungar và Foster [68]
[72]
• Aggarwal và các c ng s [24]
• Sarwar và các c ng s [21]
• Chien và George [114]
• Yu và các c ng s [63, 64]
• Condliff và các c ng s [71]
• Herlocker và các c ng s [55]
• Kumar và các c ng s [89]
• Wang và các c ng s [57]
• Shani và các c ng s [41]
• Bell và Koren [86]
• Hofmann [95, 96]
• Desrosiers và Karypis [24]
• Marlin [18]
23


• Goldberg và các c ng s [62]








Si và Jin [66]
Getoor và Sahami [65]
Huang và các c ng s [119]
DeCoste [31]
Nikovski và Kulev [33]
Su và các c ng s [105, 106,
107]

PHƯƠNG PHÁP TƯ V N D%A VÀO L C K T H)P
L!c k t h*p d"a vào b' nh(
L!c k t h*p d"a vào mô hình
Các k thu t thông d ng:
Các k thu t thông d ng:
• T# h p tuy n tính k t qu d
• H p nh!t mô hình bi u di"n d
oán c a c hai phương pháp.
li u.
• K t h p các Yc tính c a l c
• H p nh!t mô hình d oán.
c ng tác vào l c n i dung.
• H p nh!t mô hình bi u di"n d
• K t h p các Yc tính c a l c n i
li u và mô hình d oán.
dung vào l c c ng tác.
• H p nh!t l c c ng tác và l c n i
dung trong cùng mô hình.
Nh ng nghiên c u i n hình:
Nh ng nghiên c u i n hình:
• Gunawardana và Meek [8]
• Basu và các c ng s [23]
• Billsus và Pazzani [29]
• Claypool và các c ng s [70]

Lazanas và Karacapilidis [10]
• Soboroff và Nicolas [46]
• Popescul và các c ng s [12]
• Billsus và Pazzani [30]
• Hofmann [96]
• Tran và Cohen [98]
• Huang và các c ng s [120,
• Melville và các c ng s [82]
121, 122]
• Adomavicius và các c ng s
• Su và các c ng s [104]
[37, 38, 39]
• Balisico và Hofmann [47]
• Anand và Bharadwaj [28]
• Good và các c ng s [76]
1.2. PHƯƠNG PHÁP L C THEO N&I DUNG
L c theo n i dung là phương pháp th c hi n d a trên vi c so sánh n i
dung thông tin hay mô t hàng hóa, nhnh ng gì mà ngư i dùng ã t ng quan tâm

gi i thi u cho h nh ng s n

phBm này [4, 6, 19, 69, 73, 84, 92]. Các phương pháp ti p c n cho l c theo n i
dung có ngu n g c t l nh v c truy v!n thông tin, trong ó m i s n phBm ư c
bi u di"n b24


h sơ ngư i dùng. Phương pháp d

oán n i dung nguyên b n c a s n phBm

th c hi n d a vào vi c xem xét các h sơ s n phBm có m c

phù h p cao v i

h sơ ngư i dùng [84].
1.2.1. Bài toán l!c theo n'i dung
Bài toán l c theo n i dung ư c phát bi u như sau. Cho P= {p1, p2,.., pN}
là t p g m N s n phBm. N i dung s n phBm p ∈P ư c ký hi u là Content(p)
ư c bi u di"n thông qua t p K Yc trưng n i dung c a P. T p các Yc trưng
s n phBm p ư c xây d ng bm*c ích d

th c hi n

oán nh ng s n phBm khác tương t v i p.

Cho U = {u1, u2,.., u M} là t p g m M ngư i dùng. V i m i ngư i dùng
u ∈U, g i ContentBasedProfile(u) là h sơ ngư i dùng u. H sơ c a ngư i
dùng u th c ch!t là l>ch s truy c p hoYc ánh giá c a ngư i ó

i v i các s n

phBm. ContentBasedProfile(u) ư c xây d ng bcác s n phBm mà ngư i dùng u ã t ng truy nh p hoYc ánh giá d a trên các
k^ thu t truy v!n thông tin.
Bài toán l c theo n i dung khi ó là d

oán nh ng s n phBm m i có n i

dung thích h p v i ngư i dùng d a trên t p h sơ s n phBm Content(p) và h
sơ ngư i dùng ContendBasedProfile(u).
1.2.2. Các ph ơng pháp pháp l!c theo n'i dung
Như ã trình bày : trên, l c theo n i dung ư c ti p c n theo hai xu hư ng:
l c d a trên b nh và l c d a trên mô hình. N i dung c* th các phương pháp
ư c th c hi n như dư i ây.

1.2.2.1. L!c n'i dung d"a vào b' nh(
L c n i dung d a vào b nh là phương pháp s d*ng toàn b t p h sơ s n
phBm và t p h sơ ngư i dùng

th c hi n hu!n luy n và d

oán. Trong phương

pháp này, các s n phBm m i ư c tính toán và so sánh v i t!t c h sơ ngư i
dùng. Nh ng s n phBm m i có m c

tương t cao nh!t v i h sơ ngư i dùng sZ

25


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×