Tải bản đầy đủ

luận văn thạc sĩ phát triển một số phương pháp lọc thông tin cho hệ tư vấn

L I CAM

Tôi xin cam

oan ây là công trình nghiên c u c a riêng tôi. Các k t qu

ư c vi t chung v i các tác gi khác
khi ư a vào lu n án. Các k t qu
ư

OAN

uư cs

ng ý c a

ng tác gi trư c

nêu trong lu n án là trung th c và chưa t ng

c công b trong các công trình nào khác.


Tác gi

Nguy n Duy Phương

1


L i c m ơn

Th c hi n lu n án ti n s là m t th
trung cao

. Tôi th c s



c không ch là n

kiên trì và t p

c trong

Trư c tiên, tôi xin bày t

tình c m c a mình

s bi t ơn sâu s c

Minh Phương và PGS TS

tài nghiên

l c cá nhân, mà còn có

c a t p th giáo viên hư ng d n, nhà trư ng, b

nghi p và gia ình. Tôi mu n bày t

d n PGS TS T



òi h i s


h nh phúc v i k t qu

c u c a mình. Nh ng k t qu
s h tr và giúp

thách l n,

môn,

ng

nvih.
n t p th

giáo viên hư ng

inh M nh Tư ng. ư

c làm vi c

v i hai th y là m t cơ h i l n cho tôi h c h i phương pháp nghiên c u. C m ơn hai th
y r t nhi u vì s hư ng d n t n tình, nghiêm túc và khoa h c.
Tôi xin trân tr ng c m ơn B môn Khoa h c máy tính, Khoa Công ngh thông
tin, Phòng ào t o, Ban giám hi u trư ng i h c Công ngh ã t o i u ki n thu n l i cho tôi
trong su t quá trình th c hi n lu n án.
Tôi xin c m ơn t p th Lãnh o H c Vi n Công ngh Bưu chính Vi n thông, cán
b , gi ng viên khoa Công ngh thông tin – H c Vi n Công ngh Bưu chính Vi n thông
ã c v ng viên tôi trong quá trình nghiên c u.
Tôi c m ơn t t c nh ng ngư i b n c a tôi, nh ng ngư i luôn chia s và c
v tôi trong nh ng lúc khó kh n và tôi luôn ghi nh
Cu i cùng, tôi xin bày t

iu

ó.

lòng bi t ơn vô h n i v i cha m và gia ình ã tôi.

luôn bên c nh ng h , giúp

2


M CL

PH N M

C

U.............................................................................................................. ....

1. Tính c p thi t c a lu n án...................................................................................... 11
2. M c tiêu c a lu n án.............................................................................................. 12
3. Các óng góp c a lu n án..................................................................................... 13
4. B c c c a lu n án................................................................................................... 15
CHƠ NG 1. T NG QUAN V L C THÔNG TIN CHO H

T

V N............16

1.1. GI I THI U CHUNG........................................................................................... 16
1.1.1. Ki n trúc t ng quát c a h th ng l c thông tin .............................................. 17
1.1.2. L c thông tin và truy v n thông tin .............................................................. 18
1.1.3. H c máy và l c thông tin............................................................................... 19
1.1.4. L c thông tin và các h tư v n...................................................................... 21
1.2. PHƠ NG PHÁP L C THEO N I DUNG....................................................... 24
1.2.1. Bài toán l c theo n i dung............................................................................. 25
1.2.2. Các phương pháp pháp l c theo n i dung.................................................. 25
1.2.2.1. L c n i dung d a vào b nh..................................................................... 25
1.2.2.2. L c n i dung d a vào mô hình............................................................... 28
1.2.3. Nh ng v n

t n t i...................................................................................... 29

1.3. PHƠ NG PHÁP L C C NG TÁC................................................................... 30
1.3.1. Bài toán l c c ng tác...................................................................................... 30
1.3.2. Các phương pháp l c c ng tác..................................................................... 32
1.3.2.1. L c c ng tác d a trên b

nh................................................................ 32

1.3.2.2. L c c ng tác d a vào mô hình................................................................ 35
1.3.3. Nh ng v n

t n t i...................................................................................... 38

1.4. PHƠ NG PHÁP L C K T H P........................................................................ 39
1.4.1. Bài toán l c k t h p......................................................................................... 39
1.4.2. Các phương pháp l c k t h p....................................................................... 40
1.4.3. Nh ng v n

còn t n t i.............................................................................. 42

1.5. K T LU N.............................................................................................................. 42
3


CHƠ NG 2. L CC NGTÁCB NGPHƠ NGPHÁPH C
2.1.
TV N

ANHI M ......
44

.............................................................................................

2.1.1. V n
2.1.2.

ng tác ..................................................

44

li u thưa ....................................................

45

d li u thưa c a l c c
d

nh hư ng c a v n

d li u thưa...................................

2.1.3. Các phương pháp h n ch v n
2.2. L C C NG TÁC B NG PHÂN LO

46

I ...................................................

2.2.1. Phát bi u bài toán l c c ng tác b ng phân lo i

48
.................................. 48
51

2.2.2. Phân lo i b ng phương pháp Boosting ...............................................
C TR NG CHUNG ....................................

2.3. PHÂN LO I V I CÁC
2.3.1. Phương pháp h c
2.3.2. Boosting
2.3.2.1. Xây d

2.4. TH

ph

a nhi m .................................................................

ng hàm m c tiêu................................................................

59

phân lo i y u...........................................................

60

c t p thu t toán ..................................................................

63

.................................................................

65

NGHI MVÀK TQU

2.4.1. Phương pháp th
2.4.2. D li u th

56

ng th i cho nhi u bài toán phân lo i............................... 59

2.3.2.2. Xây d ng b
2.2.2.3.

56

nghi m.....................................................................

65

nghi m ..............................................................................

65

2.4.3. So sánh và ánh giá d a vào giá tr MAE ..........................................
2.4.4. K t qu th

67

nghi m..............................................................................

67

2.4.5. Phân tích k t qu ..................................................................................

2.5. K T LU
CHƠ NG 3. L
3.1. V N

69

N .................................................................................................

72

CK TH PD

A TRÊN MÔ HÌNH

L C K T H P...........................................................................

73

3.2. L C C NG TÁC D A TRÊN MÔ HÌNH
3.2.2. Phương pháp d
ch

oán trên

Ngư i

TH ............................... 75

th ..............................................................

3.2.1. Phương pháp bi u di n
3.2.2.1.

TH ............................

75

th Ngư i dùng- S n ph m ................ 76

ng- n ph m

nh
+

c

con .............. 78

3.2.2.2. Phương

pd

n trên

G ................................................

80

3.2.2.3. Phương

pd

n trên

G- ................................................

83

4


3.2.2.4. Phương

pd

n theo t t

3.3. K T H P L C C NG TÁC VÀ L C N
3.3.1. Bi u di n

nh................................................. 85
I DUNG................................... 88

th k t h p.................................................................................. 88

3.3.2. Xây d ng liên k t ngư i dùng và n i dung s n ph m.................................. 91
3.3.3. Phương pháp d

oán.................................................................................. 95

3.3.3.1. L c c ng tác d a trên mô hình

th k t h p.................................... 95

3.3.3.2. L c n i dung d a trên mô hình

th k t h p................................... 95

3.3.3.3. Phương pháp l c k t h p ơ n gi n........................................................ 96
3.3.3.4. Phương pháp k t h p

xu t.............................................................. 96

3.3.4. Thu t toán lan truy n m ng......................................................................... 102
3.4. TH

NGHI M VÀ K T QU............................................................................ 103

3.4.1. D li u th

nghi m..................................................................................... 104

3.4.2. Phương pháp th nghi m........................................................................... 105
3.4.3. So sánh và ánh giá d a vào Precision, Recall và F-measure .............105
3.4.4. Phân tích k t qu........................................................................................... 107
3.4.5. Trư ng h p d

li u thưa........................................................................... 110

3.5. K T LU N............................................................................................................ 111
K T LU N................................................................................................................... 113
DANH M C CÁC CÔNG TRÌNH CÔNG B....................................................... 116
TÀI LI U THAM KH O (TI NG VI T):................................................................ 117
TÀI LI U THAM KH O (TI NG ANH):............................................................... 117
PH L C1XÂYD

NGH

TH NGT

V NL

TRÊN MÔ HÌNH

TH K T H P.......................................................................... 127

5

ACH

NPHIMD

A


DANH M C CÁC CH

VITTT
DI NGI I

KÝHI U
AM

Aspect Model (Mô hình

AU

Active User (Ngư i dùng hi n th i)

CBF

Content-Based Filtering (L c d

CF

Collaborative Filtering (L c c ng tác)

DAC

Data Analyser Component (Thành ph n phân tích d

DBC

Data-Based Concept (Nguyên lý d a vào d li u)

DF

Degree of Freedom (S b c t

EM

Expectation Maximization (C c

FC

Filtering Component (Thành ph n l c)

FMM

Flexible Mixture Model (Mô hình pha tr n linh ho t)

IBL

Instance-Based Learning (H c d

IDF

Inverse Document Frequency (T n su t xu t hi n ngư c)

IE

Information Extraction (

IF

Information Filtering (L c thông tin)

IO

Information Overload (Quá

IR

Information Retrieval (Truy v n thông tin)

KNN

K Neareast Neighbor (K ngư i láng gi ng g n nh t)

KPC

KNN Pearson Correlation (Phương pháp K ngư i láng gi ng g n

nh hư ng)
a trên n

i dung)
li u)

do)
i k v ng)

a trên ví d )

ch thông tin)
i thông tin)

nh t d a trên tương quan Pearson)
LC

Learning Component (Thành ph n h c)

LL

Lazy Learning (H c lư i)

LSE

Least Square Estimation (

LSM

Latent Semantic Model (Mô hình ng ngh a n)

MAE

Mean Absolute Error (Trung bình giá tr

MBF

Memory-Based Filtering (L c d

MC

Multiclass Classification (Phân lo i nhi u l p)

MDBF

Model-Based Filtering (L c d

ML

Machine Learning (H c máy)

MM

Multinomial Model (Mô hình

c lư ng bình phương t i thi u)

6

tuy t

a vào b nh
a vào mô hình)
a th c)

i li)
)


MMM
MTL

Multinomial Mixture Model (Mô hình pha tr n a th c)
Multi Task Learning (H c
a nhi m)

PCA

Principal Components Analysis (Phân tích thành ph n chính)

RS

Recommender System (H th ng tư v n)

SD

Standard Deviation (

SDP

Sparsity Data Problem (V n

SE

Standard Error (L i chu n)

STL

Single Task Learning (Phương pháp h c ơ n l )

SVD

Singular Value Decomposition (Phân

giá tr riêng)

SVM

Support Vector Machine (

ctơ)

TF

Term Frequency (T n su t)

UMC

User-Model Component (Thành ph n mô hình ngư i dùng)

URP

User Rating Profile (H

l ch chu n)
d

li u thưa)

y h tr



7

nh

ngư i ng)


DANH M C CÁC HÌNH

Hình 1.1. Ki n trúc t ng quát c a h
Hình 1.2. Các thành ph n c a h

th ng l c thông tin........................................... 17

th ng l c c ng tác................................................... 31

Hình 2.1. Thu t toán GentleBoost................................................................................. 52
Hình 2.2. Phương pháp STL cho b n bài toán phân lo i

c l p nhau..................58

Hình 2.3. Phương pháp h c MTL cho b n bài toán phân lo i
Hình 2.4. Thu t toán MC-Boost c i ti n s

d ng

ng th i...............58

c trưng chung cho nhi u bài

toán...................................................................................................................................... 62
Hình 2.5. Phương pháp duy t t p con các bài toán phân lo i................................... 64
Hình 3.1.

th Ngư i dùng- S n ph m......................................................................... 76

Hình 3.2.

th G bi u di n các

Hình 3.3.

th G bi u di n các

+

ánh giá thích h p................................................ 79

-

ánh giá không thích h p.................................... 80
+

Hình 3.4. Thu t toán d

oán trên

G .............................................................. 81

Hình 3.5. Thu t toán d

oán trên

G ............................................................... 84

Hình 3.6. Thu t toán d

oán trên t t c

-

ánh giá.................................................... 86

Hình 3.7.

th k t h p ngư i dùng và n i dung s n ph m........................................... 90

Hình 3.8.

th thi t l p liên k t gi a ngư i dùng và

Hình 3.9. Thu t toán d

oán trên

c trưng n i dung...........94

th k t h p......................................................... 99

Hình 3.10. Thu t toán lan truy n m ng....................................................................... 103
Hình 3.11. Giá tr F-Measure

các m c

thưa th t d

8

li u............................... 111


DANH M C CÁC B NG
23
B ng 1.1. Phân lo i các phương pháp tư v n và m t s nghiên c u i n hình...
B ng 1.2. Ví d v ma tr n
ánh giá c a l c c ng tác.......................................... 31
B ng 2.1. Ma tr n

ánh giá ngư i dùng................................................................. 45

B ng 2.2. Ma tr n

u vào c a l c c ng tác .......................................................... 49

B ng 2.3. Ma tr n

u vào bài toán phân lo i theo ngư i dùng........................... 50

B ng 2.4. Ma tr n

u vào bài toán phân lo i theo s n ph m .............................. 50

B ng 2.5. K t qu

th

nghi m v i MovieLens ..................................................... 68

B ng 2.6. K t qu

th

nghi m v i EachMovie ..................................................... 68

B ng 2.7. Các tham s

th ng kê v i K=5 ánh giá bi t trư c.............................. 70

c a t p d li u MovieLens......................................................................................

B ng 2.8. Các tham s

70

th ng kê v i K=10 ánh giá bi t trư c............................ 70

c a t p d li u MovieLens......................................................................................

B ng 2.9. Các tham s

70

th ng kê v i K=20 ánh giá bi t trư c............................ 71

c a t p d li u MovieLens......................................................................................

B ng 2.10. Các tham s

71

th ng kê v

i K=5 ánh giá bi t trư c............................ 71

c a t p d li u EachMovie .....................................................................................

B ng 2.11. Các tham s

71

th ng kê v i K=10 ánh giá bi t trư c ......................... 71

c a t p d li u EachMovie .....................................................................................

B ng 2.12. Các tham s

71

th ng kê v i K=20 ánh giá bi t trư c ......................... 72

c a t p d li u EachMovie .....................................................................................

B ng 3.1. Ma tr n

72

ánh giá R.................................................................................

74

B ng 3.2. Ma tr n S n ph m – N i dung Y...........................................................
B ng 3.3. Ma tr n X bi u di n
+

B ng 3.4. Ma tr n X bi u di n

ánh
c

74

th Ngư i dùng- S n ph m ................... 76
ánh giá thích h p........................................ 79

c ánh giá không thích h p ............................ 80
B ng 3.5. Ma tr n X bi u di n
B ng 3.6. Ma tr n
89
B ng 3.7. Ma tr n Ngư i dùng- S n ph m X........................................................ 89
ánh giá R.................................................................................

9


B ng 3.8. Ma tr n S n ph m- N i dung Y........................................................................ 90
B ng 3.9. Giá tr Precision, Recall, F-Measure ki m nghi m trên t p
MovieLens1..................................................................................................................... 106
B ng 3.10. Giá tr Precision, Recall, F-Measure ki m nghi m trên t p
MovieLens2..................................................................................................................... 107
B ng 3.11. K t qu ki m nghi m paired t-test v i K=10 s n ph m c n tư v n

......

trên t p MovileLens1...................................................................................................... 108
B ng 3.12. K t qu ki m nghi m paired t-test v i K=20 s n ph m c n tư v n

......

trên t p MovileLens1...................................................................................................... 109
B ng 3.13. K t qu ki m nghi m paired t-test v i K=50 s n ph m c n tư v n

......

trên t p MovieLens1........................................................................................................ 109
B ng 3.14. K t qu ki m nghi m paired t-test v i K=10 s n ph m c n tư v n

......

trên t p MovileLens2...................................................................................................... 109
B ng 3.15. K t qu ki m nghi m paired t-test v i K=20 s n ph m c n tư v n

......

trên t p MovileLens2...................................................................................................... 110
B ng 3.16. K t qu ki m nghi m paired t-test v i K=50 s n ph m c n tư v n

......

trên t p MovileLens2...................................................................................................... 110

10


PH NM

U

1. Tính c p thi t c a lu n án
quá t i thông tin (Information Overload) ư

Vn
ln

u tiên vào n m 1982 [49]. V i nh

Denning kh ng

nh kh

n ng l

ng lý l

nt

và b ng ch

ng thuy t ph c,

a ch n thông tin h u ích c a ngư i dùng máy

tính s g p khó kh n nghiêm tr ng b i s
kh ng l

c J.Denning nêu ra

gia t ng không ng

ng lư ng thông tin

hàng tr m kênh truy n hình, hàng tri u b ng hình, sách, báo, t p

chí, tài li u thông qua các h
ngay l p t c ư c c ng

th ng giao d ch

int.Vn

Denning công b

t p trung nghiên c u phương pháp h n ch
i v i ngư i dùng, thúc

nh hư ng c a v n

y m t l nh v c nghiên c

quá t i thông tin

u m i ó là l c thông tin.

L c thông tin (Information Filtering) là l nh v c nghiên c
c

m i ngư i dùng. L c thông tin ư
L c thông tin ư
th c và l

c d a trên d

phương pháp này là

c xem là phương pháp hi u qu

c ti p c n theo hai xu hư ng chính,
li u. Trong trư ng h

n vi

h n ch tình

ó là l c d

a trên tri

p d a vào tri th c, h

th ng th c

d ng t p lu t xây d ng trư c. Như c

i m ca

có ư c m t t p lu t

tt

òi h i chi phí nhi u th i gian

và kinh nghi m c a chuyên gia; vi c c p nh t các lu t không th

bi n

p

c quan tâm nhi u nh t hi n nay.

hi n l c thông tin b ng cách s

t

u các quá trình

nh ng thông tin không thích h p và cung c p thông tin thích h

tr ng quá t i thông tin ư

ng và

ng các nhà khoa h c máy tính nhi t tình hư ng

th

c hi n ư c

ng vì ngu n d li u vào thư ng không có c u trúc và luôn trong tr ng thái
ng. Chính vì v y, l c d a trên tri th c có xu hư ng ít ư c s
i v i các h th ng l c d a trên d li u, các quy t c l c ư

d li u mà h th ng thu th p ư

c b ng các k thu t th ng kê ho c các thu t toán

h c máy. Cách ti p c n này cho phép t

ng c p nh t các quy t c l c và không

l thu c vào tri th c chuyên gia. H
nghi cao và t n d ng ư

d ng.
c xây d ng t

th ng l c d a trên d li u có kh n ng thích
li u. Chính vì v y, cách ti p c n này ư c

c ngu n d

quan tâm nghiên c u hơn so v i phương pháp d a vào tri th c.

11


H tư v n (Recommender System) là h th ng có kh n ng t
ng phân
tích, phân lo i, l a ch n và cung c p cho ngư i dùng nh
ng thông tin, hàng hóa
hay d ch v mà h

quan tâm. H tư v n ư

c xem như m t bi n th

c thông tin. Nhi u h tư v n ã ư

vai trò quan tr ng trong l

tri n khai thành công, tiêu bi u là

h

tư v n

i n hình có

c thương m i hóa và

c a các

hãng Amazon.com,

Netflix.com, Procter & Gamble.
H tư v n ư

c xây d ng d a trên hai k

thu t l c thông tin chính: L c

theo n i dung (Content-Based Filtering) và l c c ng tác (Collaborative Filtering).
L c theo n i dung khai thác nh ng khía c nh liên quan
ph m ngư i dùng

n n i dung thông tin s n

ã t ng s d ng hay truy nh p trong quá kh

Trái l i, l c c ng tác khai thác nh ng khía c nh liên quan
s n ph m c a c ng

ng ngư i dùng có cùng s thích

Trong quá trình nghiên c u và

i v i thông tin tư v n như tính thưa th

dùng m i, hàng hóa m
v id

d ng

t o nên tư v n.
ng v n

vn

chung

mang tính c

t d li u hu n luy n, x

lý ngư i

i, yêu c u k t h p các d ng thông tin khác nhau, làm vi c


li u kích thư c l

c c p nh t thư ng xuyên. M c dù

nghiên c u nh m t i n i dung này, nhưng
m , có tính th i s

n thói quen s

ng d ng, bên c nh nh

c a bài toán l c thông tin thông thư ng, xu t hi n m t s
thù

t o nên tư v n.

và thu hút s

ã có nhi u

ây v n là nh ng v n

qua tâm c a c ng

nghiên c u

ng nghiên c u.

tài “Phát tri n m t s phương pháp l c thông tin cho h tư v n” ư
th c hi n trong khuôn kh
góp ph n gi i quy t m

lu n án ti n s

ts vn

c

chuyên ngành khoa h c máy tính nh m

còn tn t i c a l c thông tin cho các h

tư v n.

2. M c tiêu c a lu n án
M c tiêu c a lu n án là nghiên c u áp d ng, c i ti n m
máy nh m c i thi n

chính xác c a l c thông tin trong các h

nghiên c u t p trung vào vi c nâng cao k t qu
trong trư ng h p d

d

12

thu t h c

tư v n.

c bi t,

oán nhu c u ngư i dùng

li u thưa, c ng như trong trư ng h p có c

ngư i dùng và thông tin n i dung s n ph m.

ts k

d

li u s thích


3. Các óng góp c a lu n án
óng góp th nh t c a lu n án là xu t áp d ng m t k thu t Boosting c i ti
n cho nhi u bài toán phân lo i vào l c c ng tác [3, 81], bao g m:
-

xu t phương pháp gi i quy t bài toán l c c ng tác b ng k thu t
Boosting d a trên bi u di n d
h c máy;

-

p

ng k

li u phù h p cho bài toán phân lo i c a

thu t Boosting

i ti n cho nhi u bài toán phân lo i b ng
nh (Decision Stump) cho

phương pháp h c a nhi m d a trên g c quy t
c c ng
-

c nh m n ch nh hư ng

Th nghi m và
ánh giá k t qu

ánh giá k t qu

avn

d li u thưa;

phương pháp c i ti n,

c bi t chú tr ng

d oán trong trư ng h p d li u thưa c a l

H u h t các phương pháp h c máy cho l c c ng tác hi n nay
nh ng nhi m v

h

c ơ n l (Single Task Learning) v i gi

c c ng tác.
u th c hi n

thi t d

li u hu n

luy n và d li u ki m tra ư c mô t trong cùng m t không gian các giá tr
c
trưng v i cùng m t phân b . Khi phân b thay i, t p d
li u hu n luy n và d
li u ki m tra ph i xây d ng l i. Trên th
c ng th c hi n ư

c làm cho k t qu d

M t khác, t i m i th i
l , k t qu

c t , vi c làm này không ph i lúc nào

c a m i nhi m v

oán các phương pháp kém tin c y.

i m, phương pháp ch th c hi n m t nhi m v
c th

hoàn toàn

Chính vì v y, phương pháp ti p c n này s

clpv

i các nhi m v khác.

g p khó kh n khi d

gi i quy t v n này, lu n án
xu t áp d
thưa th t.
nhi m (Multi-Task Learning) cho l c c ng tác nh m s d
gi a các nhi m v h c ơ n l . T p thông tin chung tìm ư

ơn

li u hu n luy n

ng phương pháp h c a
ng t p thông tin chung
c óng vai trò chia s

và b sung thông tin vào quá trình hu n luy n cho m i ngư i dùng khác nhau, góp ph
n nâng cao k t qu d oán và h n ch ư c nh hư ng c a tình tr ng d li u thưa trong l c c
ng tác.

13


óng góp th hai c a lu n án là xu t m t phương pháp l c k t h p d a trên
mô hình th [2, 80], bao g m:
-

Bi u di n m i liên h
gi a các i tư ng tham gia h th ng l c (Ngư i
dùng, s n ph m và n i dung s n ph m) d
a vào mô hình
th ;

-

Xây d ng phương pháp d

-

Xây d ng phương pháp trích ch n

oán cho l c c ng tác d a trên mô hình

th .

c trưng n i dung s n ph m d a trên

thói quen s d ng s n ph m c a ngư i dùng;
-

Cá nhân hóa

nh hư ng c a các c trưng n i dung

i v i thói quen s

d ng s n ph m c a ngư i dùng;
-

Áp d ng thu t toán lan truy n m ng trên
b

-

th k t h p

d

oán, phân

các s n ph m cho m i ngư i dùng;

Th nghi m và
t n d ng l

xu t.

ánh giá k t qu phương pháp

i th c a m i phương pháp l c, lu n án

k t h p gi a l c c ng tác và l c n

xu t phương pháp

i dung d a trên bi u di n

tham gia quá trình l c, bao g m: ngư i dùng, s n ph m,

th các

i tư ng

ánh giá ngư i dùng và

n i dung s n ph m.
tránh nh ng h n ch
pháp trích ch n

c trưng n i dung ch d

xu t phương pháp trích ch
iv

c a các phương pháp l c k t h p trư c
a vào n

xem là quan tr ng v i m i ngư i dùng ư
Vi c tìm ra nh ng

i dung s n ph m), lu n án

n c trưng n i dung d

i s n ph m. D a trên phương pháp này, nh

ây (phương

a vào thói quen ngư i dùng
ng

c gi l i

c trưng có nh hư ng quan tr ng

i dung ư c

c trưng n

ph c v

m c tiêu d oán.

n thói quen ngư i dùng

không ch làm gi m chi phí tính toán c a phương pháp (vì s lư ng các
n i dung quan tr ng
nh ng

ivim

c trưng

i ngư i dùng còn l i r t ít), mà còn lo i b ư c

c trưng không nh hư ng ho c

nh hư ng không t t

n thói quen s

d ng s n ph m c a ngư i dùng.
Phương pháp d

oán ư

c ư a v bài toán tìm ki m trên

t n d ng ư c các thu t toán hi u qu trên
h gián ti p gi a các

th mà còn t n d ng ư

i tư ng tham gia h th ng.

14

th

không ch
c m i liên


Phương pháp l c k t h p
xu t ư
tư v n l a ch n phim
ã cho l i k t qu
ánh giá, bình lu n và g i ý nh

c th
nghi m và áp d ng cho h th ng
d
oán tt. H
th ng cho phép xem,

ng phim ư c xem h p v i s

c n ng c p nh t, phân tích

ngư i dùng. H th ng g m b n ch c n ng chính: Ch
thông tin ngư i dùng và s n ph m; ch c n ng h
v n. Trong ó, ch c n ng h c và l c ư

thích ng v i m i

c; ch c n ng l

c th

c và ch c n ng tư

c hi n theo phương pháp l c k t

h p xu t.
4. B c c c a lu n án
N i dung lu n án ư

c xây d ng thành ba chương và m t ph l c, trong ó:

Chơ ng 1. gi i thi u t ng quan v

l c thông tin. Trình bày nh ng nghiên

c u cơ b n c a l c thông tin, các phương pháp l c thông tin cho h tư v n và nh ng v
n c n ti p t c nghiên c u c a m i phương pháp. Trên cơ nh ng
nghiên c u cơ b n, xác nh rõ hư ng nghiên c u c a
c u cơ b n c a
tài ư c công b trong [4].
Chơ ng 2. trình bày phương pháp h n ch
thưa trong l c c

nh hư ng c a v n

ng tác b ng phương pháp h c

trong chương này ư

c t ng h p d a trên k t

tài. M t k t qu

nghiên
d

li u

a nhi m. N i dung trình bày
nghiên c u

công b trong [3,

81].
Chơ ng 3. trình bày phương pháp k t h p gi

th . N i dung trình bày trong chương này ư

d a trên mô hình
k t qu nghiên c

a l c c ng tác và l c n i dung

u

công b trong [2, 80]. Cu i cùng là m t s

c t ng h

pt

k t lu n và

xu t các nghiên c u ti p theo.
Ph n ph l c. trình bày thi t k và xây d ng ng d ng cho phương pháp l c
kthpư

c

xu t trong Chương 3.

15


CHƯƠNG 1
L C THÔNG TIN CHO H

T NG QUAN V

Chương này trình bày nh ng v n

t ng quan v

phương pháp l c thông tin cho h tư v n cùng v i nh
phương pháp. Trên cơ s
c u c th

ca

nh

TƯV N
l c thông tin, các
ng h n ch

ng nghiên cu cơ b n, xác

tài. Nh ng k t qu

nghiên c u c a

tntimi

nh rõ hư ng nghiên
tài s

ư

c trình bày

trong các chương ti p theo c a lu n án.
Do l c thông tin là l nh v c nghiên c
bày ng n v

l

u có ph m vi r

ng l n, sau khi trình

c thông tin nói chung, lu n án t p trung trình bày vào ch

nghiên c u chính c a lu n án

ó là v n

lc trong các h tư v n.

1.1. GI I THI U CHUNG
L c thông tin (IF) là l nh v c nghiên c u các quá trình cung c p thông tin
thích h p, ng n ng a và g b thông tin không thích h p cho m i ngư i dùng
[75, 99]. Thông tin ư c cung c p (còn ư c g i là s n ph m) có th
là v n b n,
trang web, phim,
nh, d ch v ho c b t k d ng thông tin nào ư
c s n sinh ra t
các phương ti n truy n thông. Ph m vi
trong nhi u

ng d

bi u nh t c

a l c thông tin ư c k

ng d ng c
n là l c k t qu

c e-mail d

p, lo i b
c bi t, l

tìm ki m trong các

nh ng trang thông tin có

ng d ng nhưng

sơ ngư i

nh hư ng không t t

c thông tin có vai trò quan tr

ng cho các h

int.

Các h th ng l c thông tin có th khác nhau v

nguyên lý, phương pháp,

u th c hi n m c tiêu cung c p cho ngư i

dùng nh ng thông tin c n thi t nh t, lo i b
ho c không thích h p

h

y

cung c p thông tin cho t p th

th ng tư v n (RS) ng d ng trong thương m i
k thu t, ph m vi

ng d ng tiêu

a trên n i dung thư

dùng, l c thông tin v n b n trên các máy ch
i v i ngư i dùng.

c thông tin tr i r ng

ng th c t khác nhau c a khoa h c máy tính.

m ki m (Search Engine), l
ho c cá nhân thích h

al

nh ng thông tin không có giá tr

i v i ngư i dùng. Nguyên lý ph

16

bi n ư

c dùng trong


l c thông tin là nguyên lý d
a vào d li u (Data-Based) và nguyên lý d a vào tri
th c (Knowledge-Based) [99]. Các phương pháp l c có th ư c th c hi n d a
vào n i dung thông tin s n ph m ho c l

c d a trên thói quen s

dùng. Các k thu t l c ư

a trên n n t ng t

c phát tri n d

thích ngư i

l nh v

c truy v n

thông tin (Information Retrieval), tách thông tin (Information Extraction), phân
lo i thông tin (Information Classificarion). Ph m vi
lcư

ng d ng c a các h th ng

c áp d ng cho t t c các mô hình thương m i i n t

th c t : Khách hàng

- Khách hàng (Customer to Customer), Nhà cung c p - Khách hàng (Business
to Customer), Nhà cung c p - Nhà cung c p (Business to Business) [75].
1.1.1. Ki n trúc t ng quát c a h th ng l c thông tin
M t h th ng l c thông tin t ng quát bao g m b n thành ph n c ơ b n [99]:
Thành ph n phân tích d li u (Data Analyser Component), thành ph n mô hình
ngư i dùng (User Model Component), thành ph n h c (Learning Component)
và thành ph n l c ( Filtering Component).
Thành ph n mô
hình ngư i dùng
H sơ ngư i

Thông tin

ct

Ngư i dùng

ngư i dùng
Ph n h i

thông tin
Thông tin các

S n ph m

ngư i dùng

dùng

Nhà cung c p

phù h p v i
ngư i dùng

s n ph m

C p nh t thông
Thành ph n
hc

Bi u di n Thông

tin hu n luy n
Bi u di n Thông

Thành ph n l c

tin s n ph m

tin s n ph m

Thành ph n
phân tích d
li u

Hình 1.1. Ki n trúc t ng quát c a h th ng l c thông tin.

• Thành ph n phân tích d li u (DAC) có nhi m v thu th p d li u v s n
ph m t

các nhà cung c p thông tin (ví d

chí, phim, nh...). D

li u v s n ph m ư

khuôn d ng thích h p, sau

ó chuy n

17

tài li u, thư

i n t , sách, báo, t p

c phân tích và bi u di n theo m t
n b ph n l c như Hình 1.1.


ly
• Thành ph n mô hình ngư i dùng (UMC) có th “hi n” ho c “ n” dùng
thông tin v ngư i dùng, như gi i tính, tu i, nơi sinh s ng và thông tin ngư i
dùng ã truy v n trư c
sau khi t o ra ư

ó

c chuy n

t o nên h

sơ ngư i dùng. H

n thành ph n h c

sơ ngư i dùng

th c hi n nhi m v hu n

luy n.
• Thành ph n h c (LC) th c hi n hu n luy n trên t p h
ngư i dùng theo m t thu t toán h c máy c
thành ph n mô t

ngư i dùng; l y d

sơ và ph n h

th . Thu t toán h c l y d
ãư

li u v s n ph m

thành ph n l c k t h p v

i thông tin ph n h i ngư i dùng

v hu n luy n. K t qu

quá trình h c ư

th c hi n nhi m v

phù h p gi a h
nh phân b

h sơ ngư i dùng, s n ph m s
trư ng h p ngư c l i, h

h p, xem xét,

c bi u di n t
th

c hi n nhi m
c

ti p theo.

ư a ra quy t

ph m phân b

li u t

c chuy n l i cho b ph n l

• Thành ph n l c (FC) là thành ph n quan tr ng nh t c
v xem xét s

ica

a h th ng, có nhi m

sơ ngư i dùng và bi u di n d
s n ph m. N u d
ư

li u s n ph m

li u s n ph m phù h p v i

c cung c p cho ngư i dùng

th ng lo i b

ó. Trong

s n ph m kh i danh sách nh ng s n

cho ngư i dùng. Ngư i dùng nh n ư

c nh

ánh giá, ph n h i l i cho thành ph n h

ng s n ph m thích
c

ph c v

quá

trình l c ti p theo.
1.1.2. L c thông tin và truy v n thông tin
Belkin và Croft [75] nhìn nh n l
m t c a cùng m t v n

. Chính vì v y, nhi u

có th tìm th y trong l nh v
bi t s

c thông tin và truy v n thông tin như hai
c trưng cơ b n c

c truy v n thông tin (IR). Tuy nhiên, ta có th

khác bi t gi a hai h th ng này thông qua vi c so sánh m

cơ b n dư i

a l c thông tin

ts

phân
c trưng

ây.

• Ki u ngư i dùng. H
ngư i dùng t i m i th i

th ng truy v n thông tin

áp ng nhu c u cho t t c

i m mà không c n quan tâm

18

nh

là ai. Trái


l i, l c thông tin quan tâm n nh ng ngư i dùng thư ng xuyên s
h
th ng dùng, có h sơ rõ ràng, có m i quan tâm dài h n

d ng
iv ih

ng và luôn nh n ư c thông tin thích h p t h th ng m i th

i i m.

th

• Bi u di n nhu c u thông tin. H th ng truy v n thông tin bi u di n nhu
c thông tin bi u
sơ ngư i

c u ngư i dùng b t k
dư i d ng m t câu truy v n. L
di n nhu c u ngư i dùng lâu dài h th ng dư i d ng m t h
dùng. H sơ ngư i dùng không ch ghi l i các
mà còn bao hàm các
quen s d

c trưng thông tin cá nhân,
n l ch s truy c p hay thói

c trưng liên quan

ng thông tin c a ngư i dùng này.

• M c tiêu h th ng. H

th ng truy v n thông tin quan tâm

n các phương
p v i truy

pháp cung c p thông tin thích h p cho m i ngư i dùng phù h
v n c a ngư i dùng này. L c thông tin quan tâm
b d

li u hơn là vi c n l c tìm ki m thêm d

n các phương pháp g
li u. C

ng vì lý do này,

c thông tin ư c xem là phương pháp gi m t i thông tin chính ư c

l

quan tâm nh t hi n nay.
• Cơ s d li u. H th ng truy v n thông tin th c hi n cung c p thông tin
trên các cơ s d li u t nh. L c thông tin cung c p thông tin trên cơ s
li u

ng, có c u trúc khác nhau và thư ng xuyên bi n

• Ph m vi tương tác. H

th ng truy v n không quan tâm

i.

n s tương tác

gi a nh ng ngư i dùng khác nhau. L c thông tin quan tâm
ng theo s thích, thói quen hay nh ng
nhau c a t p ngư i dùng. H
gi l i nh ng

d

c trưng xã h i, t

n s tương
nhiên khác

th ng luôn có m t mô hình ngư i dùng

c trưng c n thi t cho m i ngư i dùng.

1.1.3. H c máy và l c thông tin
H c máy (Machine Learning). H c máy là l nh v c nghiên c u c a trí
tu nhân t o t p trung vào vi c ra quy t
d li u [1, 85, 97]. Các k

nh ho c phát hi n tri th c d a trên

thu t h c máy ư
19

c s d ng trong vi c d

oán (ví


d d
oán nhu c u ngư i dùng), phân lo i, x p h ng (ví d
h ng thông tin, phân lo i ngư i dùng).
L c thông tin có cùng chung m
thông tin c n thi t cho m

c tiêu v i h

c máy (ML)

a trên nh ng gì có th

i ngư i dùng d

kinh nghi m c a c ng

phân lo i, x p

ng trong quá kh

ó là cung c p
hct

nh ng

. Chính vì v y, thành ph n l c thông

ng theo hai cách ti p c n chính c a h c máy: l c d a trên tri

tin ư c xây d

th c và l c d a trên d li u.
L c d a trên tri th c (KBC). Thông tin ư
các lu t. M

nh l c s ư

c th a mãn. Ví d

ư c nh ngh a và áp d
ch

d ng

i lu t bi u di n nhu c u thông tin ngư i dùng ho c m t m u thông

tin c n l c. M i quy t
ư a ra ư

c l c b ng cách s

trong h

c th

c hi n n u nh ng i u ki n c

th ng l c thư

ng cho các trư ng tiêu

a lu t

i n t , m i lu t có th
thư (Ngư i g i, ngày g i,

...).
i m quan tr ng c a cách ti p c n này là các lu t do ngư i dùng

(chuyên gia) cung c p d

a trên kinh nghi m hay tri th
th

thu t h c t

i m là vi c xây d ng các lu t l c t

th i gian, kinh nghi m c
th c hi n t
ư

im

t òi h i nhi u

a chuyên gia. Vi c c p nh t các lu t c

ng. Do như c

u

ng s ơ n gi n hơn do không c n s d ng các k

c a cách ti p c n này là h
ng. Như c

c c a mình.

i m này, l c d a trên tri th

ng không th
c có xu hư ng ít

c s d ng.

L c d a trên d li u (DBC). Khác v i l c d a trên tri th c, trong cách
ti p c n d a trên d li u, các quy t c cho thành ph n l c ư c xây d
ng t d
li u mà h

th ng thu th p ư

thu t toán h

c b ng cách s

d ng k

thu t th ng kê ho c các

c máy. Cách ti p c n này cho phép t o ra và c p nh t quy t c l c

thông tin mà không c n t i tri th c chuyên gia,

ng th i ch t lư ng l

c có th

t t hơn so v i cách ti p c n d a trên tri th c,

c bit khi có lư ng d

li u l n

và thư ng xuyên bi n

ng.

20


Do vi c thu th p d li u ngày càng nhanh và d , l c d a trên d li u ang d n tr
thành cách ti p c n chính trong l c thông tin. Chính vì v y, lu n
án s t p trung nghiên c u k thu t l c thông tin cho h tư v n d a trên cách
ti p c n này.
1.1.4. L c thông tin và các h t v n
H t v n (RS) là trư ng h p riêng c a các h
trên thông tin

ã có v

ngư i dùng, h

th ng l c thông tin. D a

tư v n xem xét trong s

lư ng r t l

n

hàng hóa hay thông tin và tư v n cho ngư i dùng m t danh sách ng n g
nhưng

y

nh ng hàng hóa mà ngư i dùng có kh

n

n ng quan tâm [25, 26,

40, 51, 53, 54, 67, 70, 83].
S

d ng h tư v n trong các

khách hàng không c n th

ng d ng thương m i

int

s h

c hi n các thao tác tìm ki m s n ph m, mà ch

tr
cn

l a ch n hàng hóa ho c d ch v

ưa thích do h

th ng cung c p.

làm gia t ng n ng l c mua, bán c

a toàn b

ng. Chính vì lý do này, hàng

lo t các công ty

a qu c gia (Amazon.com, Netflix.com, CDNOW, J.C. Penney,

Procter & Gamble..)
gia t ng h

ã

u tư và phát tri n thành công công ngh

tư v n

th ng khách hàng và bán hàng qua m ng [7].

Do là trư ng h p riêng c a h th
cah l

h th

i u này s

ng l c tin, h

c tin tiêu bi u. Tuy nhiên, do

dung, h tư v n c ng như các k

tư v n có nhi u

c im

c i m c a d li u, ngư i dùng và n

thu t ư

nh. Tùy vào phương pháp l c tin, các h

cs

d ng có m t s

tư v n ư

i

khác bi t nh t

c phân lo i thành ba lo i:

Tư v n d a vào phương pháp l c theo n i dung (Content-Based Filtering
Recommendation), tư v n d a vào phương pháp l c c ng tác (Collaborative
Filtering Recommendation) và tư v n d a vào phương pháp l c k t h p
(Hybrid Filtering Recommendation)[36, 107].

21


• Phương pháp tư v n d a vào l c n i dung: H th ng tư v n cho ngư i
dùng nh ng s n ph m m i có n i dung tương t

vimts

s n ph m h

ã t ng mua ho c t ng truy nh p trong quá kh .
• Phương pháp tư v n d a vào l c c ng tác: Ngư i dùng s
mts

s n ph m c a nh ng ngư i có s

ư c tư v n
ã t ng ưa thích

thích gi ng h

trong quá kh .
• Phương pháp tư v n d a vào l c k t h p: H th ng tư v n cho ngư i
dùng nh ng s n ph m tương t

vimts

ho c t ng truy nh p trong quá kh

s n ph m h

ã t ng mua

và s n ph m c a nh ng ngư i có s

ã t ng ưa thích trong quá kh .

thích gi ng h

tư v n ư

M i phương pháp l c áp d ng cho các h

c phân thành hai

nh (Memory-Based Filtering) và l c

hư ng ti p c n [36, 107]: l c d a vào b

d a vào mô hình (Model-Based Filtering).
• Các phương pháp l c d a vào b nh (MBF) [21, 22, 29, 52, 57, 63, 64,
69]:
d

ây là phương pháp lưu l i toàn b
oán, h

th ng tìm các ví d

các ví d

hu n luy n gi ng trư ng h p c n d

oán nh t và ư a ra tư v n d a trên các ví d
c a l c d a vào b
(KNN).

nh

hu n luy n. Khi c n

này. Trư ng h p tiêu bi u

là thu t toán K ngư i láng gi ng g n nh t

u i m chính c a phương pháp ti p c n này là ơ n gi n, d cài
t. Tuy nhiên, phương pháp này có th i gian l c ch m do vi c d oán

òi h i so sánh và tìm ki m trên toàn b

lư ng ngư i dùng và s n ph m.

• Phương pháp l c d a trên mô hình (MDBF) [27, 30, 32, 33, 34, 35, 37,
41, 43, 45, 90, 95, 96,
108, 109, 121]. Trong phương pháp này, d li u
xây d ng mô hình rút g n, ví d
mô hình xác su t hay
ư c s d ng
cây quy t

óư cs

nh. Mô hình này sau

d ng

oán nhanh, do quá trình

Phương pháp này cho phép th c hi n vi c d
d

oán th c hi n trên mô hình

ã h c trư c

22

ư a ra các tư v n.

ó.


B ng 1.1 th ng kê m t s

nghiên c u tiêu bi u các phương pháp l c

thông tin cho h tư v n [36].
B ng 1.1. Phân lo i các phương pháp tư v n và m t s

nghiên c u i n hình

PHƯƠNG PHÁP TƯ V ND AVÀOL
CN IDUNG
L c n i dung d a vào b nh
L c n i dung d a vào mô hình
Các k thu t thông d ng:
Các k thu t thông d ng:
• Mô hình m ng Bayes
• T n su t xu t hi n ngư c
• Mô hình phân c m
• Phân c m (Clustering)
• Mô hình cây quy t nh
• Mô hình m ng nơ ron nhân t o
Nh ng nghiên c u i n hình:
Nh ng nghiên c u i n hình:
• Balabanovic và Shoham [69]
• Pazzani [74]
• Pazzani và Billsus [73]
• Mooney và Roy [92]
• Billsus và Pazzani [30]
• Zhang và các c ng s [113]
PHƯƠNG PHÁP TƯ V N D

AVÀOL CC

NG TÁC

L c c ng tác d a vào b nh
L c c ng tác d a vào mô hình
Các k thu t thông d ng:
Các k thu t thông d ng:
• K ngư i láng gi ng g n nh t (K• Mô hình m ng Bayes
d ng
Nearest Neighbour) s
• Mô hình phân c m
tương t cosin ho c
các
• Mô hình cây quy t nh
tương quan.
• Mô hình m ng nơ ron nhân t o
• Phân c m
• Mô hình h i qui tuy n tính

tương quan
gián ti p
• Mô hình th ng kê
(Indirect Similarity)
• Mô hình
th
Nh ng nghiên c u i n hình:
Nh ng nghiên c u i n hình:













Resnick và các c ng s [83]
Breese và các c ng s [52]
Nakamura và Abe [11]
M. Deshpande and G. Karypis
[72]
Sarwar và các c ng s [21]
Yu và các c ng s [63, 64]
Herlocker và các c ng s [55]
Wang và các c ng s
[57]
Bell và Koren [86]
Desrosiers và Karypis [24]

• Nakamura và Abe [11]
• Umyarov và Alexander
Tuzhilin [15, 16, 17]
• Ungar và Foster [68]
• Aggarwal và các c ng s
[24]
• Chien và George [114]
• Condliff và các c ng s
[71]
• Kumar và các c ng s [89]
• Shani và các c ng s [41]
• Hofmann [95, 96]
• Marlin [18]

23


• Goldberg và các c ng s [62]








Si và Jin [66]
Getoor và Sahami [65]
Huang và các c ng s [119]
DeCoste [31]
Nikovski và Kulev [33]
Su và các c ng s [105, 106,
107]

PHƯƠNGPHÁPTƯV ND AVÀOL CK TH

P

L c k t h p d a vào b nh
L c k t h p d a vào mô hình
Các k thu t thông d ng:
Các k thu t thông d ng:
• T h p tuy n
• H p nh t mô hình bi u di n d
tính k t qu
d
oán c a c hai phương pháp.
li u.
• K t h p các
• H p nh t mô hình d
c tính c a
lc
oán.
• H p nh t mô hình bi u di n d
c ng tác vào l c n i dung.
c tính c
alcni
li u và mô hình d
oán.
• K t h p các
dung vào l c c ng tác.
• H p nh t l c c ng tác và l c n i
Nh ng nghiên c u i n hình:
dung trong cùng mô hình.
Nh ng nghiên c u i n hình:
• Gunawardana và Meek [8]
• Basu và các c ng s [23]
• Claypool và các c ng s [70]
• Billsus và Pazzani [29]
• Soboroff và Nicolas [46]
• Lazanas và Karacapilidis [10]
• Popescul và các c ng s [12]
• Billsus và Pazzani [30]
• Tran và Cohen [98]
• Hofmann [96]
• Huang và các c ng s
[120,
• Melville và các c ng s [82]
121, 122]
• Adomavicius và các c ng s
• Su và các c ng s [104]
[37, 38, 39]
• Anand và Bharadwaj [28]
• Balisico và Hofmann [47]


Good và các c ng s [76]

Formatted: Indent: Left: 0,63 cm

1.2. PHƯƠNG PHÁP L C THEO N I DUNG
L c theo n i dung là phương pháp th
dung thông tin hay mô t

c hi n d

a trên vi c so sánh n i

hàng hóa, nh m tìm ra nh ng s n ph m tương t v i
gi i thi u cho h

nh ng s n

ph m này [4, 6, 19, 69, 73, 84, 92]. Các phương pháp ti p c n cho l

c theo n i

nh ng gì mà ngư i dùng

ã t ng quan tâm

dung có ngu n g c t

l nh v c truy v n thông tin, trong

ó m i s n ph m ư c

bi u di n b ng m t h

sơ s n ph m, m i ngư i dùng ư

c bi u di n b ng m t

24


h sơ ngư i dùng. Phương pháp d th

oán n i dung nguyên b n c a s n ph m sơ s

c hi n d a vào vi c xem xét các h

n ph m có m c phù h p cao v i

h sơ ngư i dùng [84].
1.2.1. Bài toán l c theo n i dung
Bài toán l c theo n i dung ư

c phát bi u như sau. Cho P= {p1, p2,.., pN}
c ký hi u là Content(p)

là t p g m N s n ph m. N i dung s n ph m p∈P ư
ư

c bi u di n thông qua t p K

s n ph m p ư
m c ích d

c trưng n i dung c a P. T p các

c xây d ng b ng các k

thu t truy v n thông tin

i ngư i dùng

Cho U = {u1, u2,.., uM} là t p g m M ngư i dùng. V i m
dùng u th c ch t là l ch s

sơ ngư i dùng u. H

truy c p ho c

ph m. ContentBasedProfile(u) ư

ánh giá c a ngư i ó

c xây d

các s n ph m mà ngư i dùng u

th c hi n

v i p.

oán nh ng s n ph m khác tương t

u∈U, g i ContentBasedProfile(u) là h

c trưng

sơ c a ngư i
i v i các s n

ng b ng cách phân tích n i dung

ã t ng truy nh p ho c

ánh giá d a trên các

k thu t truy v n thông tin.
Bài toán l c theo n i dung khi
dung thích h p v i ngư i dùng d

ó là d

oán nh

a trên t p h

ng s n ph m m i có n i

sơ s n ph m Content(p) và h

sơ ngư i dùng ContendBasedProfile(u).
1.2.2. Các phơ ng pháp pháp l c theo n i dung
Như ã trình bày
l c d a trên b
ư

trên, l c theo n i dung ư

c ti p c n theo hai xu hư ng:

nh và l c d a trên mô hình. N i dung c

th các phương pháp

c th c hi n như dư i ây.

1.2.2.1. L c n i dung d a vào b nh
L c n i dung d a vào b nh
là phương pháp s d ng toàn b
ph m và t p h sơ ngư i dùng

th

t p h sơ s n

c hi n hu n luy n và d oán. Trong phương

pháp này, các s n ph m m i ư

c tính toán và so sánh v i t t c

dùng. Nh ng s n ph m m i có m

c

h sơ ngư i

tương t cao nh t v i h sơ ngư i dùng s

25


Tài liệu bạn tìm kiếm đã sẵn sàng tải về

Tải bản đầy đủ ngay

×