Tải bản đầy đủ (.doc) (142 trang)

luận văn thạc sĩ phát triển một số phương pháp lọc thông tin cho hệ tư vấn

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.17 MB, 142 trang )

L I CAM

Tôi xin cam

oan ây là công trình nghiên c u c a riêng tôi. Các k t qu

ư c vi t chung v i các tác gi khác
khi ư a vào lu n án. Các k t qu
ư

OAN

uư cs

ng ý c a

ng tác gi trư c

nêu trong lu n án là trung th c và chưa t ng

c công b trong các công trình nào khác.

Tác gi

Nguy n Duy Phương

1


L i c m ơn


Th c hi n lu n án ti n s là m t th
trung cao

. Tôi th c s



c không ch là n

kiên trì và t p

c trong

Trư c tiên, tôi xin bày t

tình c m c a mình

s bi t ơn sâu s c

Minh Phương và PGS TS

tài nghiên

l c cá nhân, mà còn có

c a t p th giáo viên hư ng d n, nhà trư ng, b

nghi p và gia ình. Tôi mu n bày t

d n PGS TS T


òi h i s


h nh phúc v i k t qu

c u c a mình. Nh ng k t qu
s h tr và giúp

thách l n,

môn,

ng

nvih.
n t p th

giáo viên hư ng

inh M nh Tư ng. ư

c làm vi c

v i hai th y là m t cơ h i l n cho tôi h c h i phương pháp nghiên c u. C m ơn hai th
y r t nhi u vì s hư ng d n t n tình, nghiêm túc và khoa h c.
Tôi xin trân tr ng c m ơn B môn Khoa h c máy tính, Khoa Công ngh thông
tin, Phòng ào t o, Ban giám hi u trư ng i h c Công ngh ã t o i u ki n thu n l i cho tôi
trong su t quá trình th c hi n lu n án.
Tôi xin c m ơn t p th Lãnh o H c Vi n Công ngh Bưu chính Vi n thông, cán

b , gi ng viên khoa Công ngh thông tin – H c Vi n Công ngh Bưu chính Vi n thông
ã c v ng viên tôi trong quá trình nghiên c u.
Tôi c m ơn t t c nh ng ngư i b n c a tôi, nh ng ngư i luôn chia s và c
v tôi trong nh ng lúc khó kh n và tôi luôn ghi nh
Cu i cùng, tôi xin bày t

iu

ó.

lòng bi t ơn vô h n i v i cha m và gia ình ã tôi.

luôn bên c nh ng h , giúp

2


M CL

PH N M

C

U.............................................................................................................. ....

1. Tính c p thi t c a lu n án...................................................................................... 11
2. M c tiêu c a lu n án.............................................................................................. 12
3. Các óng góp c a lu n án..................................................................................... 13
4. B c c c a lu n án................................................................................................... 15
CHƠ NG 1. T NG QUAN V L C THÔNG TIN CHO H


T

V N............16

1.1. GI I THI U CHUNG........................................................................................... 16
1.1.1. Ki n trúc t ng quát c a h th ng l c thông tin .............................................. 17
1.1.2. L c thông tin và truy v n thông tin .............................................................. 18
1.1.3. H c máy và l c thông tin............................................................................... 19
1.1.4. L c thông tin và các h tư v n...................................................................... 21
1.2. PHƠ NG PHÁP L C THEO N I DUNG....................................................... 24
1.2.1. Bài toán l c theo n i dung............................................................................. 25
1.2.2. Các phương pháp pháp l c theo n i dung.................................................. 25
1.2.2.1. L c n i dung d a vào b nh..................................................................... 25
1.2.2.2. L c n i dung d a vào mô hình............................................................... 28
1.2.3. Nh ng v n

t n t i...................................................................................... 29

1.3. PHƠ NG PHÁP L C C NG TÁC................................................................... 30
1.3.1. Bài toán l c c ng tác...................................................................................... 30
1.3.2. Các phương pháp l c c ng tác..................................................................... 32
1.3.2.1. L c c ng tác d a trên b

nh................................................................ 32

1.3.2.2. L c c ng tác d a vào mô hình................................................................ 35
1.3.3. Nh ng v n

t n t i...................................................................................... 38


1.4. PHƠ NG PHÁP L C K T H P........................................................................ 39
1.4.1. Bài toán l c k t h p......................................................................................... 39
1.4.2. Các phương pháp l c k t h p....................................................................... 40
1.4.3. Nh ng v n

còn t n t i.............................................................................. 42

1.5. K T LU N.............................................................................................................. 42
3


CHƠ NG 2. L CC NGTÁCB NGPHƠ NGPHÁPH C
2.1.
TV N

ANHI M ......
44

.............................................................................................

2.1.1. V n
2.1.2.

ng tác ..................................................

44

li u thưa ....................................................


45

d li u thưa c a l c c
d

nh hư ng c a v n

d li u thưa...................................

2.1.3. Các phương pháp h n ch v n
2.2. L C C NG TÁC B NG PHÂN LO

46

I ...................................................

2.2.1. Phát bi u bài toán l c c ng tác b ng phân lo i

48
.................................. 48
51

2.2.2. Phân lo i b ng phương pháp Boosting ...............................................
C TR NG CHUNG ....................................

2.3. PHÂN LO I V I CÁC
2.3.1. Phương pháp h c
2.3.2. Boosting
2.3.2.1. Xây d


2.4. TH

ph

a nhi m .................................................................

ng hàm m c tiêu................................................................

59

phân lo i y u...........................................................

60

c t p thu t toán ..................................................................

63

.................................................................

65

NGHI MVÀK TQU

2.4.1. Phương pháp th
2.4.2. D li u th

56

ng th i cho nhi u bài toán phân lo i............................... 59


2.3.2.2. Xây d ng b
2.2.2.3.

56

nghi m.....................................................................

65

nghi m ..............................................................................

65

2.4.3. So sánh và ánh giá d a vào giá tr MAE ..........................................
2.4.4. K t qu th

67

nghi m..............................................................................

67

2.4.5. Phân tích k t qu ..................................................................................

2.5. K T LU
CHƠ NG 3. L
3.1. V N

69


N .................................................................................................

72

CK TH PD

A TRÊN MÔ HÌNH

L C K T H P...........................................................................

73

3.2. L C C NG TÁC D A TRÊN MÔ HÌNH
3.2.2. Phương pháp d
ch

oán trên

Ngư i

TH ............................... 75

th ..............................................................

3.2.1. Phương pháp bi u di n
3.2.2.1.

TH ............................


75

th Ngư i dùng- S n ph m ................ 76

ng- n ph m

nh
+

c

con .............. 78

3.2.2.2. Phương

pd

n trên

G ................................................

80

3.2.2.3. Phương

pd

n trên

G- ................................................


83

4


3.2.2.4. Phương

pd

n theo t t

3.3. K T H P L C C NG TÁC VÀ L C N
3.3.1. Bi u di n

nh................................................. 85
I DUNG................................... 88

th k t h p.................................................................................. 88

3.3.2. Xây d ng liên k t ngư i dùng và n i dung s n ph m.................................. 91
3.3.3. Phương pháp d

oán.................................................................................. 95

3.3.3.1. L c c ng tác d a trên mô hình

th k t h p.................................... 95

3.3.3.2. L c n i dung d a trên mô hình


th k t h p................................... 95

3.3.3.3. Phương pháp l c k t h p ơ n gi n........................................................ 96
3.3.3.4. Phương pháp k t h p

xu t.............................................................. 96

3.3.4. Thu t toán lan truy n m ng......................................................................... 102
3.4. TH

NGHI M VÀ K T QU............................................................................ 103

3.4.1. D li u th

nghi m..................................................................................... 104

3.4.2. Phương pháp th nghi m........................................................................... 105
3.4.3. So sánh và ánh giá d a vào Precision, Recall và F-measure .............105
3.4.4. Phân tích k t qu........................................................................................... 107
3.4.5. Trư ng h p d

li u thưa........................................................................... 110

3.5. K T LU N............................................................................................................ 111
K T LU N................................................................................................................... 113
DANH M C CÁC CÔNG TRÌNH CÔNG B....................................................... 116
TÀI LI U THAM KH O (TI NG VI T):................................................................ 117
TÀI LI U THAM KH O (TI NG ANH):............................................................... 117
PH L C1XÂYD


NGH

TH NGT

V NL

TRÊN MÔ HÌNH

TH K T H P.......................................................................... 127

5

ACH

NPHIMD

A


DANH M C CÁC CH

VITTT
DI NGI I

KÝHI U
AM

Aspect Model (Mô hình


AU

Active User (Ngư i dùng hi n th i)

CBF

Content-Based Filtering (L c d

CF

Collaborative Filtering (L c c ng tác)

DAC

Data Analyser Component (Thành ph n phân tích d

DBC

Data-Based Concept (Nguyên lý d a vào d li u)

DF

Degree of Freedom (S b c t

EM

Expectation Maximization (C c

FC


Filtering Component (Thành ph n l c)

FMM

Flexible Mixture Model (Mô hình pha tr n linh ho t)

IBL

Instance-Based Learning (H c d

IDF

Inverse Document Frequency (T n su t xu t hi n ngư c)

IE

Information Extraction (

IF

Information Filtering (L c thông tin)

IO

Information Overload (Quá

IR

Information Retrieval (Truy v n thông tin)


KNN

K Neareast Neighbor (K ngư i láng gi ng g n nh t)

KPC

KNN Pearson Correlation (Phương pháp K ngư i láng gi ng g n

nh hư ng)
a trên n

i dung)
li u)

do)
i k v ng)

a trên ví d )

ch thông tin)
i thông tin)

nh t d a trên tương quan Pearson)
LC

Learning Component (Thành ph n h c)

LL

Lazy Learning (H c lư i)


LSE

Least Square Estimation (

LSM

Latent Semantic Model (Mô hình ng ngh a n)

MAE

Mean Absolute Error (Trung bình giá tr

MBF

Memory-Based Filtering (L c d

MC

Multiclass Classification (Phân lo i nhi u l p)

MDBF

Model-Based Filtering (L c d

ML

Machine Learning (H c máy)

MM


Multinomial Model (Mô hình

c lư ng bình phương t i thi u)

6

tuy t

a vào b nh
a vào mô hình)
a th c)

i li)
)


MMM
MTL

Multinomial Mixture Model (Mô hình pha tr n a th c)
Multi Task Learning (H c
a nhi m)

PCA

Principal Components Analysis (Phân tích thành ph n chính)

RS


Recommender System (H th ng tư v n)

SD

Standard Deviation (

SDP

Sparsity Data Problem (V n

SE

Standard Error (L i chu n)

STL

Single Task Learning (Phương pháp h c ơ n l )

SVD

Singular Value Decomposition (Phân

giá tr riêng)

SVM

Support Vector Machine (

ctơ)


TF

Term Frequency (T n su t)

UMC

User-Model Component (Thành ph n mô hình ngư i dùng)

URP

User Rating Profile (H

l ch chu n)
d

li u thưa)

y h tr



7

nh

ngư i ng)


DANH M C CÁC HÌNH


Hình 1.1. Ki n trúc t ng quát c a h
Hình 1.2. Các thành ph n c a h

th ng l c thông tin........................................... 17

th ng l c c ng tác................................................... 31

Hình 2.1. Thu t toán GentleBoost................................................................................. 52
Hình 2.2. Phương pháp STL cho b n bài toán phân lo i

c l p nhau..................58

Hình 2.3. Phương pháp h c MTL cho b n bài toán phân lo i
Hình 2.4. Thu t toán MC-Boost c i ti n s

d ng

ng th i...............58

c trưng chung cho nhi u bài

toán...................................................................................................................................... 62
Hình 2.5. Phương pháp duy t t p con các bài toán phân lo i................................... 64
Hình 3.1.

th Ngư i dùng- S n ph m......................................................................... 76

Hình 3.2.

th G bi u di n các


Hình 3.3.

th G bi u di n các

+

ánh giá thích h p................................................ 79

-

ánh giá không thích h p.................................... 80
+

Hình 3.4. Thu t toán d

oán trên

G .............................................................. 81

Hình 3.5. Thu t toán d

oán trên

G ............................................................... 84

Hình 3.6. Thu t toán d

oán trên t t c


-

ánh giá.................................................... 86

Hình 3.7.

th k t h p ngư i dùng và n i dung s n ph m........................................... 90

Hình 3.8.

th thi t l p liên k t gi a ngư i dùng và

Hình 3.9. Thu t toán d

oán trên

c trưng n i dung...........94

th k t h p......................................................... 99

Hình 3.10. Thu t toán lan truy n m ng....................................................................... 103
Hình 3.11. Giá tr F-Measure

các m c

thưa th t d

8

li u............................... 111



DANH M C CÁC B NG
23
B ng 1.1. Phân lo i các phương pháp tư v n và m t s nghiên c u i n hình...
B ng 1.2. Ví d v ma tr n
ánh giá c a l c c ng tác.......................................... 31
B ng 2.1. Ma tr n

ánh giá ngư i dùng................................................................. 45

B ng 2.2. Ma tr n

u vào c a l c c ng tác .......................................................... 49

B ng 2.3. Ma tr n

u vào bài toán phân lo i theo ngư i dùng........................... 50

B ng 2.4. Ma tr n

u vào bài toán phân lo i theo s n ph m .............................. 50

B ng 2.5. K t qu

th

nghi m v i MovieLens ..................................................... 68

B ng 2.6. K t qu


th

nghi m v i EachMovie ..................................................... 68

B ng 2.7. Các tham s

th ng kê v i K=5 ánh giá bi t trư c.............................. 70

c a t p d li u MovieLens......................................................................................

B ng 2.8. Các tham s

70

th ng kê v i K=10 ánh giá bi t trư c............................ 70

c a t p d li u MovieLens......................................................................................

B ng 2.9. Các tham s

70

th ng kê v i K=20 ánh giá bi t trư c............................ 71

c a t p d li u MovieLens......................................................................................

B ng 2.10. Các tham s

71


th ng kê v

i K=5 ánh giá bi t trư c............................ 71

c a t p d li u EachMovie .....................................................................................

B ng 2.11. Các tham s

71

th ng kê v i K=10 ánh giá bi t trư c ......................... 71

c a t p d li u EachMovie .....................................................................................

B ng 2.12. Các tham s

71

th ng kê v i K=20 ánh giá bi t trư c ......................... 72

c a t p d li u EachMovie .....................................................................................

B ng 3.1. Ma tr n

72

ánh giá R.................................................................................

74


B ng 3.2. Ma tr n S n ph m – N i dung Y...........................................................
B ng 3.3. Ma tr n X bi u di n
+

B ng 3.4. Ma tr n X bi u di n

ánh
c

74

th Ngư i dùng- S n ph m ................... 76
ánh giá thích h p........................................ 79

c ánh giá không thích h p ............................ 80
B ng 3.5. Ma tr n X bi u di n
B ng 3.6. Ma tr n
89
B ng 3.7. Ma tr n Ngư i dùng- S n ph m X........................................................ 89
ánh giá R.................................................................................

9


B ng 3.8. Ma tr n S n ph m- N i dung Y........................................................................ 90
B ng 3.9. Giá tr Precision, Recall, F-Measure ki m nghi m trên t p
MovieLens1..................................................................................................................... 106
B ng 3.10. Giá tr Precision, Recall, F-Measure ki m nghi m trên t p
MovieLens2..................................................................................................................... 107

B ng 3.11. K t qu ki m nghi m paired t-test v i K=10 s n ph m c n tư v n

......

trên t p MovileLens1...................................................................................................... 108
B ng 3.12. K t qu ki m nghi m paired t-test v i K=20 s n ph m c n tư v n

......

trên t p MovileLens1...................................................................................................... 109
B ng 3.13. K t qu ki m nghi m paired t-test v i K=50 s n ph m c n tư v n

......

trên t p MovieLens1........................................................................................................ 109
B ng 3.14. K t qu ki m nghi m paired t-test v i K=10 s n ph m c n tư v n

......

trên t p MovileLens2...................................................................................................... 109
B ng 3.15. K t qu ki m nghi m paired t-test v i K=20 s n ph m c n tư v n

......

trên t p MovileLens2...................................................................................................... 110
B ng 3.16. K t qu ki m nghi m paired t-test v i K=50 s n ph m c n tư v n

......

trên t p MovileLens2...................................................................................................... 110


10


PH NM

U

1. Tính c p thi t c a lu n án
quá t i thông tin (Information Overload) ư

Vn
ln

u tiên vào n m 1982 [49]. V i nh

Denning kh ng

nh kh

n ng l

ng lý l

nt

và b ng ch

ng thuy t ph c,


a ch n thông tin h u ích c a ngư i dùng máy

tính s g p khó kh n nghiêm tr ng b i s
kh ng l

c J.Denning nêu ra

gia t ng không ng

ng lư ng thông tin

hàng tr m kênh truy n hình, hàng tri u b ng hình, sách, báo, t p

chí, tài li u thông qua các h
ngay l p t c ư c c ng

th ng giao d ch

int.Vn

Denning công b

t p trung nghiên c u phương pháp h n ch
i v i ngư i dùng, thúc

nh hư ng c a v n

y m t l nh v c nghiên c

quá t i thông tin


u m i ó là l c thông tin.

L c thông tin (Information Filtering) là l nh v c nghiên c
c

m i ngư i dùng. L c thông tin ư
L c thông tin ư
th c và l

c d a trên d

phương pháp này là

c xem là phương pháp hi u qu

c ti p c n theo hai xu hư ng chính,
li u. Trong trư ng h

n vi

h n ch tình

ó là l c d

a trên tri

p d a vào tri th c, h

th ng th c


d ng t p lu t xây d ng trư c. Như c

i m ca

có ư c m t t p lu t

tt

òi h i chi phí nhi u th i gian

và kinh nghi m c a chuyên gia; vi c c p nh t các lu t không th

bi n

p

c quan tâm nhi u nh t hi n nay.

hi n l c thông tin b ng cách s

t

u các quá trình

nh ng thông tin không thích h p và cung c p thông tin thích h

tr ng quá t i thông tin ư

ng và


ng các nhà khoa h c máy tính nhi t tình hư ng

th

c hi n ư c

ng vì ngu n d li u vào thư ng không có c u trúc và luôn trong tr ng thái
ng. Chính vì v y, l c d a trên tri th c có xu hư ng ít ư c s
i v i các h th ng l c d a trên d li u, các quy t c l c ư

d li u mà h th ng thu th p ư

c b ng các k thu t th ng kê ho c các thu t toán

h c máy. Cách ti p c n này cho phép t

ng c p nh t các quy t c l c và không

l thu c vào tri th c chuyên gia. H
nghi cao và t n d ng ư

d ng.
c xây d ng t

th ng l c d a trên d li u có kh n ng thích
li u. Chính vì v y, cách ti p c n này ư c

c ngu n d


quan tâm nghiên c u hơn so v i phương pháp d a vào tri th c.

11


H tư v n (Recommender System) là h th ng có kh n ng t
ng phân
tích, phân lo i, l a ch n và cung c p cho ngư i dùng nh
ng thông tin, hàng hóa
hay d ch v mà h

quan tâm. H tư v n ư

c xem như m t bi n th

c thông tin. Nhi u h tư v n ã ư

vai trò quan tr ng trong l

tri n khai thành công, tiêu bi u là

h

tư v n

i n hình có

c thương m i hóa và

c a các


hãng Amazon.com,

Netflix.com, Procter & Gamble.
H tư v n ư

c xây d ng d a trên hai k

thu t l c thông tin chính: L c

theo n i dung (Content-Based Filtering) và l c c ng tác (Collaborative Filtering).
L c theo n i dung khai thác nh ng khía c nh liên quan
ph m ngư i dùng

n n i dung thông tin s n

ã t ng s d ng hay truy nh p trong quá kh

Trái l i, l c c ng tác khai thác nh ng khía c nh liên quan
s n ph m c a c ng

ng ngư i dùng có cùng s thích

Trong quá trình nghiên c u và

i v i thông tin tư v n như tính thưa th

dùng m i, hàng hóa m
v id


d ng

t o nên tư v n.
ng v n

vn

chung

mang tính c

t d li u hu n luy n, x

lý ngư i

i, yêu c u k t h p các d ng thông tin khác nhau, làm vi c


li u kích thư c l

c c p nh t thư ng xuyên. M c dù

nghiên c u nh m t i n i dung này, nhưng
m , có tính th i s

n thói quen s

ng d ng, bên c nh nh

c a bài toán l c thông tin thông thư ng, xu t hi n m t s

thù

t o nên tư v n.

và thu hút s

ã có nhi u

ây v n là nh ng v n

qua tâm c a c ng

nghiên c u

ng nghiên c u.

tài “Phát tri n m t s phương pháp l c thông tin cho h tư v n” ư
th c hi n trong khuôn kh
góp ph n gi i quy t m

lu n án ti n s

ts vn

c

chuyên ngành khoa h c máy tính nh m

còn tn t i c a l c thông tin cho các h


tư v n.

2. M c tiêu c a lu n án
M c tiêu c a lu n án là nghiên c u áp d ng, c i ti n m
máy nh m c i thi n

chính xác c a l c thông tin trong các h

nghiên c u t p trung vào vi c nâng cao k t qu
trong trư ng h p d

d

12

thu t h c

tư v n.

c bi t,

oán nhu c u ngư i dùng

li u thưa, c ng như trong trư ng h p có c

ngư i dùng và thông tin n i dung s n ph m.

ts k

d


li u s thích


3. Các óng góp c a lu n án
óng góp th nh t c a lu n án là xu t áp d ng m t k thu t Boosting c i ti
n cho nhi u bài toán phân lo i vào l c c ng tác [3, 81], bao g m:
-

xu t phương pháp gi i quy t bài toán l c c ng tác b ng k thu t
Boosting d a trên bi u di n d
h c máy;

-

p

ng k

li u phù h p cho bài toán phân lo i c a

thu t Boosting

i ti n cho nhi u bài toán phân lo i b ng
nh (Decision Stump) cho

phương pháp h c a nhi m d a trên g c quy t
c c ng
-


c nh m n ch nh hư ng

Th nghi m và
ánh giá k t qu

ánh giá k t qu

avn

d li u thưa;

phương pháp c i ti n,

c bi t chú tr ng

d oán trong trư ng h p d li u thưa c a l

H u h t các phương pháp h c máy cho l c c ng tác hi n nay
nh ng nhi m v

h

c ơ n l (Single Task Learning) v i gi

c c ng tác.
u th c hi n

thi t d

li u hu n


luy n và d li u ki m tra ư c mô t trong cùng m t không gian các giá tr
c
trưng v i cùng m t phân b . Khi phân b thay i, t p d
li u hu n luy n và d
li u ki m tra ph i xây d ng l i. Trên th
c ng th c hi n ư

c làm cho k t qu d

M t khác, t i m i th i
l , k t qu

c t , vi c làm này không ph i lúc nào

c a m i nhi m v

oán các phương pháp kém tin c y.

i m, phương pháp ch th c hi n m t nhi m v
c th

hoàn toàn

Chính vì v y, phương pháp ti p c n này s

clpv

i các nhi m v khác.


g p khó kh n khi d

gi i quy t v n này, lu n án
xu t áp d
thưa th t.
nhi m (Multi-Task Learning) cho l c c ng tác nh m s d
gi a các nhi m v h c ơ n l . T p thông tin chung tìm ư

ơn

li u hu n luy n

ng phương pháp h c a
ng t p thông tin chung
c óng vai trò chia s

và b sung thông tin vào quá trình hu n luy n cho m i ngư i dùng khác nhau, góp ph
n nâng cao k t qu d oán và h n ch ư c nh hư ng c a tình tr ng d li u thưa trong l c c
ng tác.

13


óng góp th hai c a lu n án là xu t m t phương pháp l c k t h p d a trên
mô hình th [2, 80], bao g m:
-

Bi u di n m i liên h
gi a các i tư ng tham gia h th ng l c (Ngư i
dùng, s n ph m và n i dung s n ph m) d

a vào mô hình
th ;

-

Xây d ng phương pháp d

-

Xây d ng phương pháp trích ch n

oán cho l c c ng tác d a trên mô hình

th .

c trưng n i dung s n ph m d a trên

thói quen s d ng s n ph m c a ngư i dùng;
-

Cá nhân hóa

nh hư ng c a các c trưng n i dung

i v i thói quen s

d ng s n ph m c a ngư i dùng;
-

Áp d ng thu t toán lan truy n m ng trên

b

-

th k t h p

d

oán, phân

các s n ph m cho m i ngư i dùng;

Th nghi m và
t n d ng l

xu t.

ánh giá k t qu phương pháp

i th c a m i phương pháp l c, lu n án

k t h p gi a l c c ng tác và l c n

xu t phương pháp

i dung d a trên bi u di n

tham gia quá trình l c, bao g m: ngư i dùng, s n ph m,

th các


i tư ng

ánh giá ngư i dùng và

n i dung s n ph m.
tránh nh ng h n ch
pháp trích ch n

c trưng n i dung ch d

xu t phương pháp trích ch
iv

c a các phương pháp l c k t h p trư c
a vào n

xem là quan tr ng v i m i ngư i dùng ư
Vi c tìm ra nh ng

i dung s n ph m), lu n án

n c trưng n i dung d

i s n ph m. D a trên phương pháp này, nh

ây (phương

a vào thói quen ngư i dùng
ng


c gi l i

c trưng có nh hư ng quan tr ng

i dung ư c

c trưng n

ph c v

m c tiêu d oán.

n thói quen ngư i dùng

không ch làm gi m chi phí tính toán c a phương pháp (vì s lư ng các
n i dung quan tr ng
nh ng

ivim

c trưng

i ngư i dùng còn l i r t ít), mà còn lo i b ư c

c trưng không nh hư ng ho c

nh hư ng không t t

n thói quen s


d ng s n ph m c a ngư i dùng.
Phương pháp d

oán ư

c ư a v bài toán tìm ki m trên

t n d ng ư c các thu t toán hi u qu trên
h gián ti p gi a các

th mà còn t n d ng ư

i tư ng tham gia h th ng.

14

th

không ch
c m i liên


Phương pháp l c k t h p
xu t ư
tư v n l a ch n phim
ã cho l i k t qu
ánh giá, bình lu n và g i ý nh

c th

nghi m và áp d ng cho h th ng
d
oán tt. H
th ng cho phép xem,

ng phim ư c xem h p v i s

c n ng c p nh t, phân tích

ngư i dùng. H th ng g m b n ch c n ng chính: Ch
thông tin ngư i dùng và s n ph m; ch c n ng h
v n. Trong ó, ch c n ng h c và l c ư

thích ng v i m i

c; ch c n ng l

c th

c và ch c n ng tư

c hi n theo phương pháp l c k t

h p xu t.
4. B c c c a lu n án
N i dung lu n án ư

c xây d ng thành ba chương và m t ph l c, trong ó:

Chơ ng 1. gi i thi u t ng quan v


l c thông tin. Trình bày nh ng nghiên

c u cơ b n c a l c thông tin, các phương pháp l c thông tin cho h tư v n và nh ng v
n c n ti p t c nghiên c u c a m i phương pháp. Trên cơ nh ng
nghiên c u cơ b n, xác nh rõ hư ng nghiên c u c a
c u cơ b n c a
tài ư c công b trong [4].
Chơ ng 2. trình bày phương pháp h n ch
thưa trong l c c

nh hư ng c a v n

ng tác b ng phương pháp h c

trong chương này ư

c t ng h p d a trên k t

tài. M t k t qu

nghiên
d

li u

a nhi m. N i dung trình bày
nghiên c u

công b trong [3,


81].
Chơ ng 3. trình bày phương pháp k t h p gi

th . N i dung trình bày trong chương này ư

d a trên mô hình
k t qu nghiên c

a l c c ng tác và l c n i dung

u

công b trong [2, 80]. Cu i cùng là m t s

c t ng h

pt

k t lu n và

xu t các nghiên c u ti p theo.
Ph n ph l c. trình bày thi t k và xây d ng ng d ng cho phương pháp l c
kthpư

c

xu t trong Chương 3.

15



CHƯƠNG 1
L C THÔNG TIN CHO H

T NG QUAN V

Chương này trình bày nh ng v n

t ng quan v

phương pháp l c thông tin cho h tư v n cùng v i nh
phương pháp. Trên cơ s
c u c th

ca

nh

TƯV N
l c thông tin, các
ng h n ch

ng nghiên cu cơ b n, xác

tài. Nh ng k t qu

nghiên c u c a

tntimi


nh rõ hư ng nghiên
tài s

ư

c trình bày

trong các chương ti p theo c a lu n án.
Do l c thông tin là l nh v c nghiên c
bày ng n v

l

u có ph m vi r

ng l n, sau khi trình

c thông tin nói chung, lu n án t p trung trình bày vào ch

nghiên c u chính c a lu n án

ó là v n

lc trong các h tư v n.

1.1. GI I THI U CHUNG
L c thông tin (IF) là l nh v c nghiên c u các quá trình cung c p thông tin
thích h p, ng n ng a và g b thông tin không thích h p cho m i ngư i dùng
[75, 99]. Thông tin ư c cung c p (còn ư c g i là s n ph m) có th

là v n b n,
trang web, phim,
nh, d ch v ho c b t k d ng thông tin nào ư
c s n sinh ra t
các phương ti n truy n thông. Ph m vi
trong nhi u

ng d

bi u nh t c

a l c thông tin ư c k

ng d ng c
n là l c k t qu

c e-mail d

p, lo i b
c bi t, l

tìm ki m trong các

nh ng trang thông tin có

ng d ng nhưng

sơ ngư i

nh hư ng không t t


c thông tin có vai trò quan tr

ng cho các h

int.

Các h th ng l c thông tin có th khác nhau v

nguyên lý, phương pháp,

u th c hi n m c tiêu cung c p cho ngư i

dùng nh ng thông tin c n thi t nh t, lo i b
ho c không thích h p

h

y

cung c p thông tin cho t p th

th ng tư v n (RS) ng d ng trong thương m i
k thu t, ph m vi

ng d ng tiêu

a trên n i dung thư

dùng, l c thông tin v n b n trên các máy ch

i v i ngư i dùng.

c thông tin tr i r ng

ng th c t khác nhau c a khoa h c máy tính.

m ki m (Search Engine), l
ho c cá nhân thích h

al

nh ng thông tin không có giá tr

i v i ngư i dùng. Nguyên lý ph

16

bi n ư

c dùng trong


l c thông tin là nguyên lý d
a vào d li u (Data-Based) và nguyên lý d a vào tri
th c (Knowledge-Based) [99]. Các phương pháp l c có th ư c th c hi n d a
vào n i dung thông tin s n ph m ho c l

c d a trên thói quen s

dùng. Các k thu t l c ư


a trên n n t ng t

c phát tri n d

thích ngư i

l nh v

c truy v n

thông tin (Information Retrieval), tách thông tin (Information Extraction), phân
lo i thông tin (Information Classificarion). Ph m vi
lcư

ng d ng c a các h th ng

c áp d ng cho t t c các mô hình thương m i i n t

th c t : Khách hàng

- Khách hàng (Customer to Customer), Nhà cung c p - Khách hàng (Business
to Customer), Nhà cung c p - Nhà cung c p (Business to Business) [75].
1.1.1. Ki n trúc t ng quát c a h th ng l c thông tin
M t h th ng l c thông tin t ng quát bao g m b n thành ph n c ơ b n [99]:
Thành ph n phân tích d li u (Data Analyser Component), thành ph n mô hình
ngư i dùng (User Model Component), thành ph n h c (Learning Component)
và thành ph n l c ( Filtering Component).
Thành ph n mô
hình ngư i dùng

H sơ ngư i

Thông tin

ct

Ngư i dùng

ngư i dùng
Ph n h i

thông tin
Thông tin các

S n ph m

ngư i dùng

dùng

Nhà cung c p

phù h p v i
ngư i dùng

s n ph m

C p nh t thông
Thành ph n
hc


Bi u di n Thông

tin hu n luy n
Bi u di n Thông

Thành ph n l c

tin s n ph m

tin s n ph m

Thành ph n
phân tích d
li u

Hình 1.1. Ki n trúc t ng quát c a h th ng l c thông tin.

• Thành ph n phân tích d li u (DAC) có nhi m v thu th p d li u v s n
ph m t

các nhà cung c p thông tin (ví d

chí, phim, nh...). D

li u v s n ph m ư

khuôn d ng thích h p, sau

ó chuy n


17

tài li u, thư

i n t , sách, báo, t p

c phân tích và bi u di n theo m t
n b ph n l c như Hình 1.1.


ly
• Thành ph n mô hình ngư i dùng (UMC) có th “hi n” ho c “ n” dùng
thông tin v ngư i dùng, như gi i tính, tu i, nơi sinh s ng và thông tin ngư i
dùng ã truy v n trư c
sau khi t o ra ư

ó

c chuy n

t o nên h

sơ ngư i dùng. H

n thành ph n h c

sơ ngư i dùng

th c hi n nhi m v hu n


luy n.
• Thành ph n h c (LC) th c hi n hu n luy n trên t p h
ngư i dùng theo m t thu t toán h c máy c
thành ph n mô t

ngư i dùng; l y d

sơ và ph n h

th . Thu t toán h c l y d
ãư

li u v s n ph m

thành ph n l c k t h p v

i thông tin ph n h i ngư i dùng

v hu n luy n. K t qu

quá trình h c ư

th c hi n nhi m v

phù h p gi a h
nh phân b

h sơ ngư i dùng, s n ph m s
trư ng h p ngư c l i, h


h p, xem xét,

c bi u di n t
th

c hi n nhi m
c

ti p theo.

ư a ra quy t

ph m phân b

li u t

c chuy n l i cho b ph n l

• Thành ph n l c (FC) là thành ph n quan tr ng nh t c
v xem xét s

ica

a h th ng, có nhi m

sơ ngư i dùng và bi u di n d
s n ph m. N u d
ư


li u s n ph m

li u s n ph m phù h p v i

c cung c p cho ngư i dùng

th ng lo i b

ó. Trong

s n ph m kh i danh sách nh ng s n

cho ngư i dùng. Ngư i dùng nh n ư

c nh

ánh giá, ph n h i l i cho thành ph n h

ng s n ph m thích
c

ph c v

quá

trình l c ti p theo.
1.1.2. L c thông tin và truy v n thông tin
Belkin và Croft [75] nhìn nh n l
m t c a cùng m t v n


. Chính vì v y, nhi u

có th tìm th y trong l nh v
bi t s

c thông tin và truy v n thông tin như hai
c trưng cơ b n c

c truy v n thông tin (IR). Tuy nhiên, ta có th

khác bi t gi a hai h th ng này thông qua vi c so sánh m

cơ b n dư i

a l c thông tin

ts

phân
c trưng

ây.

• Ki u ngư i dùng. H
ngư i dùng t i m i th i

th ng truy v n thông tin

áp ng nhu c u cho t t c


i m mà không c n quan tâm

18

nh

là ai. Trái


l i, l c thông tin quan tâm n nh ng ngư i dùng thư ng xuyên s
h
th ng dùng, có h sơ rõ ràng, có m i quan tâm dài h n

d ng
iv ih

ng và luôn nh n ư c thông tin thích h p t h th ng m i th

i i m.

th

• Bi u di n nhu c u thông tin. H th ng truy v n thông tin bi u di n nhu
c thông tin bi u
sơ ngư i

c u ngư i dùng b t k
dư i d ng m t câu truy v n. L
di n nhu c u ngư i dùng lâu dài h th ng dư i d ng m t h
dùng. H sơ ngư i dùng không ch ghi l i các

mà còn bao hàm các
quen s d

c trưng thông tin cá nhân,
n l ch s truy c p hay thói

c trưng liên quan

ng thông tin c a ngư i dùng này.

• M c tiêu h th ng. H

th ng truy v n thông tin quan tâm

n các phương
p v i truy

pháp cung c p thông tin thích h p cho m i ngư i dùng phù h
v n c a ngư i dùng này. L c thông tin quan tâm
b d

li u hơn là vi c n l c tìm ki m thêm d

n các phương pháp g
li u. C

ng vì lý do này,

c thông tin ư c xem là phương pháp gi m t i thông tin chính ư c


l

quan tâm nh t hi n nay.
• Cơ s d li u. H th ng truy v n thông tin th c hi n cung c p thông tin
trên các cơ s d li u t nh. L c thông tin cung c p thông tin trên cơ s
li u

ng, có c u trúc khác nhau và thư ng xuyên bi n

• Ph m vi tương tác. H

th ng truy v n không quan tâm

i.

n s tương tác

gi a nh ng ngư i dùng khác nhau. L c thông tin quan tâm
ng theo s thích, thói quen hay nh ng
nhau c a t p ngư i dùng. H
gi l i nh ng

d

c trưng xã h i, t

n s tương
nhiên khác

th ng luôn có m t mô hình ngư i dùng


c trưng c n thi t cho m i ngư i dùng.

1.1.3. H c máy và l c thông tin
H c máy (Machine Learning). H c máy là l nh v c nghiên c u c a trí
tu nhân t o t p trung vào vi c ra quy t
d li u [1, 85, 97]. Các k

nh ho c phát hi n tri th c d a trên

thu t h c máy ư
19

c s d ng trong vi c d

oán (ví


d d
oán nhu c u ngư i dùng), phân lo i, x p h ng (ví d
h ng thông tin, phân lo i ngư i dùng).
L c thông tin có cùng chung m
thông tin c n thi t cho m

c tiêu v i h

c máy (ML)

a trên nh ng gì có th


i ngư i dùng d

kinh nghi m c a c ng

phân lo i, x p

ng trong quá kh

ó là cung c p
hct

nh ng

. Chính vì v y, thành ph n l c thông

ng theo hai cách ti p c n chính c a h c máy: l c d a trên tri

tin ư c xây d

th c và l c d a trên d li u.
L c d a trên tri th c (KBC). Thông tin ư
các lu t. M

nh l c s ư

c th a mãn. Ví d

ư c nh ngh a và áp d
ch


d ng

i lu t bi u di n nhu c u thông tin ngư i dùng ho c m t m u thông

tin c n l c. M i quy t
ư a ra ư

c l c b ng cách s

trong h

c th

c hi n n u nh ng i u ki n c

th ng l c thư

ng cho các trư ng tiêu

a lu t

i n t , m i lu t có th
thư (Ngư i g i, ngày g i,

...).
i m quan tr ng c a cách ti p c n này là các lu t do ngư i dùng

(chuyên gia) cung c p d

a trên kinh nghi m hay tri th

th

thu t h c t

i m là vi c xây d ng các lu t l c t

th i gian, kinh nghi m c
th c hi n t
ư

im

t òi h i nhi u

a chuyên gia. Vi c c p nh t các lu t c

ng. Do như c

u

ng s ơ n gi n hơn do không c n s d ng các k

c a cách ti p c n này là h
ng. Như c

c c a mình.

i m này, l c d a trên tri th

ng không th

c có xu hư ng ít

c s d ng.

L c d a trên d li u (DBC). Khác v i l c d a trên tri th c, trong cách
ti p c n d a trên d li u, các quy t c cho thành ph n l c ư c xây d
ng t d
li u mà h

th ng thu th p ư

thu t toán h

c b ng cách s

d ng k

thu t th ng kê ho c các

c máy. Cách ti p c n này cho phép t o ra và c p nh t quy t c l c

thông tin mà không c n t i tri th c chuyên gia,

ng th i ch t lư ng l

c có th

t t hơn so v i cách ti p c n d a trên tri th c,

c bit khi có lư ng d


li u l n

và thư ng xuyên bi n

ng.

20


Do vi c thu th p d li u ngày càng nhanh và d , l c d a trên d li u ang d n tr
thành cách ti p c n chính trong l c thông tin. Chính vì v y, lu n
án s t p trung nghiên c u k thu t l c thông tin cho h tư v n d a trên cách
ti p c n này.
1.1.4. L c thông tin và các h t v n
H t v n (RS) là trư ng h p riêng c a các h
trên thông tin

ã có v

ngư i dùng, h

th ng l c thông tin. D a

tư v n xem xét trong s

lư ng r t l

n


hàng hóa hay thông tin và tư v n cho ngư i dùng m t danh sách ng n g
nhưng

y

nh ng hàng hóa mà ngư i dùng có kh

n

n ng quan tâm [25, 26,

40, 51, 53, 54, 67, 70, 83].
S

d ng h tư v n trong các

khách hàng không c n th

ng d ng thương m i

int

s h

c hi n các thao tác tìm ki m s n ph m, mà ch

tr
cn

l a ch n hàng hóa ho c d ch v


ưa thích do h

th ng cung c p.

làm gia t ng n ng l c mua, bán c

a toàn b

ng. Chính vì lý do này, hàng

lo t các công ty

a qu c gia (Amazon.com, Netflix.com, CDNOW, J.C. Penney,

Procter & Gamble..)
gia t ng h

ã

u tư và phát tri n thành công công ngh

tư v n

th ng khách hàng và bán hàng qua m ng [7].

Do là trư ng h p riêng c a h th
cah l

h th


i u này s

ng l c tin, h

c tin tiêu bi u. Tuy nhiên, do

dung, h tư v n c ng như các k

tư v n có nhi u

c im

c i m c a d li u, ngư i dùng và n

thu t ư

nh. Tùy vào phương pháp l c tin, các h

cs

d ng có m t s

tư v n ư

i

khác bi t nh t

c phân lo i thành ba lo i:


Tư v n d a vào phương pháp l c theo n i dung (Content-Based Filtering
Recommendation), tư v n d a vào phương pháp l c c ng tác (Collaborative
Filtering Recommendation) và tư v n d a vào phương pháp l c k t h p
(Hybrid Filtering Recommendation)[36, 107].

21


• Phương pháp tư v n d a vào l c n i dung: H th ng tư v n cho ngư i
dùng nh ng s n ph m m i có n i dung tương t

vimts

s n ph m h

ã t ng mua ho c t ng truy nh p trong quá kh .
• Phương pháp tư v n d a vào l c c ng tác: Ngư i dùng s
mts

s n ph m c a nh ng ngư i có s

ư c tư v n
ã t ng ưa thích

thích gi ng h

trong quá kh .
• Phương pháp tư v n d a vào l c k t h p: H th ng tư v n cho ngư i
dùng nh ng s n ph m tương t


vimts

ho c t ng truy nh p trong quá kh

s n ph m h

ã t ng mua

và s n ph m c a nh ng ngư i có s

ã t ng ưa thích trong quá kh .

thích gi ng h

tư v n ư

M i phương pháp l c áp d ng cho các h

c phân thành hai

nh (Memory-Based Filtering) và l c

hư ng ti p c n [36, 107]: l c d a vào b

d a vào mô hình (Model-Based Filtering).
• Các phương pháp l c d a vào b nh (MBF) [21, 22, 29, 52, 57, 63, 64,
69]:
d


ây là phương pháp lưu l i toàn b
oán, h

th ng tìm các ví d

các ví d

hu n luy n gi ng trư ng h p c n d

oán nh t và ư a ra tư v n d a trên các ví d
c a l c d a vào b
(KNN).

nh

hu n luy n. Khi c n

này. Trư ng h p tiêu bi u

là thu t toán K ngư i láng gi ng g n nh t

u i m chính c a phương pháp ti p c n này là ơ n gi n, d cài
t. Tuy nhiên, phương pháp này có th i gian l c ch m do vi c d oán

òi h i so sánh và tìm ki m trên toàn b

lư ng ngư i dùng và s n ph m.

• Phương pháp l c d a trên mô hình (MDBF) [27, 30, 32, 33, 34, 35, 37,
41, 43, 45, 90, 95, 96,

108, 109, 121]. Trong phương pháp này, d li u
xây d ng mô hình rút g n, ví d
mô hình xác su t hay
ư c s d ng
cây quy t

óư cs

nh. Mô hình này sau

d ng

oán nhanh, do quá trình

Phương pháp này cho phép th c hi n vi c d
d

oán th c hi n trên mô hình

ã h c trư c

22

ư a ra các tư v n.

ó.


B ng 1.1 th ng kê m t s


nghiên c u tiêu bi u các phương pháp l c

thông tin cho h tư v n [36].
B ng 1.1. Phân lo i các phương pháp tư v n và m t s

nghiên c u i n hình

PHƯƠNG PHÁP TƯ V ND AVÀOL
CN IDUNG
L c n i dung d a vào b nh
L c n i dung d a vào mô hình
Các k thu t thông d ng:
Các k thu t thông d ng:
• Mô hình m ng Bayes
• T n su t xu t hi n ngư c
• Mô hình phân c m
• Phân c m (Clustering)
• Mô hình cây quy t nh
• Mô hình m ng nơ ron nhân t o
Nh ng nghiên c u i n hình:
Nh ng nghiên c u i n hình:
• Balabanovic và Shoham [69]
• Pazzani [74]
• Pazzani và Billsus [73]
• Mooney và Roy [92]
• Billsus và Pazzani [30]
• Zhang và các c ng s [113]
PHƯƠNG PHÁP TƯ V N D

AVÀOL CC


NG TÁC

L c c ng tác d a vào b nh
L c c ng tác d a vào mô hình
Các k thu t thông d ng:
Các k thu t thông d ng:
• K ngư i láng gi ng g n nh t (K• Mô hình m ng Bayes
d ng
Nearest Neighbour) s
• Mô hình phân c m
tương t cosin ho c
các
• Mô hình cây quy t nh
tương quan.
• Mô hình m ng nơ ron nhân t o
• Phân c m
• Mô hình h i qui tuy n tính

tương quan
gián ti p
• Mô hình th ng kê
(Indirect Similarity)
• Mô hình
th
Nh ng nghiên c u i n hình:
Nh ng nghiên c u i n hình:














Resnick và các c ng s [83]
Breese và các c ng s [52]
Nakamura và Abe [11]
M. Deshpande and G. Karypis
[72]
Sarwar và các c ng s [21]
Yu và các c ng s [63, 64]
Herlocker và các c ng s [55]
Wang và các c ng s
[57]
Bell và Koren [86]
Desrosiers và Karypis [24]

• Nakamura và Abe [11]
• Umyarov và Alexander
Tuzhilin [15, 16, 17]
• Ungar và Foster [68]
• Aggarwal và các c ng s
[24]
• Chien và George [114]

• Condliff và các c ng s
[71]
• Kumar và các c ng s [89]
• Shani và các c ng s [41]
• Hofmann [95, 96]
• Marlin [18]

23


• Goldberg và các c ng s [62]








Si và Jin [66]
Getoor và Sahami [65]
Huang và các c ng s [119]
DeCoste [31]
Nikovski và Kulev [33]
Su và các c ng s [105, 106,
107]

PHƯƠNGPHÁPTƯV ND AVÀOL CK TH

P


L c k t h p d a vào b nh
L c k t h p d a vào mô hình
Các k thu t thông d ng:
Các k thu t thông d ng:
• T h p tuy n
• H p nh t mô hình bi u di n d
tính k t qu
d
oán c a c hai phương pháp.
li u.
• K t h p các
• H p nh t mô hình d
c tính c a
lc
oán.
• H p nh t mô hình bi u di n d
c ng tác vào l c n i dung.
c tính c
alcni
li u và mô hình d
oán.
• K t h p các
dung vào l c c ng tác.
• H p nh t l c c ng tác và l c n i
Nh ng nghiên c u i n hình:
dung trong cùng mô hình.
Nh ng nghiên c u i n hình:
• Gunawardana và Meek [8]
• Basu và các c ng s [23]

• Claypool và các c ng s [70]
• Billsus và Pazzani [29]
• Soboroff và Nicolas [46]
• Lazanas và Karacapilidis [10]
• Popescul và các c ng s [12]
• Billsus và Pazzani [30]
• Tran và Cohen [98]
• Hofmann [96]
• Huang và các c ng s
[120,
• Melville và các c ng s [82]
121, 122]
• Adomavicius và các c ng s
• Su và các c ng s [104]
[37, 38, 39]
• Anand và Bharadwaj [28]
• Balisico và Hofmann [47]


Good và các c ng s [76]

Formatted: Indent: Left: 0,63 cm

1.2. PHƯƠNG PHÁP L C THEO N I DUNG
L c theo n i dung là phương pháp th
dung thông tin hay mô t

c hi n d

a trên vi c so sánh n i


hàng hóa, nh m tìm ra nh ng s n ph m tương t v i
gi i thi u cho h

nh ng s n

ph m này [4, 6, 19, 69, 73, 84, 92]. Các phương pháp ti p c n cho l

c theo n i

nh ng gì mà ngư i dùng

ã t ng quan tâm

dung có ngu n g c t

l nh v c truy v n thông tin, trong

ó m i s n ph m ư c

bi u di n b ng m t h

sơ s n ph m, m i ngư i dùng ư

c bi u di n b ng m t

24


h sơ ngư i dùng. Phương pháp d th


oán n i dung nguyên b n c a s n ph m sơ s

c hi n d a vào vi c xem xét các h

n ph m có m c phù h p cao v i

h sơ ngư i dùng [84].
1.2.1. Bài toán l c theo n i dung
Bài toán l c theo n i dung ư

c phát bi u như sau. Cho P= {p1, p2,.., pN}
c ký hi u là Content(p)

là t p g m N s n ph m. N i dung s n ph m p∈P ư
ư

c bi u di n thông qua t p K

s n ph m p ư
m c ích d

c trưng n i dung c a P. T p các

c xây d ng b ng các k

thu t truy v n thông tin

i ngư i dùng


Cho U = {u1, u2,.., uM} là t p g m M ngư i dùng. V i m
dùng u th c ch t là l ch s

sơ ngư i dùng u. H

truy c p ho c

ph m. ContentBasedProfile(u) ư

ánh giá c a ngư i ó

c xây d

các s n ph m mà ngư i dùng u

th c hi n

v i p.

oán nh ng s n ph m khác tương t

u∈U, g i ContentBasedProfile(u) là h

c trưng

sơ c a ngư i
i v i các s n

ng b ng cách phân tích n i dung


ã t ng truy nh p ho c

ánh giá d a trên các

k thu t truy v n thông tin.
Bài toán l c theo n i dung khi
dung thích h p v i ngư i dùng d

ó là d

oán nh

a trên t p h

ng s n ph m m i có n i

sơ s n ph m Content(p) và h

sơ ngư i dùng ContendBasedProfile(u).
1.2.2. Các phơ ng pháp pháp l c theo n i dung
Như ã trình bày
l c d a trên b
ư

trên, l c theo n i dung ư

c ti p c n theo hai xu hư ng:

nh và l c d a trên mô hình. N i dung c


th các phương pháp

c th c hi n như dư i ây.

1.2.2.1. L c n i dung d a vào b nh
L c n i dung d a vào b nh
là phương pháp s d ng toàn b
ph m và t p h sơ ngư i dùng

th

t p h sơ s n

c hi n hu n luy n và d oán. Trong phương

pháp này, các s n ph m m i ư

c tính toán và so sánh v i t t c

dùng. Nh ng s n ph m m i có m

c

h sơ ngư i

tương t cao nh t v i h sơ ngư i dùng s

25



Xem Thêm

×