Tải bản đầy đủ (.pdf) (6 trang)

DỰ BÁO LIÊN KẾT ĐỒNG TÁC GIẢ SỬ DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (305.77 KB, 6 trang )

(1)

DỰ BÁO LIÊN KẾT ĐỒNG TÁC GIẢ SỬ DỤNG PHÂN CỤM BÁN GIÁM SÁT MỜ



Phạm Minh Chuẩn1,2*, Trần Đình Khang1, Lê Thanh Hương1


,
Trần Mạnh Tuấn3, Lê Hoàng Sơn4
1Trường Đại học Bách khoa Hà Nội, 2Trường Đại học Sư phạm Kỹ thuật Hưng Yên,


3Trường Đại học Thủy Lợi, 4Trường Đại học Khoa học Tự nhiên, ĐHQGHN


TĨM TẮT


Trong bài báo này, chúng tơi đề xuất một hướng tiếp cận giải bài toán liên kết trong mạng đồng tác
giả dựa trên việc sử dụng phân cụm bán giám sát mờ. Nghiên cứu này nhằm xác định các tác giả
có khả năng liên kết với nhau trong tương lai gần dựa trên mối liên hệ đã có giữa các tác giả. Các
tác giả đã từng viết bài cùng nhau hoặc có các bài viết tương tự nhau có khả năng hình thành liên
kết cao trong tương lai. Bài báo xây dựng mô hình mới dựa trên phân cụm bán giám sát mờ trên
dữ liệu thu thập được về sự hợp tác đã có giữa các tác giả. Mơ hình được đánh giá và so sánh với
các thuật toán liên quan. Các kết quả thực nghiệm chỉ ra rằng mơ hình được đề xuất có chất lượng
cao hơn các thuật tốn được so sánh.


Từ khóa: Dự báo, mạng đồng tác giả, phân cụm bán giám sát, độ đo, liên kết đồng tác giả


GIỚI THIỆU*


Cùng với sự phát triển mạnh mẽ của Internet
và các mạng xã hội, con người được gắn kết
với nhau dù cách xa nhau. Mạng xã hội vô
hướng đồng nhất trực tuyến (Online
Homogeneous Undirected Social Networks -
OHUSNs) là một loại mạng xã hội với đặc


điểm là các thực thể trong mạng thuộc cùng
một loại và các liên kết giữa các thực thể là
vơ hướng, có cùng một kiểu. Cũng như các
mạng xã hội khác, OHUSNs xây dựng một
cộng đồng lớn người sử dụng mang đến cho
người sử dụng một tiện ích nhất định: giải trí,
kết nối bạn bè, chia sẻ tài nguyên, trao đổi
công việc. Mặc dù có những đặc điểm riêng
biệt, OHUSNs vẫn bao gồm một lượng dữ
liệu được trao đổi mỗi ngày với những đặc
trưng dễ nhận biết [1].


Trong cộng đồng các nhà khoa học, sự liên
kết giữa các tác giả là thực sự cần thiết và
được quan tâm. Các tác giả đã từng cộng tác
với nhau để công bố các kết quả hay cơng
trình của họ sẽ có xu hướng hợp tác với nhau
trong tương lai gần. Như vậy, những hợp tác
trong tương lai chủ yếu dựa trên các kết quả
đã có giữa các tác giả. Tuy nhiên, các liên kết
mới giữa các tác giả cũng có thể xuất hiện



*


Tel: 0983 081120


nếu giữa họ có sự hợp tác với tác giả chung
nào đó. Trên cơ sở đó các liên kết trong mạng
đồng tác giả trong tương lai gần là hồn tồn


có thể thực hiện dựa trên nghiên cứu về các
nghiên cứu giữa các tác giả trong mạng.
Năm 2010, dự báo liên kết có giám sát dựa
trên nhiều nguồn đã được Lu và cộng sự
nghiên cứu [2]. Năm 2011, Hasan và Zaki [3]
khảo sát về việc dự báo liên kết trong mạng
xã hội và chỉ ra nhiều công cụ được sử dụng
bao gồm: dự báo liên kết dựa trên các đặc
trưng, dựa trên các mơ hình phân lớp hoặc các
mơ hình xác suất Bayes, các mơ hình quan hệ
xác suất. Một số nghiên cứu gần đây cho thấy
các thuật toán phân cụm bán giám sát mờ rất
hiệu quả trong nhiều lĩnh vực như xử lý ảnh
[4], nhận dạng mẫu, nhận dạng khuôn mặt
[5], đánh giá rủi ro [6], dự báo phá sản [7].
Trong bài báo này, chúng tôi đề xuất phương
pháp phân cụm bán giám sát trong dự báo liên
kết trong mạng đồng tác giả. Các bước thực
hiện của thuật toán được trình bày trong bài
báo cùng với kết quả cài đặt trên bộ dữ liệu cụ
thể. Các kết quả thực nghiệm nhằm đánh giá
thuật toán đề xuất dựa trên các độ đo
Precision, Recall và F-Measure.



(2)

giám sát mờ vào việc giải bài toán dự báo liên
kết trong mạng đồng tác giả. Phần thứ 4 đưa
ra các kết quả thực nghiệm dựa trên các số
liệu thu thập. Cuối cùng, phần 5 rút ra kết
luận từ nghiên cứu.



KIẾN THỨC CƠ SỞ


Bài toán dự báo liên kết mới


Định nghĩa 1.


Một mạng đồng tác giả ký hiệu là G(T)


= (V(T),
E(T), P(T), T), trong đó T = {t1, t2,..., tK} là tập


các mốc thời gian liên tiếp (ti < tj, i< j =


1..K), V(T) = {v1, v2,...,vN} là một tập các nút


(tác giả), P(T)


={p1, p2,...,pM} là tập các bài báo


và E(T) ={(vi, vj, ph, th): vi, vj V(T), vi ≠ vj , ph


P(T) và thT} là tập các liên kết. K, N và M


tương ứng là số mốc thời gian, số tác giả và
số bài báo.


Chúng tôi minh họa định nghĩa 1 thơng qua
một ví dụ về mạng đồng tác giả được biểu
diễn trên hình 1. Trong ví dụ này, mạng đồng
tác giả bao gồm 8 tác giả (N = 8), và 10 bài


báo (M =10) và các bài báo được xuất bản từ
năm 2000 đến năm 2002 (K = 3). Tổng số
liên kết (cộng tác) là 22.


Bài toán dự báo liên kết mới (cộng tác), tức là
dự báo những cặp tác giả mà chưa từng cộng
tác trong quá khứ có cộng tác với nhau trong
tương lai hay khơng. Ví dụ quan sát trên hình
1 chúng ta có thể thấy hai cặp tác giả (5, 6) và
(5, 8) khơng có cộng tác trong các năm 2000
đến 2002, vậy liệu họ có cộng tác trong
những năm tiếp theo hay không?


Các độ tương tự theo trọng số liên kết


Độ tương tự theo trọng số liên kết được tính
toán bởi xem xét bởi mức độ liên kết giữa hai
đỉnh trong mạng đồng tác giả, ở đây (u, v)
ký hiệu là mức độ liên kết giữa hai nút u và v.


Định nghĩa 2. (Weighted Common


Neighbours: WCN) [8].


( ) ( )


( , )


( , ) ( , )



2


WCN


z u v


SIM u v


u z v z



 


.
(1)


Định nghĩa 3. (Weighted Adamic–Adar:


WAA) [8].


'


( ) ( ) '


( )
( , )


( , ) ( , ) 1



2 ( ( , ))


WAA


z u v


z z


SIM u v


u z v z


Log z z


 

 




. (2)


Định nghĩa 4. (Weighted Jaccard Coefficient:


WJC) [9].
' '
( ) ( )
' '
( ) ( )


( , )
( , ) ( , )
2
( , ) ( , )
WJC


z u v


u u v v


SIM u v


u z v z


u u v v


 
 
 
 




 
(3)


Trong mạng đồng tác giả, mức độ liên kết
giữa hai nút u, v (ký hiệu (u, v)) có thể được
xác định theo ba cách sau:



a) Cách 1


Mức độ liên kết giữa hai tác giả u, v được xác
định thông qua số bài báo mà hai tác giả này
đã viết chung. Công thức này được đề xuất
bởi Murata and Moriyasu [8] như sau :


_ er
( , )u v ncoauthor pap


  (4)


b) Cách 2


Trong [10], mức độ liên kết giữa hai tác giả
được tính bằng tổng trọng số tương ứng với
mỗi bài báo được viết chung bởi hai tác giả: .


1
( , )
1
i i
P
u v
i
i
u v
n
 







(5)


Trong đó, i
u


sẽ bằng 1 nếu tác giả u có tham
gia viết bài báo thứ i, và bằng 0 nếu ngược
lại, và ni là số tác giả trong bài báo thứ i.


c) Cách 3


Trong [11], trọng số giữa hai tác giả được tính
dựa trên vị trí của các tác giả trong bài báo và
thời gian mà bài báo được xuất bản. Xét hai

7


5


2


3


6


1


4


8




(3)

tác giả u, v trong danh sách các tác giả xuất
hiện trong một bài báo, và vị trí tương ứng của


hai tác giả là du và dv. Giả sử du > dv và trong


bài báo có nhiều hơn một tác giả. Khi đó, mức
độ liên kết giữa hai tác giả u, v (DCL (u,v))
trong bài báo được tính theo công thức sau.


1 1
if 3


1 2


( , ) if 3, 3


2 2
if 3


v
u v


u v v u


u v


u
u v


d
d d


DCL d d d d


d d


d
d d




 







   





 






(6)


Giả sử hai tác giả u và v viết chung P bài báo.
Khi đó mức độ liên kết giữa hai tác giả được
tính theo cơng thức (7):


1



( , ) ( , ) ( )


P


p p


u v p


p


u v DCL d d k t






(7)


Trong đó, p
u


d là vị trí của tác giả u trong bài báo
thứ p, tp là thời gian mà bài báo thứ p được phản


biện hoặc chấp nhận đăng và 0
0
( )p p


c



t t
k t


t t



 ,
với t0 là thời gian đầu tiên mà hai tác giả này đã


cộng tác, tc là thời gian hiện tại.


PHƯƠNG PHÁP ĐỀ XUẤT


Trong phần này, phương pháp phân cụm bán
giám sát mờ áp dụng cho bài toán dự báo liên
kết trong mạng đồng tác giả được trình bày.
Hình 2 mơ tả sơ đồ của mơ hình dự báo liên
kết trong mạng đồng tác giả (SSSFCRC) dựa
trên thuật toán phân cụm bán giám sát. Cụ thể
các bước thực hiện như sau:


Bước 1: Từ dữ liệu ban đầu thu thập trong
mạng đồng tác giả, xác định độ tương tự trong
số liên kết trong mạng đồng tác giả theo cơng
thức trình bày ở phần Các độ tương tự theo
trọng số liên kết.


Bước 2: Dữ liệu ban đầu được chia thành 2


phần: dữ liệu huấn luyện (training) và dữ liệu
kiểm tra (testing). Trong đó, dữ liệu training
là các số liệu của thông tin trong mạng tác giả
ở thời điểm hiện tại và quá khứ. Khi đó quan
hệ giữa các tác giả trong dữ liệu training được
xác định có là đồng tác giả với nhau hay


không (hoàn toàn biết được nhãn của các liên
kết). Dữ liệu testing là các số liệu của thông
tin trong mạng tác giả ở thời điểm tương lai
cần dự báo.


Hình 2. Sơ đồ mơ hình dự báo liên kết trong mạng
đồng tác giả


Bước 3: Mỗi loại nhãn của training ta xác
định trung bình cộng của các liên kết để xác
định làm tâm các cụm cho từng nhãn của
training. Các tâm cụm xác định trong quá
trình training được kết hợp với dữ liệu testing
để xác định ma trận độ thuộc bổ trợ. Với ma
trận thông tin bổ trợ giữa các liên kết với tâm
các cụm của từng nhãn được xác định ở
training được xác định: là khoảng cách Euclid
từ liên kết đó đến tâm cụm của nhãn trên tổng
số khoảng cách euclid từ liên kết đó đến tâm
các cụm của nhãn.


Bước 4: Thuật toán phân cụm bán giám sát
chuẩn SSSFC [12] với thông tin bổ trợ được


xác định ở bước 3, thực hiện trên tập testing,
với số cụm bằng 2. Khi đó phân cụm SSSFC
xac định được ma trận độ thuộc của các cặp
liên kết vào các cụm.


Bước 5: Từ kết quả phân cụm đã xác định
được ma trận độ thuộc của các cặp liên kết.
Tại mỗi liên kết xác định cụm, dựa trên ma
trận độ thuộc. Dựa vào thông tin bổ trợ từ
training xác định xem cụm nào thuộc về có
liên kết, cụm nào thuộc về không liên kết.


Data X và các tham số


Training, nhãn
của training


Xác định độ tương tự trọng số liên kết


Xác định tâm
cụm theo các


nhãn


Xác đinh thông
tin bổ trợ


Testing


Phân cụm bán


giám sát mờ



(4)

THỬ NGHIỆM VÀ ĐÁNH GIÁ


Mô tả dữ liệu


Dữ liệu thực nghiệm là một mạng đồng tác
giả được xây dựng từ tập các bài báo được
đăng trên tạp chí “Biophysical Journal” [13]
với một vài tiêu chuẩn cụ thể. Tổng số bài báo
thu được là 7,529, tổng số tác giả là 21,151 và
tổng số liên kết là 68,706.Chia dữ liệu thành
hai phần theo thời gian: T1 (2006 - 2011) và
T2 (2012-2016). Có 4841 cặp tác giả ứng cử
(có ít nhất một tác giả cộng tác chung trong
T1) được lựa chọn với 192 (3.966 %) cặp tác
giả nhãn 1, số còn lại được gán nhãn 0. Do
mất cân bằng tỷ lệ nên 192 cặp tác giả mang
nhãn 0 được chọn ngẫu nhiên để hình thành
tập kiểm tra gồm 384 cặp tác giả (với tỷ lệ
nhãn 0 -1 bằng nhau).


Các độ đo được sử dụng bao gồm: Độ bao
phủ (recall), Độ chính xác (precision) và
F1-measurevà và độ lệch chuẩn của F1- Measure
(F1-STD). Áp dụng phương pháp kiểm định
10-fold, và kết quả cuối cùng được tính theo
trung bình của 10 fold. Chúng tôi thực
nghiệm với ba độ tương tự trọng số liên kết
giữa hai tác giả (WCN, WAA, WJC) đã đề


cập trong phần 2.2.


Các kết quả thực nghiệm


Kết quả thực nghiệm của lược đồ dự báo liên
kết trong mạng đồng tác giả sử dụng phân
cụm bán giám sát mờ với số cụm bằng 2 (khi
đó 1 cụm là các cặp nút có liên kết, 1 cụm là
các cặp nút không liên kết).. Kết quả thực
nghiệm thu được với phương pháp SSSFCRC
so sánh với SVM [14] và Gboost [15] do đây
là phương pháp phân lớp tiêu biểu và đã được
nhiều nhà nghiên cứu sử dụng trong bài toán
dự báo liên kết trong mạng xã hội .


Hình 3. Kết quả thực nghiệm với Rec


Hình 4. Kết quả thực nghiệm với Pre


Hình 5. Kết quả thực nghiệm với F1-Mea


Hình 6. Kết quả thực nghiệm với F1-STD


Từ kết quả thu được ở hình 3, hình 4, hình 5,
hình 6 ta thấy với độ đo Recall thì phương
pháp SSSFCRC tốt hơn 2 phương pháp SVM
và Gboost với cả 3 bộ dữ liệu, độ đo Precision
thì Gboost tốt với 2 bộ dữ liệu và SVM tốt
với 1 bộ dữ liệu, F1- Measure thì SSSFCRC
tốt với 2 bộ dữ liệu và Gboost tốt với một bộ


dữ liệu. Như vậy với tổng thể cả 3 độ đo với 3
bộ dữ liệu thì phương pháp SSSFCRC tốt hơn
phương pháp SVM và phương pháp Gboost.
Về độ ổn định F1-STD thì phương pháp
SSSFCRC có độ ổn định nhất với 2 bộ dữ
liệu, phương pháp SVM có độ ổn định nhất
với một bộ dữ liệu.


KẾT LUẬN



(5)

cụm bán giám sát mờ được đề xuất. Cùng với
sự phân tích về trình tự và ý nghĩa thực hiện,
mơ hình được cài đặt trên các bộ dữ liệu với các
tham số khác nhau. Kết quả thực nghiệm chỉ ra
rằng, mơ hình đề xuất có kết quả phù hợp so với
phương pháp SVM và Gboost cho bài toán này
dựa trên các tiêu chí đánh giá cụ thể.


Dựa trên kết quả nghiên cứu trong bài, trong
tương lai chúng tôi sẽ nghiên cứu tiếp để tìm
ra các bộ tham số phù hợp nhất. Đồng thời có
sự cải tiến phù hợp và so sánh kết quả dự báo
với các phương pháp mạnh trong học máy
như: phân lớp dữ liệu, rừng ngẫu nhiên
(random forest).


TÀI LIỆU THAM KHẢO


1. Wu, Y., & Zhou, X. (2015). Link prediction in
social networks: the state-of-the-art. Science


China Information Sciences, 58(1), 1-38.


2. Lu, Z., Savas, B., Tang, W., & Dhillon, I. S.
(2010). Supervised link prediction using multiple
sources. In Data Mining (ICDM), 2010 IEEE 10th


International Conference on (pp. 923-928). IEEE.


3. Al Hasan, M., & Zaki, M. J. (2011). A survey of
link prediction in social networks. In Social network


data analytics (pp. 243-275). Springer US.


4. Chuang, K. S., Tzeng, H. L., Chen, S., Wu, J.,
& Chen, T. J. (2006). Fuzzy c-means clustering


with spatial information for image


segmentation.computerized medical imaging and


graphics, 30(1), 9-15.


5. Agarwal, M., Agrawal, H., Jain, N., & Kumar,
M. (2010). Face recognition using principle


component analysis, eigenface and neural


network. In Signal Acquisition and Processing,


2010. ICSAP'10. International Conference on (pp.



310-314). IEEE.


6. Chen, J., Zhao, S., & Wang, H. (2011). Risk
analysis of flood disaster based on fuzzy clustering
method. Energy Procedia, 5, 1915-1919.


7. Martin, A., Gayathri, V., Saranya, G., Gayathri,
P., & Venkatesan, P. (2011). A hybrid model for
bankruptcy prediction using genetic algorithm,
fuzzy c-means and MARS. arXiv preprint


arXiv:1103.2110.


8. Xia F, Chen Z, Wang W, Li J, Yang L T (2014)
MVCWalker: Random Walk-Based Most
Valuable Collaborators Recommendation
Exploiting Academic Factors. IEEE Transactions
on Emerging Topics in Computing 2(3):364-375.
9. Bezděk, JC (1981). Pattern recognition
Algorithms with fuzzy objective function. Kluwer
Academic Publishers.


10. Zhang, H., & Lu, J. (2009). Semi-supervised
fuzzy clustering: A kernel-based approach.
Knowledge-Based Systems, 22 (6), 477-481.
11. Yasunori, E., Yukihiro, H., Makito, Y., &
Sadaaki, M. (2009, August). On semi-supervised
fuzzy c-means clustering. Print Fuzzy Systems,
2009. FUZZ-IEEE 2009 IEEE International


Conference on (pp. 1119-1124). IEEE.


12. Yasunori, E., Yukihiro, H., Makito, Y., &
Sadaaki, M. (2009, August). On semi-supervised
fuzzy c-means clustering. Print Fuzzy Systems,
2009. FUZZ-IEEE 2009 IEEE International
Conference on (pp. 1119-1124). IEEE.


13. Biophysical Journal (2017). Retrieved from



“https://www.journals.elsevier.com/biophysical-journal/”, Accessed on 10/07/2017.


14. Corinna Cortes, Vladimir Vapnik (1995),
Support-vector networks, Machine Learning,
20(3), 273:297.



(6)

SUMMARY


USING SEMI-SUPERVISED FUZZY CLUSTERING METHOD IN


CO-AUTHORSHIP LINK PREDICTION



Pham Minh Chuan1,2*, Tran Dinh Khang1, Le Thanh Huong1,
Tran Manh Tuan3, Le Hoang Son4


1


Hanoi University of Science and Technology, 2Hung Yen University of Technology and Education


3



Thuyloi University, 4VNU University of Science, Vietnam National University


In this paper, we propose a new approach for link prediction in the co-authorship network using
semi-supervised fuzzy clustering. Link prediction aims to determine possible interaction between
authors in the future based on existing links of a co-authorship network representing joint papers in
a specific research domain. It is worthy remarked that authors who had joint or similar papers are
likely to continue writing together. Since the evaluation contains of both quantitative and
qualitative information, fuzzy models in the forms of semi-supervised learning are used to judge
the most similar authors to the considered one before making decision of interaction. A new
semi-supervised fuzzy clustering model on the authorship network datasets has been proposed. Data
labels in the training set are grouped to specify the clusters’ centers which are further used in the
construction of an additional matrix for the semi-supervised fuzzy clustering. The clustering
algorithm produces a membership matrix of links in a cluster and final recommendation of outputs. It
is implemented and compared against the relevant methods on the Biophysical Journal datasets. It
has been suggested that the results of the proposed method are better than those of the related ones.


Keywords: Prediction, authorship network, semi-supervised clustering, validity index,
co-authorship link


Ngày nhận bài: 26/9/2017; Ngày phản biện: 29/9/2017; Ngày duyệt đăng: 30/11/2017



*





×