Tải bản đầy đủ (.pdf) (14 trang)

Bài giảng Khai phá Web: Chương 2 - TS. Nguyễn Kiêm Hiếu

Bạn đang xem bản rút gọn của tài liệu. Xem và tải ngay bản đầy đủ của tài liệu tại đây (2.66 MB, 14 trang )

Nội dung
2.1 Mạng xã hội
2.2 Thuật toán PageRank
2.3 Thuật toán HIST

[IT4868] Khai phá Web

2.4 Nhận dạng cộng đồng

Chương 2: Phân tích mạng xã hội

2

Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Ví dụ

Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Ví dụ



www



FB, Twitter, weibo, zalo




Wikipedia



Mạng lưới bài báo khoa học, mạng l ưới h ợp tác



Mạng lưới người dùng di động

3

4


5

6

Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Phân tích mạng xã hội

“Phân tích mạng xã hội là nghiên c ứu các th ực
thể xã hội (tác nhân) và s ự tương tác, liên k ết
giữa chúng.” - Bing Liu

7

Source: https://kieranhealy.org/blog/archives/2013/06/18/a-co-citation-network-for-philosophy/


8


Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Phân tích mạng xã hội



Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Một số khái niệm cơ bản của đồ thị

Phân tích vai trò của các tác nhân trong m ạng
xã hội



Đồ thị = {đỉnh, cạnh}



Đồ thị vô hướng/có hướng



Nhận dạng các cộng đồng trong mạng xã h ội




Ma trận kề



Dự đoán các liên kết trong m ạng xã h ội



Bậc của đỉnh



Đường đi ngắn nhất

9

Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Một số khái niệm cơ bản của đồ thị

10

Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Một số khái niệm cơ bản của đồ thị


Ma trận kề:



a[i, j] = 1 nếu tồn tại cạnh (i,j)
= 0 nếu ngược lại
= 2 nếu tồn tại cạnh từ một đ ỉnh đ ến chính nó

`

`
a) Đồ thị vô hướng

b) Đồ thị có hướng

11

12


Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Một số khái niệm cơ bản của đồ thị


Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Một số khái niệm cơ bản của đồ thị

Bậc của đỉnh:




di(i) = số nút trỏ tới i


do(i) = số nút i trỏ tới

Thuật toán Dijkstra tìm đ ường đi ng ắn nh ất t ừ
một đỉnh s tới các đỉnh còn lại của đ ồ th ị
d(v): Khoảng cách từ đỉnh v tới đỉnh s
B1: Khởi tạo d(s) = 0; d(v) = oo
B2: Sắp xếp các đỉnh v theo một trật tự xác định trên
hàng đợi Q
B3: Lấy một đỉnh u thuộc hàng đợi Q và cập nhật
khoảng cách d(v) (nếu cần) với mỗi đỉnh v liền kề với u
Quay lại B2 cho đến khi xử lý hết các đỉnh

13

15

`

16

17


18

19


20

21


22

23

24

25


26

Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ tập trung của đỉnh

Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ trung tâm

Phân tích vai trò của các đ ỉnh trong đ ồ th ị d ựa
trên:


Độ trung tâm: Nút i có là thành phần trung tâm của
đồ thị không?




Độ quan trọng: Nút i có đóng vai trò quan trọng
trong đồ thì không?

27

Độ trung tâm theo bậc:
Đồ thị vô hướng:

`
[0,1]
d(i): bậc của đỉnh i
n: Số đỉnh của đồ thị
Đồ thị có hướng:

d0(i): bậc ra của đỉnh i
28

29


Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ trung tâm

Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ trung tâm


Độ trung tâm lân cận:

Độ trung tâm trung gian:

d(i, j): Khoảng cách ngắn nhất từ nút i tới nút j
pjk(i): Số lượng đường đi ngắn nhất từ j tới k mà đi qua i
CB(1) = 15, CB(2) = CB(3) = CB(4) = CB(5) = CB(6) = CB(7) = 0

30

Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ trung tâm

31

Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ quan trọng

BTVN: Tính độ trung tâm của các đ ỉnh trong đ ồ
thị dưới đây theo bậc, trung gian, và lân c ận

Độ quan trọng theo bậc:

8
9
di(i): Số nút trỏ tới i
10


32

33


Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ quan trọng

Chương 2 Phân tích mạng xã hội
2.1 Mạng xã hội
Độ quan trọng

Độ quan trọng lân cận:

Độ quan trọng thứ hạng:

`

Aij = 1 nếu i có thể đi tới j, ngược lại A ij = 0
Ii: Các nút có thể đi tới i

34

35

Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Transition matrix


Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank

Lawrence (Larry) Page et al. 1999. “The
PageRank Citation Ranking: Bringing Order to
the Web”
1999: 150M pages, 1.7B links

`

36

37


Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Transition matrix

Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ranking

Chuẩn hóa:
PR(A) = (1 – d) / N + d * sumB:(B,A) in E PR(B) / do(B)
PR(A): Ranking của đỉnh A
d: damping factor
N: số đỉnh của đồ thị
(B,A) cạnh của đồ thị

do(B) bậc ra của đỉnh B

`

38

Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ví dụ (d = 1)

39

Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ví dụ (d = 1)

40

41


Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ví dụ (d = 0.85)

Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Luyện tập (d = 0.7)

a)


b)

c)
42

Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Luyện tập (d = 0.7)

43

Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Luyện tập (d = 0.7)

a)
b)

44

45


Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Luyện tập (d = 0.7)

Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank

Cài đặt

c)

46

Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Tốc độ hội tụ

47

Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Tốc độ hội tụ

BTVN:






48

Tải Wikipedia tiếng Việt tại
https://dumps.wikimedia.org/viwiki/20180901/
Lọc ra các độ thị gồm các trang ch ủ đ ề
(category pages) và liên kết giữa chúng
Thực hiện thuật toán PageRank trên đ ồ th ị và

in ra kết quả là tiêu đề các trang có ranking cao
nhất
49


Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ứng dụng 1: Tìm kiếm Web

Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ứng dụng 2: Phân tích trích d ẫn

Guan et al. 2008. “Bringing Page-Rank to the Citation Analysis”

50

Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ứng dụng: Phân tích trích dẫn

51

Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ứng dụng 2: Phân tích trích d ẫn

52

53



Chương 2 Phân tích mạng xã hội
2.2 Thuật toán PageRank
Ứng dụng 2: Phân tích trích d ẫn

Q&A
hieunk@soict.hust.edu.vn
54

55



×