本帖最後由 felicity2010 於 2016-5-15 08:54 PM 編輯 公仔箱論壇4 X( F2 p L' k# Z# K1 r
* c D% t4 a+ `- K8 @5 t; `
數據新聞﹕人工智能分析香港網媒(香港網絡生態系列之一)2 S: I: z; H! z9 |& B! r
文﹕陳電鋸
1 @: x2 H2 i% `7 i! HTVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。; r, |$ K5 A4 s
tvb now,tvbnow,bttvb* i6 Z- b4 U: ` G) C( j5 O
根據2015年 《經濟學人》的民主指數,香港排在67,僅在中游位置,與不少經濟落後的地區差不多。相反,香港的資訊發展極為成熟,在網絡速度、智能電話使用率和資訊知 識等等排名都在國際前十位。香港擁有facebook戶口的人口比率是全球首位。對比其他鄰近民主發展指數極低的國家,香港暫時沒有網絡審查,網絡上的言 論自由仍然健在。香港的「低民主社會」和「高資訊自由」狀况,是世界罕見,亦因此不時出現兩者衝突的事例。% j7 ~% x0 D! \6 Y; g* E
' n2 e, l8 }6 e( O+ y4 ZTVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。有見及此,香港大學新聞及傳媒研究中心發起了一項研究,以定量分析去理解香港獨特的網絡生態。此項研究以自行開發的「網絡爬蟲」(web crawler)無間斷收集網媒、互聯網討論區、facebook專頁和傳統媒體的新聞網站的公開內容進行分析。其實這研究亦為筆者博士研究一部分,現已進入收割階段。理論性的部分會以學術論文發表,其他描述性的發現,將會以本「香港網絡生態系列」四篇文章,獨家於《明報》星期日生活發表,讓公眾認識香港 網絡生態現狀。本研究由傅景華博士指導,獲香港特區政府中策組公共政策研究資助計劃撥款資助;筆者部分研究助學金由港大專業進修學院贊助。
/ a5 Z" [5 R2 K8 F m4 kTVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。; A. ]8 J) h& ?+ A) k: q
9 e0 D" w4 E) c" N
5.39.217.76% J0 @' P1 p" s2 {0 w9 K
研究八網媒 逾八萬篇文章tvb now,tvbnow,bttvb! U7 A2 ^( i& ~( m
) U1 }6 _" e) n' D# T3 y& F
最 近有商人大力搞網媒之後,網媒發展好似突然加速,成為熱門話題。網上對香港網媒的論述不少,多以「紙媒之死、網媒之生」1和網媒記者是否記者2等等為題。 雖然香港網媒發展最少有十年歷史,但網媒仍屬新興事物,我們對它的認知不多,亦未見有人有系統地研究香港網媒。我們知道網媒與傳統媒體不同,就算網媒之間亦並非同質。到底我們可否從數據分析的角度認識香港網媒呢? d1 J7 U/ |1 X+ o7 O! I0 r
本研究由一五年起開始收集了八個不同陣營背景的網媒所有的文章內容,再進行分析。此八家網媒列於圖一。本次研究未來得及收錄網媒兩大新參者《端傳媒》和《香港01》,亦沒有收錄英文網媒HKFP。本研究的目的是想看看不同網媒在取 材上有否分別。而要達到這個目的,就要閱讀所有文章,再比較取材的不同。公仔箱論壇$ W" v* T; h$ m: ^4 j
; |2 {0 n3 H* K* N& W5 {TVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。「網絡爬蟲」3收集了八家網媒由一五年一月至一六年三月八萬多篇文 章,共兩億三千多萬字。以金庸《倚天屠龍記》全文約一百萬字計算,要讀完那八萬多篇網媒文章大約等於讀全套《倚天》231次。正常人類一分鐘可以閱讀二百 字,就算一個人不眠不休讀完全部八萬篇文需要兩年多。由於數據量極為龐大,故此筆者開發了人工智能系統taibouji(簡稱tbj,廣東話「睇報 紙」),此AI不停閱讀中文新聞文章學習,不經人類監督,也能夠根據內文推論出文章主題。聽上去好像是科幻電影的內容,也有點像Google的 AlphaGo般深不可測,但其實類似的科技早已應用於新聞範疇,例如Google新聞和《紐約時報》網站能自動將新聞根據內容分類和自動推薦閱讀同類文 章,就是應用到相關的語言處理人工智能技術。
& Q, m7 o; ^& _8 N# q& @
+ V. C) j) D5 A0 N/ [8 C& E現時tbj能夠根據新聞內容自動分成五十種主題。由於tbj學習時並沒有人類監督,故此它分拆出來的主題並非所有人類都能夠理解。
6 f4 t: d# ]- s- g0 O% @0 M# W- P& Qtvb now,tvbnow,bttvb根據tbj為文章主題的分類,我可以計算出隨機從某一網媒抽取一文章,到底該篇文章屬於以上五十種主題各自的機會率。(簡稱θt)比較不同網媒在不同主題的θt,就可以看出網媒對不同主題的興趣,彷彿就是各網媒的基因圖譜,以此作為特徵進行比較。5.39.217.76$ _9 h' Y: e1 D- G+ v: z6 n
4 h0 R6 o" O* R& q+ E! ~( Q( C
圖 二的路軌圖選出了幾個熱門主題,比較不同網媒的θt,可見不同網媒取材上的不同。網媒在主題路軌的標記愈高,代表θt愈高。從圖中所見,《港人講地》在高 鐵、香港大學主題的取材較其他網媒為多。《獨立媒體》在勇武、同志平權議題取材也較其他網媒為多。而《輔仁媒體》在高鐵、香港大學等等議題取材較其他網媒為最少。看來,tbj的分析與我們對不同網媒的認知也相當類近。
' i1 Q% A* B8 N5.39.217.76取材相似度分析
' M7 g& F9 Z0 Y' e b% n) Y# ]* @tvb now,tvbnow,bttvb公仔箱論壇9 M& T; `. N" c0 {# `
若果要比較不同網媒在tbj能夠分辨的五十個 主題整體的分別,電腦是能夠計算出來的,但是怎樣用圖像展示出來卻是問題。對線性代數(linear algebra)有認識的讀者,可能會知道以上數據是一個8×50的矩陣(matrix),代表展示出來需要50維度的空間。由於閣下手持的是一份報紙, 只是二維平面,展示出來會有困難。解決方法是筆者利用分析基因圖譜常用的階層式分群法(Hierarchical clustering),找不同網媒取材異同的關係,畫成圖三的樹狀圖。在樹狀圖上是同一條根的網媒,代表取材相似。例如《立場》和《獨媒》是同一條根,代表取材相似。而兩者對上亦與《港人講地》同在另一條根,代表兩者與《港人講地》亦相似,但相似度相對較低。7 g ]. o% W& d* u& d
從圖中關係可見,《輔仁媒體》是別樹一格的網媒。其他七個網媒可組成主流派族群。在主流派群中,《HKG報》取材方針亦屬偏鋒。「本、熱、8」和「港、獨、立」可分成兩個群體,亦相當有趣。當然,這個分析純粹分析取材的異同,但並不代表他們看事物的立場取態結果會一樣。
2 p+ B8 V" u; l8 R1 ^ @
+ ]6 \2 {4 }4 m* ~情感分析:正面詞vs.負面詞
& t1 j) T) n. L+ f( ], o1 ?5.39.217.76公仔箱論壇: V |7 X" m L" d4 r1 f+ F
分 析立場取態的問題比較難處理,因為立場並非機器能夠輕易計算出來,現僅以玩票性質用最簡單的方法進行情感分析(sentiment analysis)。筆者根據國立臺灣大學的繁體中文情感極性詞典(NTUSD),建立了一個簡單的文本情感極性評分算法,簡單而言只是比較一篇文章的正面和負面情感字的相對數量,文章中負面詞數量愈拋離正面詞數量,情感極性評分愈低。計算過各網媒所有文章的平均極性,發現《熱血時報》平均負面極性最高,正面極性平均最高的卻是《港人講地》。我只選取了tbj認為是談論香港大學主題 的網媒文章作為例子,再計算各網媒的平均情感極性。圖中可見,《HKG報》極性非常負面,之後是《港人講地》。" F. n. ^8 z* ]3 P3 \8 j4 ]
, j) f6 j) d: W! ~) w8 [結論
X4 ^( O% j! [. ]
+ u5 [9 a, }& H( w# t7 {$ [TVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。本次研究出來的簡單AI軟件tbj雖然能夠籠統將文章主題分類,但卻無法分析立場取態。情感分析雖然能反映個別網媒對某主題有較強烈情緒反應,但由於情感分析模型粗糙,再加上情感不完全等於立場取態,故只能當作測試。: g& V W5 l7 k7 \* W
- e9 O$ i$ b( {- v, L! s0 z" ytvb now,tvbnow,bttvb即時新聞加網誌評論的《哈芬登郵報》(The Huffington Post)模式仍是香港網媒主流,但也有網媒如《輔仁媒體》脫離主流網媒模式,自成一格,取材異常,開宗明義「窄播」4。就算是主流模式,數據指出他們所 關注的主題也不一樣,甚至能反映網媒的政治取態,如《獨立媒體》最關注左翼話題如平權、《熱血時報》關注警察問題、《852郵報》較多關注梁振英和中共權 力秘聞之類。網媒仍是以小眾媒體方式經營,不少甚至主打評論,進行議題設定,甚有倡導式新聞色彩。
3 h8 V+ `* L5 q7 M8 |6 `4 ~1 U
9 C( Q: D0 C0 l# u' }' v/ m5.39.217.76 5.39.217.763 |- ~( V! @+ N2 r: t4 \" |
公仔箱論壇6 z# q/ l* W) s: Q1 U- x
註:; L: \8 F+ F* L% M. ~0 s v
- R$ k% l8 M6 T" s1 e/ S5 N8 A公仔箱論壇1. 何雪瑩:香港媒體戰(上、下集)《端傳媒》
; D6 a+ t L+ |" W( O# O, ^: BTVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。2. 李立峯:誰是媒體?誰是記者?從網媒的採訪權談起《明報》2016年3月17日 TVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。) n5 H( ^7 `& h2 W# l, w0 H O
3. 「網絡爬蟲」為自動瀏覽網站並將內容存檔的軟件。tvb now,tvbnow,bttvb5 |2 | z% T$ a$ {1 [
4. narrowcasting,只針對個別組群口味散佈非常特定的消息
4 w' M- k( T r7 q* I% p5.39.217.76- K7 q3 \$ D# E3 p# c/ T0 f
陳電鋸 香港大學新聞及傳媒研究中心 |