返回列表 回復 發帖

[時事討論] 姚育松/當資訊科技碰上史料——數位人文研究的新視野

數位與人文的研究,並不只是節省時間勞力,還能提供實證平台,讓各種分散的資料,串連組成一幅全景歷史圖像,供人們更敏銳地觀察當中的重要議題。若無統合資料的數據庫,人們將會迷失在茫茫資料中,供後來者追憶想像的「歷史」,將會褪色淡淺。在這層意義上,數據庫猶如原始社會的長老,是保留族群記憶的傳承之寶。
6 |2 I0 N$ |  V! X1 u: N在這個大數據時代,數位科技已經是日常生活脫離不了的技術,也是接受知識、認知世界的主要途徑。近年來,許多研究領域都意識到必須利用數位技術,甚至在某方面展開跨學科的研究,才能帶來突破性進展,而本與數位科學最不相干的人文學科,也逐漸深涉於此。
2 o! S, \  o5 G+ j& s6 s) ]9 N5.39.217.76公仔箱論壇, b; v9 L: |& P) b; y, _- ^3 U
我有幸在臺灣參與了數位與人文的跨學科研究,在本文裡,想簡單介紹此研究的方法基礎,然後試圖討論能否夠引進馬來西亞華人的研究當中。* o; A7 A, f4 `) U

7 N8 Y" t- a, s/ Ltvb now,tvbnow,bttvb傳統利用數位方法進行人文研究,主要是以建立龐大的索引數據庫(database)來進行,這改變了過去人們長年累月埋頭於浩瀚書海爬梳分析的研究方式,讓電腦代勞,只要輸入關鍵詞來搜尋,便能調出相關的資料文獻,大大節省了勞力時間。例如,過去若某人想要研究「皇太極」這人物,他很可能要翻遍《明史》及《清史稿》才能知道「皇太極」出現在哪些篇章,但有了二十五史數據庫,就無需從頭到尾地去翻遍,只要在數據庫搜索即可。
- L2 I1 h* K8 i5 |$ a8 x5.39.217.76TVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。8 z8 X& M3 V1 O0 B$ D
TVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。( D+ Q) o2 ]7 [# `- w! z
工具的進步:結合文史專業資料庫5.39.217.76, M% d2 K2 _* L+ {; U* N

, o& H5 h7 l' U1 }  O4 H7 a1 J4 \我參與過的數位人文研究是在此技術上,更進一步地以「觀念史研究」作為方法基礎來展開的。其中的首倡者是金觀濤和劉青峰,兩位老師在2001年於香港中文大學籌建「中國近現代思想史專業數據庫(1830─1930)」(後在臺灣政治大學擴增為「中國近現代思想與文學史專業資料庫」)」,其2008年出版的《觀念史研究:中國現代重要政治術語的形成》便是以此資料庫而結成的研究成果,同年受聘到臺灣政治大學,帶領研究團隊展開數位與人文的研究。
; B+ x3 ?- C8 g+ h公仔箱論壇
  m) m0 d( p' {2 I: J' r' G! Vtvb now,tvbnow,bttvb兩位老師在書中指出,任何觀念都要透過文字傳播才能形成,而觀念總要透過某關鍵詞來表徵,因此要研究某觀念的變化或形成,若能找到對應的關鍵詞,利用數據庫搜索,確認此關鍵詞在各文本的意義,便能勾勒出與其對應的觀念圖像。
/ b; r  u! y% S, t  I9 b5.39.217.76# i+ |( [$ r7 H7 ~% E, ^9 I
以「民主」為例,其在古書的意義為「民之主」,即是「皇帝」,但後來西學傳入,其義變為「民主之」以翻譯democracy,是用來區別中國的「君主之」。在1860─1890年代,民主並沒有附加的價值意義,只是用來指涉西方制度而已,並且也鮮少在文獻中被提及,每年出現次數不超過50次。但1890年代後,人們興起了改革皇帝專制的觀念,民主便被多次提及,每年次數超過100次,並且其意義也被附加了價值屬性,對於支持君主立憲的人來說,民主將會帶來暴亂,對於支持革命者而言,民主是一項道德事業。
, I4 o; c: e+ n. C5 O2 Htvb now,tvbnow,bttvb
) O9 U+ o+ b6 P' |: ?5.39.217.76在兩位老師的指導下,當時我便以「改造」一詞來展開研究(〈從 「改造」一詞看共產主義在中國的發生背景〉,收錄於《數位人文在歷史學研究的應用》,2011年10月),發現1895年前,人們使用「改造」時,是要改造「槍砲」、「磚瓦」等器物,這是因為當時洋務運動仍盛行。而1895年後,則是改造「法律」、「社會」等等,這是因為1895年甲午戰爭打破了人們可以只變器物而不變制度的幻想,開展了制度變革的觀念。1919年後,又強調改造「階級」,這是因為馬克思主義當時在中國正值盛行。9 W3 r3 x+ W. v$ b
5.39.217.766 n! g) [1 f9 y5 Y, k/ e
由此可見,透過數位方法,能夠為人文研究提供一項可客觀驗證的實證基礎,確立出當時人們的觀念轉向是在何時發生。
5 I1 b+ A& g" d4 V公仔箱論壇tvb now,tvbnow,bttvb( j+ j+ X* L0 [( a5 f0 g! j& ~8 d
在觀念史研究的基礎上,兩位老師又提出了數位與人文結合的研究方式,這就有別於傳統利用數據庫的方法,而是直接以數位方法來整理文獻。其中的研究成果,可以我與梁穎誼的研究為例(〈統計偏離值分析於人文研究上的應用─以《新青年》為例〉,待刊於《東亞觀念史集刊》)。
% |# _; W$ T( D; [, A( ~TVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。
- N+ q  {9 n8 l. nTVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。當時我們面臨的問題是,儘管有數據庫的資源,但如果在不知道有何關鍵詞可對應某項觀念的情況下,便無法透過關鍵詞搜索來節省收集文獻的時間,仍得按老方法一篇一篇地閱讀。梁穎誼是臺灣政治大學的統計所博士,我與他的合作,便是由他建立一套數位方法,由我來驗證這套數位方法能否夠起到確實地掌握文獻的核心觀念的作用,以節省須通篇閱讀的時間。: E- Q+ j- z6 ], r/ E
TVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。, z! _5 @+ v6 t' R. f
在初步的研究成果上,我們發現以「齊夫定律」(Zipf’s Law)建立的計算模型,能夠篩選出文獻中被極端重複使用的關鍵詞,而這些關鍵詞都具有明確意義,例如「國家」、「青年」、「社會」、「主義」等等,而非寫作必要使用的連接詞。同時,這些關鍵詞恰恰可以反映出文獻作者的政治傾向,讓人文研究者極快地掌握到埋藏在千萬字數中的歷史線索。也就是說,利用數位方法進行人文研究,是能夠起到大量節省勞力時間的作用。
2 b8 m: @5 L3 r" R) \7 t  ATVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。
9 A. m. f$ I0 @7 @+ m; g: v
' ]# l. j5 w. {0 qtvb now,tvbnow,bttvb探索現象議題:拼湊觀念變遷圖像) Z  a4 \- x' t! s7 Q

1 j: G7 R# w% a/ N, z, K1 g公仔箱論壇我們可以設想一下,馬來西亞華人的研究是否能夠在利用數位方法,帶來突破的研究進展。首先,如果可以建立一個數據龐大的資料庫,收錄從15世紀以來各個殖民政府的官方檔案、以及獨立以來的官方調查報告、各語文報紙、重要民間組織的文獻,或許能夠透過關鍵詞搜索的方法,觀察出觀念變遷的圖像。tvb now,tvbnow,bttvb- D9 D; Z$ B/ q6 _4 v$ o
7 q( o( C9 ~; W# F
例如,以「Chinese」來搜索政府的檔案,我們便能獲取種種與華人政策有關的文獻。以「華社」來搜索報章資料,便能調出種種有關於華社的報導。將這兩類文獻相互對照,我們或許能夠很清楚地觀察出,華社與政府政策的相互反應關係,並且可以盡量減少遺漏。TVBNOW 含有熱門話題,最新最快電視,軟體,遊戲,電影,動漫及日常生活及興趣交流等資訊。- N; z% z7 h9 B6 }0 [8 p

9 O  Y- H! e' J# c$ N/ H再者,如果要研究「茅草行動」後華人社會的觀念想法,若將1987─1988年的各種文獻調出,透過數位方法來整理出被極端重複使用的關鍵詞,或許便可以觀察出當時華人社會最為憂慮關心的議題。1 b( W" H" X/ Z; E
5.39.217.76  U5 T: N# k* k3 f" A+ }8 e1 k
其次,還可以建立另一種數據庫,即收錄各地華人宗親會的人口資料,建立出跨時段跨地區的人口分佈模型,我們便可以很清楚地觀察出華人移民的遷移史及發展史,甚至各籍貫人口的消長變化。若能夠從中觀察到人口明顯變化的時間點,這便是一個重要的歷史線索,讓人文學者去研究解釋背後發生變化的原因為何。
. S7 R' `( i: G
/ s. _* o7 u) G1 q; a/ v3 Dtvb now,tvbnow,bttvb數位與人文的研究,並不只是節省時間勞力那麼簡單,還能夠提供一個實證平台,讓各種分散的資料,串連組成一幅全景歷史圖像,供人們更敏銳地觀察當中的重要議題。可以想像,在大數據的時代,若無統合資料的數據庫,人們將會迷失在茫茫資料中,供後來者追憶想像的「歷史」,將會褪色淡淺。在這層意義上,數據庫猶如原始社會的長老,是保留族群記憶的傳承之寶。
返回列表