數(shù)據(jù)資料對(duì)于社會(huì)科學(xué)領(lǐng)域的實(shí)證研究具有決定性意義。進(jìn)入21世紀(jì)以來(lái),中國(guó)社會(huì)科學(xué)領(lǐng)域的一大亮點(diǎn)是一系列全國(guó)范圍的縱貫學(xué)術(shù)調(diào)查機(jī)構(gòu),秉持?jǐn)?shù)據(jù)共享的理念,相繼公開(kāi)原始數(shù)據(jù)庫(kù),使之成為當(dāng)前社會(huì)科學(xué)研究領(lǐng)域中重要的學(xué)術(shù)資源。其中由中國(guó)人民大學(xué)中國(guó)調(diào)查與數(shù)據(jù)中心開(kāi)展的“中國(guó)綜合社會(huì)調(diào)查”(Chinese General Social Survey, 簡(jiǎn)稱CGSS)、中國(guó)社會(huì)科學(xué)院社會(huì)學(xué)研究所開(kāi)展的“中國(guó)社會(huì)狀況綜合調(diào)查” (Chinese Social Survey, 簡(jiǎn)稱CSS)、北京大學(xué)中國(guó)社會(huì)科學(xué)調(diào)查中心開(kāi)展的“中國(guó)家庭追蹤調(diào)查”(China Family Panel Studies,簡(jiǎn)稱CFPS)、北京師范大學(xué)中國(guó)收入分配研究院開(kāi)展的“中國(guó)家庭收入調(diào)查項(xiàng)目”(Chinese Household Income Project,簡(jiǎn)稱CHIP)、西南財(cái)經(jīng)大學(xué)中國(guó)家庭金融調(diào)查與研究中心開(kāi)展的中國(guó)家庭金融調(diào)查項(xiàng)目(China Household Finance Survey, 簡(jiǎn)稱CHFS),被學(xué)界冠為“五朵金花”或“調(diào)查5C”,在學(xué)界擁有較高的聲譽(yù)。研究數(shù)據(jù)開(kāi)放的舉措可以說(shuō)是中國(guó)社會(huì)科學(xué)研究領(lǐng)域的“供給側(cè)改革”,功不可沒(méi)。
隨著研究數(shù)據(jù)共享的擴(kuò)展,也產(chǎn)生了一個(gè)令人關(guān)注的現(xiàn)象,那就是數(shù)據(jù)使用無(wú)論在人數(shù)還是在成果數(shù)量上都大大超過(guò)了調(diào)查研究資料的原創(chuàng)者。以CGSS為例,截至2016年底,數(shù)據(jù)用戶已超過(guò)4萬(wàn)人,采用該數(shù)據(jù)進(jìn)行研究分析的文獻(xiàn)量達(dá)2094篇(部),其中數(shù)據(jù)原創(chuàng)團(tuán)隊(duì)的學(xué)術(shù)成果不足50篇(部),約占比2.4%;以CSS為例,在目前已發(fā)表的近700篇(部)文獻(xiàn)中,原創(chuàng)團(tuán)隊(duì)的學(xué)術(shù)成果僅有58篇(部),占比約8.3%。這意味著二手?jǐn)?shù)據(jù)用戶的需求重要性越加凸顯,原創(chuàng)團(tuán)隊(duì)必將面臨著重要的角色轉(zhuǎn)換:從調(diào)查研究的設(shè)計(jì)者、數(shù)據(jù)資料采集者,轉(zhuǎn)換為研究資料的提供者和服務(wù)者。
用戶需求旺盛但數(shù)據(jù)服務(wù)短缺
研究數(shù)據(jù)開(kāi)放共享成為公共資源,誘發(fā)了數(shù)據(jù)使用者的多重需求。首先,數(shù)據(jù)使用者有獲取數(shù)據(jù)的強(qiáng)烈需要。他們無(wú)一例外地希望盡早、全面地獲得最新數(shù)據(jù)。其次,數(shù)據(jù)使用者有數(shù)據(jù)指導(dǎo)的需求。需要數(shù)據(jù)提供者在數(shù)據(jù)的概念界定、口徑、采集方式及過(guò)程、分析解讀等多方面給予信息和技術(shù)支持。最后,數(shù)據(jù)使用者有整合開(kāi)發(fā)數(shù)據(jù)資源的需求。他們面對(duì)多筆釋出在各個(gè)機(jī)構(gòu)網(wǎng)站上的數(shù)據(jù),希望能夠?qū)⒉煌?xiàng)目、不同時(shí)代、不同區(qū)域、不同口徑的調(diào)查數(shù)據(jù)標(biāo)準(zhǔn)化綜合利用,以取得更大的價(jià)值。
但在國(guó)內(nèi)目前的學(xué)術(shù)組織框架中,滿足上述需求的服務(wù)提供,卻有著多重的制約。在傳統(tǒng)的項(xiàng)目(課題)制架構(gòu)下,數(shù)據(jù)共享只是原創(chuàng)團(tuán)隊(duì)自身研究的一項(xiàng)“副產(chǎn)品”,在數(shù)據(jù)使用的優(yōu)先序上,項(xiàng)目(課題)組本身應(yīng)該是排在首位的;各類后續(xù)的數(shù)據(jù)服務(wù)工作已超出了自身的研究者角色,沒(méi)有義務(wù)提供周全的后續(xù)服務(wù);特別是多筆數(shù)據(jù)整合的增值服務(wù),到底由數(shù)據(jù)提供者還是由用戶自身來(lái)完成,莫衷一是。數(shù)據(jù)提供者認(rèn)為已經(jīng)盡了最大的公益之心將數(shù)據(jù)分享學(xué)界了,由研究者來(lái)承擔(dān)數(shù)據(jù)服務(wù)的職能,實(shí)在力所不及。
科研數(shù)據(jù)共享帶來(lái)的用戶需求旺盛和數(shù)據(jù)服務(wù)短缺之間的張力,更深層次預(yù)示著中國(guó)社會(huì)科學(xué)界面臨的一個(gè)應(yīng)用拓展難題:當(dāng)各類研究數(shù)據(jù)作為公共學(xué)術(shù)資源密集面世,誰(shuí)來(lái)為它們的整合和增值服務(wù)買單?
數(shù)據(jù)檔案機(jī)構(gòu)的發(fā)展歷程
為數(shù)量眾多、來(lái)源龐雜的研究數(shù)據(jù)提供管理和整合的服務(wù),在國(guó)外的學(xué)術(shù)研究領(lǐng)域已經(jīng)相當(dāng)普遍和成熟。數(shù)據(jù)檔案機(jī)構(gòu)的誕生與發(fā)展,便是社會(huì)科學(xué)研究數(shù)據(jù)服務(wù)領(lǐng)域的一大創(chuàng)新。在歐美國(guó)家,社會(huì)科學(xué)數(shù)據(jù)檔案中心(Social Sciences Data Archives, SSDA)已有70年的發(fā)展歷史。
世界上最早的SSDA可以追溯到1947年美國(guó)創(chuàng)立的第一個(gè)數(shù)據(jù)檔案管理機(jī)構(gòu)——羅普中心(Roper Center)。調(diào)查研究創(chuàng)始人之一的Elmo Roper,將他從20世紀(jì)30年代中期開(kāi)始積累起來(lái)的民意調(diào)查數(shù)據(jù)捐贈(zèng)給美國(guó)的威廉姆斯學(xué)院圖書館,而該圖書館于1957年將羅普調(diào)查的數(shù)據(jù)檔案獨(dú)立出來(lái),成立了“羅普輿論研究中心”,2015年又歸屬于康奈爾大學(xué)。目前,該中心已經(jīng)收集22000多個(gè)來(lái)自美國(guó)和其他100多個(gè)國(guó)家的民意調(diào)查數(shù)據(jù)集,建立了專注于公眾輿論調(diào)查和分析、世界領(lǐng)先的社會(huì)科學(xué)數(shù)據(jù)檔案庫(kù),并以每年數(shù)百筆數(shù)據(jù)資料納入的速度增長(zhǎng)。另一所聞名于世的SSDA是成立于1962年的美國(guó)密歇根大學(xué)的校際政治和社會(huì)研究聯(lián)合會(huì)(The Inter-University Consortium for Political and Social Research,ICPSR)。該組織是會(huì)員制組織,在世界各地約有760所會(huì)員大學(xué)和研究機(jī)構(gòu)加入。ICPSR維護(hù)并提供了大量的社會(huì)科學(xué)研究數(shù)據(jù)檔案用于研究和教學(xué),目前擁有超過(guò)8000個(gè)單獨(dú)研究/調(diào)查項(xiàng)目數(shù)據(jù)和25萬(wàn)筆數(shù)據(jù)集。
在歐洲,1960年德國(guó)科隆大學(xué)建立的社會(huì)研究中央檔案館(ZA)以匯集社科數(shù)據(jù)檔案聞名;1964年荷蘭阿姆斯特丹大學(xué)建立的斯坦因麥茨檔案館,專門收藏民意調(diào)查數(shù)據(jù)檔案;1965年成立的英國(guó)數(shù)據(jù)檔案館(UK Data Archives)被英國(guó)國(guó)家檔案館指定為數(shù)據(jù)托管和存儲(chǔ)處,主要收藏人文社科領(lǐng)域的數(shù)據(jù),成為英國(guó)研究和教育領(lǐng)域中的基礎(chǔ)性材料。
1977年在比利時(shí)的新盧萬(wàn)成立的國(guó)際社會(huì)科學(xué)數(shù)據(jù)組織聯(lián)合會(huì)(International Federation of Data Organizations for the Social Science, IFDO),標(biāo)志著社會(huì)科學(xué)數(shù)據(jù)檔案機(jī)構(gòu)走向國(guó)際化和規(guī)范化。
數(shù)據(jù)檔案學(xué):一門新的學(xué)科
在以紙張為主要信息載體的時(shí)代,圖書館、檔案館成為人類資訊的匯集地,由此產(chǎn)生了圖書館學(xué)和檔案學(xué)。同樣,在電子化時(shí)代,社會(huì)科學(xué)數(shù)據(jù)檔案中心的普及,也促使了數(shù)據(jù)檔案學(xué)的出現(xiàn)。數(shù)據(jù)檔案學(xué)作為社會(huì)科學(xué)研究?jī)r(jià)值鏈上的一個(gè)新節(jié)點(diǎn)和新型服務(wù)供給類型,包含了諸如數(shù)據(jù)采集、數(shù)據(jù)修復(fù)、數(shù)據(jù)標(biāo)引、數(shù)據(jù)集成、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)釋出等圍繞數(shù)據(jù)生命周期展開(kāi)的數(shù)據(jù)管理流程的知識(shí)體系。
數(shù)據(jù)檔案建立中的數(shù)據(jù)采集,主要指既有數(shù)據(jù)的收集引進(jìn),相當(dāng)于傳統(tǒng)圖書館業(yè)務(wù)中的“采訪”環(huán)節(jié)。數(shù)據(jù)資料的采集,主要考量數(shù)據(jù)的研究利用價(jià)值與規(guī)范性。一般而言,長(zhǎng)期縱貫調(diào)查的數(shù)據(jù)、稀有數(shù)據(jù)(如對(duì)艾滋病患者的調(diào)查數(shù)據(jù))會(huì)更有引進(jìn)價(jià)值;具有規(guī)范性的數(shù)據(jù)說(shuō)明文件的數(shù)據(jù)資料應(yīng)是重點(diǎn)引進(jìn)的來(lái)源;和紙版圖書單本采購(gòu)引進(jìn)方式不同,研究數(shù)據(jù)多采用會(huì)員制的方式分享。
數(shù)據(jù)修復(fù)則包含了數(shù)據(jù)清理、數(shù)據(jù)考據(jù)等步驟,通過(guò)去除奇異值(Outlier Data)、校驗(yàn)數(shù)據(jù)邏輯、插補(bǔ)缺失值等方式,提升數(shù)據(jù)質(zhì)量,保障數(shù)據(jù)集的完整性。數(shù)據(jù)標(biāo)引是數(shù)據(jù)檔案標(biāo)準(zhǔn)化的關(guān)鍵,相當(dāng)于傳統(tǒng)圖書館業(yè)務(wù)中的“編目”環(huán)節(jié)。為便于對(duì)數(shù)據(jù)文檔和變量信息的檢索,國(guó)際社會(huì)科學(xué)領(lǐng)域通常采用DDI(Data Documentation Initiative)元數(shù)據(jù)標(biāo)準(zhǔn),用于對(duì)文檔、研究項(xiàng)目、數(shù)據(jù)文件和變量進(jìn)行關(guān)鍵詞的標(biāo)準(zhǔn)化描述。
數(shù)據(jù)集成指對(duì)各類數(shù)據(jù)集的跨庫(kù)、跨時(shí)空的整合,如將同一時(shí)期不同國(guó)家的貧困人口從各自的原始數(shù)據(jù)庫(kù)中整合為一體,進(jìn)行比較研究;又如將同一地區(qū)的同類歷史數(shù)據(jù)匯集,形成縱向動(dòng)態(tài)數(shù)據(jù)庫(kù)。數(shù)據(jù)集成得以把跨時(shí)間、跨主題、跨學(xué)科、跨模態(tài)的多重?cái)?shù)據(jù)綜合起來(lái),極大地豐富研究視野,也非常有實(shí)戰(zhàn)價(jià)值。美國(guó)密歇根大學(xué)的中國(guó)信息研究中心(China Data Center)利用我國(guó)各類開(kāi)放數(shù)據(jù)集成的China Data Online和China Map Online,便是成功的應(yīng)用案例。數(shù)據(jù)存儲(chǔ)主要包括數(shù)據(jù)的永久備份、定期備份、物理隔絕等保護(hù)與安全性事項(xiàng)。數(shù)據(jù)釋出主要涉及數(shù)據(jù)保密、私密處理、倫理審查、定期更新、用戶維護(hù)等內(nèi)容。
社會(huì)科學(xué)數(shù)據(jù)檔案中心將是新時(shí)代的科學(xué)研究資訊匯聚平臺(tái)和基站,亦將是新一輪學(xué)術(shù)建設(shè)的焦點(diǎn)。目前數(shù)據(jù)共享帶來(lái)的數(shù)據(jù)服務(wù)供給不足的難題,也同樣提供了一個(gè)新的發(fā)展機(jī)遇。中國(guó)科研機(jī)構(gòu)應(yīng)該具有前瞻意識(shí),盡早地投入數(shù)據(jù)檔案中心建設(shè),提升數(shù)據(jù)檔案學(xué)的學(xué)科發(fā)展空間,以一種新的激勵(lì)機(jī)制和制度安排,打破傳統(tǒng)的項(xiàng)目制下研究者作坊式的自給自足生產(chǎn)和運(yùn)用學(xué)術(shù)資源的格局,促進(jìn)我國(guó)社會(huì)科學(xué)研究的數(shù)據(jù)綜合開(kāi)發(fā)和增值應(yīng)用,更好地為我國(guó)學(xué)術(shù)研究的現(xiàn)代化,為發(fā)揮智庫(kù)功能,提供新的有力支撐。
(作者單位:中國(guó)社會(huì)科學(xué)院社會(huì)學(xué)研究所)