【中國科學報】研究失實,禍起數據
由於研究人員使用了不完整的數據進行統計分析,那麼結論必然會出現錯誤。在蔣誌剛看來,這是值得所有自然資源保護主義者和管理者正視的問題。
■本報記者 胡瑉琦
隨著大數據時代的來臨,數據密集型的科研方式已經越來越成為保護生物學研究的一個重要方向,這也意味著科研過程的成敗與大數據的質量和完整性息息相關。而對研究者來說,一旦忽視對數據缺陷的辨別,就可能落入大數據的“陷阱”。最近,中國的科研人員在《美國科學院院刊》上發表文章,提出了這一值得被正視的問題。
一項“失實”的研究
今年6月,美國加州大學伯克利分校環境科學、政策和管理係Elsen等研究人員在《美國科學院院刊》上發表了一項研究成果,他們根據對世界保護地數據庫(WDPA)的數據,分析了全球六大洲1010條山脈中44155個保護區的高程分布,從而量化海拔梯度的全球保護。
由於跨海拔梯度保護區強化了對生物多樣性和生態係統發育多樣性的保護,並且促進了氣候變化條件下的物種範圍遷移,所以這是研究者關注的問題。
早在2010年10月,《生物多樣性公約》各締約方通過了《生物多樣性戰略計劃》(2011—2020年),該戰略計劃確定了2020年全球生物多樣性目標(也稱愛知目標)。其中一條目標要求,到2020年,締約國要至少保護17%的陸地麵積和10%的海域麵積。
這項研究認為,他們所觀察到的海拔保護遠低於理想狀態。就平均海拔保護力度而言,非洲和亞洲的山脈最低,歐洲和南美洲的山脈中等,北美洲和大洋洲的山脈最高。
尤其是一項數據統計結果顯示,亞洲的高海拔地帶,主要是青藏高原,I-IV類自然保護地(IUCN提出的保護地分類標準指南將全球保護地分為六類,其中I-IV類可以說屬於較嚴格的保護地類型)的覆蓋率很低,遠達不到17%的目標。
但在2016年,中科院動物所研究員蔣誌剛團隊在Biological Conservation在線發表的有關中國生物多樣性保護的文章曾經提到,過去40年裏,中國自然保護區的數量有顯著增加,截至目前,共有11個類型,保護區占地麵積覆蓋了全國國土麵積的17%以上和海洋麵積的3.5%。
中國是亞洲典型的多山國家,於是,針對國際同行的這項研究,蔣誌剛與幾位國內同行再次就中國國家自然保護區(CNNR)對不同海拔地區的覆蓋率進行了統計分析,得到的結果也的確與他們產生了很大的差異。
中國不僅在青藏高原上已經建立了許多大麵積的保護區,在海拔超過4000米的地區達到甚至超過了17%的“愛知目標”,且海拔越高,CNNR覆蓋的麵積比例越大。
蔣誌剛等撰文指出,Elsen等人的研究結論明顯與中國的實際情況不符。而造成這一分析結果偏差的原因就在“數據”。
成也數據,敗也數據
中國的研究人員在世界保護地數據庫中發現,列入該係統的中國自然保護區總共112個,其中隻有一個保護地被歸為IUCN保護地分類中的IV類,12個被歸為不那麼嚴格的保護類別VI類,剩餘的則被視為未報告或不可分類。
也就是說,Elsen等人的這項研究所統計的,與中國相關的較為嚴格的自然保護區數據隻有唯一的一個。
而事實上,截至目前,中國國家級自然保護區的數量就達到了428個,且屬於IUCN保護地分類中最嚴格的類型。如加上國內各個地方級別的自然保護區,總數達到了2700多個。
由於研究人員使用了不完整的數據進行統計分析,那麼結論必然會出現錯誤,這就是蔣誌剛所說的“數據陷阱”。但在他看來,這是值得所有自然保護者和管理者正視的問題。
世界自然保護地數據庫(WDPA)是目前全球海洋和陸地自然保護地最大的數據庫,收錄了全球超過20萬個自然保護地的信息,它的重要性不言而喻。它是世界保護地的主要數據來源,但不意味著這些數據就是完全可靠的。
盡管,WDPA對數據提供者製定了嚴格的門檻,且根據其使用手冊的說明,製定了定期更新、數據驗證、質量檢查的原則和機製,但作為一個覆蓋全球免費開放的數據庫,數據提供者並沒有強製性義務,而是自願提交的,那麼至少在數據完整性上,必然會受到客觀條件的影響。
除了數據不全,蔣誌剛還提到,一個大數據庫往往會存在分類問題。WDPA使用的是IUCN保護地分類標準,但中國自然保護區分類與其並不一致。
他在不久前發表的《論保護地分類與以國家公園為主體的中國保護地建設》一文中指出,IUCN保護地分類係統定義模糊,缺乏量化標準,保護地的屬性也常常存在非唯一屬性的問題,比如可可西裏自然遺產地,既是自然遺產地,也是嚴格保護區和荒野地、物種與生境保護區,還是陸地景觀、國家公園。因此,保護地麵積可能重複統計,數據整合可能出現問題。
他認為,世界保護地數據庫涉及其他亞洲國家的數據時很可能也存在這些問題。而且,這也是相同類型大數據庫普遍存在的問題。
不過,對研究人員而言,數據庫並不是唯一可利用的數據資源。蔣誌剛想要強調的是,尤其在宏觀問題研究中,研究者在使用單一數據庫資源時必須足夠審慎,如果無法辨識數據完整性,寧願不發表論文。
“這關係到科學家的職業操守。”蔣誌剛說。
科學的生命力在質疑與證偽
“我們已經進入了一個利用大數據識別大格局、發現大規律的年代。尤其在保護生物學中,應用大數據是時代潮流。”
蔣誌剛解釋,大數據可以幫助科學家節省大量野外收集的時間和資源,將研究水平提高到以往研究者所不能開展的空間尺度與時間跨度。同時,大數據對微觀的保護生物學的研究也同樣重要,比如來自Genbank的數據,對於了解、比較瀕危物種的研究、種群曆史和演化有重要意義。
也正是由於大數據的重要性,數據庫自身在提升數據質量和完整性方麵需要作出更多的努力。“比如,數據庫管理者應該更主動地與每個提供數據報告的國家建立聯係,針對大數據庫數據來源複雜、數據質量良莠不齊等問題,管理者和維護者在執行層麵就應該更認真地完成定期審查、數據查錯和驗證過程,盡可能提升數據的真實性與準確性,消除混亂,彌補缺陷。”他告訴《中國科學報》記者,“科學的生命力正是在於質疑與證偽。”
隻有如此,研究者才會有一個良好的數據庫開展進一步的分析,發現真實的規律,避免陷入大數據庫的缺陷。蔣誌剛坦言,“這不能依靠大數據的用戶來驗證數據,也不能依賴於科學期刊的審稿人和編輯來驗證”。
相關論文信息:
https://doi.org/10.1073/pnas.1813323115
https://doi.org/10.1073/pnas.1720141115
https://doi.org/10.1016/j.biocon.2016.05.005
DOI:10.17520/biods.2018168
《中國科學報》 (2018-10-19 第4版 自然)

