朱朝東研究組Systematic Biology在線發表麵向DNA數據庫物種界定規程

  公共DNA數據庫中包含很多生物類群,為係統學提供了大量數據來源。目前,基於分子數據的物種鑒別和界定工作已經逐步開展。現代測序技術的飛速發展,帶來了海量分子數據的同時,也導致很多研究人員無法為相關數據提供準確的分類學信息。這些分類信息不夠完整的分子數據,阻礙了在物種一級水平上開展精細的數據挖掘。同時,基於較大數據庫進行物種聚類研究,也需要整合多個基因片段,從而在數據結構和計算過程中產生了很多問題。

  Douglas Chesters博士在朱朝東研究組開展博士後研究,出站後被聘任為必威在线网址 助理研究員期間,研發了一種在分子序列數據庫中界定物種的方法:1)首先獲取所有昆蟲的DNA序列,並對它們進行文本加工;2)根據一定的規則過濾掉重複數據;3)劃分遺傳位點L;4)根據每個位點信息,界定物種S;5)物種單元與位點相匹配,形成一組多位點物種界定的數據矩陣L×S。

  作者應用馬爾科夫聚類的方法將數據庫劃分為同源基因片段數據集。基於包含大部分物種多樣性的基因,完成物種鑒定,並同時對物種單元名字賦予物種名。在物種聚類過程中,兩兩相似之處計算的複雜性的主要來源於線粒體基因組中的COI位點。科研人員通過開發軟件解決了這個複雜的過程:在分類的體係內執行序列兩兩比對,且為不同階元的序列標注分類信息。

  GenBank中GenBank中超過24個不同同源基因,194 000個未帶分類標簽的序列,包含41 525個帶分類標簽的物種(98.7%從昆蟲數據庫中獲得)。通過對每個位點的分層聚類,利用獨立的最優參數,這些序列被分組到59 173個基於單個位點的分子分類單元(MOTU)中。來自不同位點的MOTU,由多部匹配算法進行匹配。這樣,位點之間形成不一致性最低的多位點單元。匹配後,科研人員通過這24個位點,發現了在目前的昆蟲數據庫中,存在78 091個基於多位點信息的MOTU。其中,38 574個單元包含物種分類學信息,而34 891個則沒有包含分類標簽,剩下的4 626個單元兩種情況並存。

  除了可以估算物種多樣性,科研人員開發的規程還將促進現代序列數據集的物種界定。特別是L×S矩陣代表了後分類學思路,將可以解構種級元基因組數據。這些方法將可以在多個基因位點,甚至基因組水平提取大量數據,產生更多研究物種多樣性的L×S數據矩陣,從而整合到後續的係統發育的流程。

  該工作主要得到中國科學院知識創新工程、中國國家自然科學基金委麵上和人才項目支持,並部分得到中國農業部公益性行業(農業)科研專項和中國國家科技部基礎性工作專項的支持。

  論文在線發表,引用信息如下:

  A Protocol for Species Delineation of Public DNA Databases, Applied to the Insecta.

  Douglas Chesters; Chao-Dong Zhu

  Systematic Biology 2014;

  doi: 10.1093/sysbio/syu038

  論文全文下載信息如下:相關數據,論文在線發表(AbstractPDF

 

 

關於我們
聯係我們
地  址:北京市朝陽區北辰西路1號院5號
郵  編:100101
電子郵件:ioz@ioz.ac.cn
電  話:+86-10-64807098
傳  真:+86-10-64807099
友情鏈接
Baidu
map