基因組暗物質的識別:數量最大的一類非編碼RNA的高精度預測算法獲得突破
第二代測序技術又稱作深度測序技術,應用到RNA上統稱作RNA-seq或RNA測序,它已成為基因表達和轉錄組分析的重要手段。第二代轉錄組測序數據中含有大量不編碼蛋白質的ncRNA序列,因為它們像宇宙中的暗物質一樣難以識別和有重要功能,也被稱為“基因組暗物質”。由於數據量巨大,保守性差,又有噪音幹擾,這些“暗物質”的識別成為表觀遺傳學和調控網絡研究的瓶頸。piRNA是數量最大的一類ncRNA,主要是通過與轉座子的序列互補來控製轉座子的表達,進而調控生殖和發育。由於不同物種的piRNA之間同源性很差,至今國際上還沒有有效的識別方法。
必威精装版app西汉姆联 康樂研究組的張屹等最近發表的題為“A k-mer scheme to predict piRNA and characterize locust piRNA”的最新研究論文,解決了高精度預測生物體中數量最大的一類非編碼RNA---piRNA的難題,論文發表在生物信息學權威期刊《生物信息學》(Bioinformatics,IF=4.926)上。這篇文章中提出了一種基於k-mer串頻率的Fisher判別式來預測piRNA的算法, 精度達90%以上,超過了哈佛大學B. Doron的61%的精度。利用這個方法,他們成功地鑒定出飛蝗8萬多條piRNA, 預測飛蝗可能存在約13萬條piRNA。進一步分析發現這些piRNA在飛蝗群居型和散居型間存在巨大差異,這可能為解釋飛蝗兩型生殖力差異提供了重要的線索。這個不依賴基因組數據來鑒定非模式生物piRNA的新方法具有重要的理論意義和廣泛的應用價值。目前,在線軟件piRNApredictor (http://59.79.168.90/piRNA/index.php) 已被國外科研機構用於豬的piRNA研究中。
piRNA預測算法的突破為其它ncRNA的預測提供了重要的啟示:不保守的ncRNA是可以預測的。由於該算法理論的普遍性,這個方法不僅可以預測其它物種的piRNA,還可以通過變更訓練集來預測其它種類的ncRNA。而且,在線軟件給出的piRNA高精度預測結果,對進一步表觀遺傳學,調控網絡與piRNA功能的研究有重要理論意義和應用價值。

