• 熱線電話:010-56107385

聯系方式

地 址:北京市昌平區北清路生命科學園博雅CC -9號樓2層
電 話:010-56107385
傳 真:
郵 箱:support@ori-gene.cn

科研動態

您現在的位置:首頁 > 公司動態 > 科研動態
客戶發表:觀賞植物一串紅基因組的高質量組裝
作者: 來源: 發布于:2018-7-20 14:53:33 點擊量:

 

不久前,由源宜基因與北京市園林科學研究院及北京林業大學合作發表的“一串紅高質量基因組圖譜”文章在GigaScience雜志在線刊登,這標志著我國成為世界上首個繪制出一串紅基因組圖譜的國家。下面我們一起看看這篇文章的具體研究內容。

 

文章標題:觀賞植物一串紅基因組的高質量組裝

發表期刊:GigaScience(IF 6.871)

文章引用:Dong A X, Xin H B, Li Z J, et al. High quality assembly of the reference genome for scarlet sage, Salvia splendens, an economically important ornamental plant[J]. GigaScience, 2018.

 

1、摘要

一串紅(Salvia splendens Ker-Gawler)是一類常見的多年生草本植物。由于缺乏分子標記資源,因此其育種方式主要依賴于表型選擇,而表型變異的遺傳機制仍然未知。因此,組裝得到高質量的參考基因組對于一串紅的分子標記、遺傳育種、基因編輯或分子遺傳學研究具有重要的價值。

本研究基于全基因組測序技術,共得到了66Gb(PacBio SMRT平臺)和37Gb(Illumina HiSeq平臺)的原始數據。PacBio測序組裝得到的一串紅基因組大小為808Mb,其中scaffold N50為3.12Mb, contigs N50為2.06Mb,重復序列占比為57.52%,并對基因組中54,008個蛋白編碼基因進行了從頭和基于同源的基因功能預測分析。一串紅和丹參(Salvia miltiorrhiza)之間的分化時間預計可推測到28.21Mya前。此外,在一串紅基因組中分析得到了3797個物種特異性基因和1187個擴增基因家族。

 

2、材料方法

物種:一串紅(Salvia splendens)(同一品系多輪自交)

材料:基因組測序材料為幼苗的葉片組織;轉錄組測序材料為根、莖、葉、花萼和花冠組織。

方法:全基因組測序--PacBio SMRT平臺和Illumina HiSeq平臺;

轉錄組測序--Illumina HiSeq X Ten平臺。

 

3、基因組評估(大小、雜合度及重復度)

三代PacBio測序產出65G(8M reads)數據,約80×;二代Illumina Clean Data 30G(220M reads),約40×。Kmer預估基因組大小~780Mb,測序數據覆蓋深度~33×,重復率為47.99%(錯誤率為0.27%),雜合率為0.06%。

所用軟件:Canu (v1.5),Jellyfish (RRID:SCR_005491),gce 1.0.0。

 

4、基因組組裝

經過多次優化組裝,最終得到一串紅基因組長度為808Mb。各輪組裝軟件與組裝結果統計見表1。

表1. 組裝的各版本一串紅基因組簡要信息統計

(1)初步組裝

采用不同的軟件或策略初步組裝PacBio測序數據。通過綜合比較不同組裝軟件得到的基因組的contigs數量與長度、N50、L50以及基因組完整性,得到一串紅基因組初步組裝的最佳版本v0.1。

所用軟件:Canu,MECAT1.1,FALCON (v0.7),SMARTdenovo 1.0.0,BUSCO (v2.0.1)。

(2)Scaffolding組裝

利用二代和三代數據對初步組裝的contig進行scaffolding,經過多輪優化,得到一串紅的基因組最終版本v1.2f。

所用軟件:arrow(v2.2.1),SSPACE (RRID:SCR_005056),SOAPdenovo,GapCloser (RRID:SCR_015026),Pilon(RRID:SCR_014731),Bowtie2 (v2.3.0) 。

 

5、組裝結果評估

從Kmer分布、組裝結果連續性、基因(組)完整度與冗余度、單堿基錯誤率及雜合率等方面對組裝基因組進行了全面評估。整體組裝結果比較好,可以為后續的比較基因組學分析研究奠定基礎。組裝的高質量性主要體現在:

1)基因組組裝的大小和kmer估計大小基本一致;

2)二代數據map比例高達98.72%以上,三代數據map比例為99.79%;BUSCO評估的核心基因占比為92.2%;

3)最終版本基因組的contig N50為2.26M,質量比較高(>1M),scaffold N50為3.12M。

所用軟件:Bowtie2 (v2.3.0),BUSCO (v2.0.1)。

圖1. Kmer分布圖

(數據集:三代數據+MECAT校錯;可見明顯重復峰,無明顯雜合峰。紅色虛線為理論的泊松分布)

 

6、基因組注釋

(1)重復序列鑒定

共鑒定重復序列1113597個,總長~465.44Mb,占比57.52%;其中比例最高的是LTR,共184299個(長度~214.33Mb),占比26.49%。

所用軟件:RepeatModeler(v1.0.10),RepeatMasker(v4.0.7)。

(2)轉錄本組裝

采用多種策略對轉錄本序列進行組裝,并去除冗余,共計得到192169條轉錄本序列,具體統計見表2。

所用軟件:HiSat2(v2.1.0),StringTie(v1.3.3b),Trinity(v2.0.6),Cufflinks(v2.1.1),CD-HIT(v4.6)。

表2.一串紅轉錄本組裝結果統計

(3)基因預測與注釋

基于從頭預測、同源比對及RNA-seq數據等對基因進行預測與注釋,最終得到54008個基因,基因注釋可信度比例達到97%(AED < 0.5)。平均每個基因含6.3個外顯子。基因區總長度約353.3M,占基因組的45.8%。外顯子總長度87.4M,占基因組的11.3%。轉錄本的平均長度為1.7K bp,CDS平均長度約為1.3K bp,蛋白質的平均長度為430 aa。

所用軟件:MAKER(package v2.31.9),AUGUSTUS(v3.2.3),BLAST(v2.2.28+),Exonerate(v2.4.0)。

 

7、比較基因組分析

(1)同源基因家族分析

選擇了丹參(Salvia miltiorrhiza)、歐洲白蠟(Fraxinus excelsior)、油橄欖(Olea europaea)等其他共計15個物種,總共得到35808個同源基因家族,所有物種共有的有4995個,其中單拷貝的有134個;一串紅總共有44493個基因歸入同源基因家族,特有的基因家族有1306個,單拷貝基因家族有3957個,多拷貝基因家族有12203個(代表40536個基因)。結果詳見表7。

所用軟件:BLASTP(Blast+ v2.3.056),OrthoMCL(v2.0.9)。

表3.比較基因組分析結果統計

 

(2)基因家族收縮與擴張

利用134個共有的單拷貝基因和35808個同源基因家族在各物種中的基因數量分布情況,構建系統發育物種樹并分析基因家族的收縮與擴張,發現三種鼠尾草屬植物的系統分化時間大約在28.21Mya,具體結果見圖2。

所用軟件:MUSCLE (v3.8.31),PhyML(v3.0),r8s(v1.81),CAFE(v4.0)。

圖2. 基因家族收縮與擴張的系統進化分析

藍色:擴張的基因家族數量;紅色:收縮的基因家族數量

(3)次級代謝通路分析

在一串紅中共鑒定到85個與次級代謝相關的基因簇,主要參與生物堿、糖類、聚酮類、萜類及木脂素類等化合物的生物合成途徑。

所用軟件和數據庫:E2P2 package(v3.1),PMN(v12.5),plantSMASH。

 

8、結論

該研究提供了第一個一串紅的基因組參考序列和基因注釋信息,這些信息對于進一步研究一串紅的分子標記、遺傳育種、基因編輯以及相關物種的比較基因組學具有重要意義。

 

相關鏈接:

http://www.longhunbest.com/html/news/2018-6-25/384.html

http://www.fortuneworld.com.cn/special/forestry/yjzh/201806/t20180621_2989531.shtml?from=singlemessage

https://mp.weixin.qq.com/s/nesbDohqYCU7ERkDbHewgA

https://mp.weixin.qq.com/s/lydKcvn_3EhltFTrGVHg1Q

 

長按二維碼識別關注我們

 

 



俺也去我也去五月停停成人网_婷停五月深爱五月激情网