這是繼ASD算法(Nucleic Acids Res. 2014 Apr;42(6):4019-30. IF=10.162)后,烈冰生物發(fā)表的第二篇可變剪接檢測算法類文章,創(chuàng)下國內(nèi)同類算法的又一里程碑,在創(chuàng)新型企業(yè)自主研發(fā)算法攻堅之路上再下一城!
參與該項研究的還有中國科學(xué)院上海生命科學(xué)研究院的馮英研究員、浙江農(nóng)林大學(xué)吳文武教授。
該結(jié)果以“CASH: a constructing comprehensive splice site method for detecting alternative splicing events”為題發(fā)表于著名學(xué)術(shù)期刊Briefings in Bioinformatics。
CASH的下載地址:https://sourceforge.net/projects/cash-program/?source=directory。
導(dǎo)讀
在高等真核生物中,基因大都以內(nèi)含子-外顯子交替的形式存在,當(dāng)其被轉(zhuǎn)錄成pre-mRNA后,通過外顯子的不同組合方式,可以產(chǎn)生一系列不同的轉(zhuǎn)錄本,最終使得生物體內(nèi)的轉(zhuǎn)錄組和蛋白質(zhì)組呈現(xiàn)多樣性。在這個過程中,可變剪接起著關(guān)鍵的作用。在人類中,絕大多數(shù)具有蛋白編碼能力的基因都能受到可變剪接的調(diào)控,最終產(chǎn)生多種不同功能的蛋白亞型。而異常的可變剪接也廣泛涉及到了多種疾病,例如癌癥等。因此,探索可變剪接事件對于進(jìn)一步理解生物體內(nèi)不同轉(zhuǎn)錄本的功能是至關(guān)重要的。
研究背景
高通量測序是研究可變剪接的強有力工具,并且已經(jīng)開發(fā)出了一系列算法工具去對可變剪接事件進(jìn)行分析。這類算法主要可以分成兩大類,一類是基于全長轉(zhuǎn)錄本的分析策略(以轉(zhuǎn)錄本為中心),另一類是基于外顯子或事件或轉(zhuǎn)錄本區(qū)域的分析策略(以區(qū)段為中心)。前者主要有Cuffdiff,BitSeq,rSeqNP等,這些算法能夠?qū)D(zhuǎn)錄本進(jìn)行定量及差異分析,并且嘗試去捕獲到單個基因內(nèi)部可能存在的多種復(fù)雜的可變剪接情況。而相反的,以JuncBase,rMATS或者DEXSeq為代表的后者,則試圖對參與可變剪接的外顯子的歸屬進(jìn)行判斷,從而提高可變剪接的檢測效率。所有這些方法很大程度上依賴于參考基因組中轉(zhuǎn)錄本的注釋信息。然而截至目前,對于人類參考基因組轉(zhuǎn)錄本的注釋信息也并不是十分完整。除此之外,一些可變剪接的情況可能只在特定的細(xì)胞或者條件下產(chǎn)生。雖然三代測序已經(jīng)能夠獲得全長轉(zhuǎn)錄本信息,但是其高昂的成本仍然限制了其被廣泛應(yīng)用于轉(zhuǎn)錄組的研究中,因此以區(qū)段為中心的分析策略依舊是目前分析可變剪接事件的必要工具。
近日,上海烈冰生物醫(yī)藥科技有限公司宗杰博士聯(lián)合中國科學(xué)院上海生命科學(xué)研究院的馮英研究員、浙江農(nóng)林大學(xué)吳文武教授共同開發(fā)了可變剪接分析算法CASH(Comprehensive AS Hunting),其中算法的大部分思路及全部代碼實現(xiàn)由烈冰科技完成。通過與其他已有的算法進(jìn)行比較后發(fā)現(xiàn),CASH顯著提升了樣本之間差異可變剪接事件的檢測能力。
除此之外,作者還用CASH檢測了SRSF10所影響的可變剪接事件。SRSF10是絲氨酸/精氨酸富集蛋白家族的成員,這類蛋白在pre-mRNA的剪接過程中發(fā)揮關(guān)鍵作用。在之前的研究中,作者已經(jīng)發(fā)現(xiàn)SRSF10可以調(diào)控可變剪接事件的發(fā)生。在本研究中,作者進(jìn)一步在多個物種中研究了SRSF10的調(diào)控作用,并對其保守性和進(jìn)化關(guān)系進(jìn)行了分析。作者在雞、小鼠和人類的測序數(shù)據(jù)中發(fā)現(xiàn)SRSF10調(diào)控的基因以及對應(yīng)的可變剪接類型并不保守,但是有共同的結(jié)合位點基序,這個結(jié)果強烈暗示著SRSF10在不同物種中有著保守的調(diào)控模式。
研究思路
首先我們來理清這項研究的思路,如下圖所示。
研究結(jié)果
1、烈冰生物開發(fā)了CASH算法,該算法主要分為兩個階段,分別為SpliceCons和SpliceDiff。在第一個階段,CASH將RNA-seq數(shù)據(jù)中所有的junction reads提取出來,并生成一個剪接位點的列表,結(jié)合參考基因組中注釋的外顯子位點信息,針對每個基因構(gòu)建完整的剪接位點信息(ComSpliceSite)。隨后,CASH在每一個基因中尋找并區(qū)分七種典型的可變剪接類型。在第二個階段,CASH對每種不同的剪接形式針對性的設(shè)計了不同的采樣方式,并分別基于exon覆蓋度和junction reads計算P-value,再將兩個P-value通過加權(quán)方程得到adjusted P-value,隨后通過BH算法計算得到FDR值,以此來評估可變剪接事件的顯著性。
2、接下來,我們將CASH與其他的算法進(jìn)行了比較。首先,我們利用三組沒有生物學(xué)重復(fù)的數(shù)據(jù),將CASH與Cuffdiff、MISO、rMATS進(jìn)行了比較。結(jié)果顯示Cuffdiff沒有檢測到顯著的差異可變剪接,另外三種算法得到的結(jié)果相差較大,其中CASH與rMATS重疊的基因數(shù)量要顯著高于MISO。將預(yù)測到的結(jié)果與RT-PCR結(jié)果進(jìn)行分析后發(fā)現(xiàn),CASH和rMATS的驗證率顯著好于MISO,同時CASH的結(jié)果要優(yōu)于rMATS。
為了更進(jìn)一步評估CASH預(yù)測到的結(jié)果,我們選取了45個(其中22個是新的)僅CASH預(yù)測到的可變剪接基因,進(jìn)行RT-PCR驗證,結(jié)果顯示71%(32/45)以上的陽性結(jié)果,包括GALN2,CAST以及PATL1中新的可變剪接事件。暗示著CASH能夠在無生物學(xué)重復(fù)樣本的比較中顯著提高差異可變剪接,特別是新的可變剪接事件的檢測效率。
3、與此同時,我們又評估了CASH在有生物學(xué)重復(fù)樣本中的檢測效率。與Cuffdiff,DEXSeq和rMATS相比,CASH檢測到了更多的差異可變剪接事件。RT-PCR結(jié)果顯示CASH的驗證率好于其他幾種算法,同樣地,CASH能夠檢測到CG9947和mys中新的可變剪接事件。綜合這兩個測試表明,CASH既能夠在有生物學(xué)重復(fù)的樣本,也能夠在無生物學(xué)重復(fù)的樣本中提高差異可變剪接檢測率,尤其是新的可變剪接事件。
4、下一步,我們利用Flux模擬器模擬了一系列數(shù)據(jù),其中包含已有注釋的以及新的差異可變剪接事件,測序深度分為30x,50x和100x。結(jié)果顯示MISO,rMATS以及DEXSeq在使用重建后轉(zhuǎn)錄本的情況下,其檢測效率要高于使用參考基因組,但還是顯著低于CASH。即使是在30x的數(shù)據(jù)量下,CASH依舊能夠維持著極高的敏感性及特異性。
5、在此基礎(chǔ)上,我們利用CASH在雞、小鼠和人類中研究了SRSF10介導(dǎo)的可變剪接事件,并進(jìn)行了物種間的比較。我們發(fā)現(xiàn)了41個基因在三個物種間都受到了SRSR10的調(diào)控,但是只有7個(星標(biāo))發(fā)生了一致的可變剪接事件,暗示著SRSF10的調(diào)控方式在物種間是非常靈活的。通過GO和pathway的分析,我們發(fā)現(xiàn)受SRSF10調(diào)控的基因功能在物種間具有一定的保守性,這些基因參與了許多基礎(chǔ)的生物學(xué)過程包括細(xì)胞骨架、染色質(zhì)結(jié)構(gòu)以及RNA加工過程等,同時也存在著些許差別。
6、之前的研究表明,SRSF10擁有一個保守的RNA識別基序,能夠結(jié)合AGAGAV或者AAAGACAAA。我們對cassette類型可變剪接中的序列信息進(jìn)行了分析,發(fā)現(xiàn)在三個物種中有一個共同的調(diào)控模式。通過更深入的分析后,我們提出了一種SRSF10介導(dǎo)的剪接模型,當(dāng)外顯子具有GA富集的特征時,通常能夠與SRSF10具有更高的親和力,因此當(dāng)GA富集出現(xiàn)在下游外顯子時,會導(dǎo)致cassette外顯子的跳躍,而GA富集發(fā)生在cassette外顯子上時,則會發(fā)生該外顯子納入的情況。并且這種調(diào)控模式在雞、小鼠和人類中都高度保守。