一本到高清DVD91日韩伦理影院|无码AV中文一区国产强奸三级簧片|日韩无码色哟哟午夜福利国产一区|丁香激情五月亚洲亚洲影院123区|五月天综合久久国产精品free|亚洲免费专区日韩热在线视频|黄片看视频免费久久偷拍的视频|五月婷桃色网日韩国产一级

    1. <rt id="6skql"></rt>
        1. <form id="6skql"></form>
          <sub id="6skql"></sub>

            <rt id="6skql"></rt>

            服務(wù)熱線02152235399
            當(dāng)前位置:博客 > 生物信息

            Trinity轉(zhuǎn)錄組組裝測試計劃

            時間:2018-10-18    |    閱讀量:9038


            引言

            1.1編寫目的

            進行該測試以及撰寫此報告有以下幾個目的:

            1) 通過使用Trinity軟件,進行不同組裝策略的轉(zhuǎn)錄組組裝測試,得到組裝效果最好的組裝策略;

            2) Trinity組裝所需時間,內(nèi)存及存儲峰值評估;

            1.2背景

            由于第二代測序測序讀長短、質(zhì)量值偏低、數(shù)據(jù)量大。目前轉(zhuǎn)錄組組裝面臨的問題主要有:1)轉(zhuǎn)錄本覆蓋度不均勻,一些轉(zhuǎn)錄本覆蓋度很低,一些則會跟高;2)由于序列本身的偏向性,轉(zhuǎn)錄本內(nèi)reads覆蓋度存在不一致的可能;3)與一個測序正確但低表達的轉(zhuǎn)錄本相比,一個有測序錯誤但高表達的轉(zhuǎn)錄本,其表達豐度可能更高;4)由于可變剪切,構(gòu)建數(shù)據(jù)結(jié)構(gòu)需考慮到一個基因有多個轉(zhuǎn)錄本的可能;5)來自不同基因的重復(fù)序列可能給組裝帶來歧義。

            本次工作的目的在于通過不同組裝策略的測試,以得到一種最優(yōu)的組裝方案。組裝策略主要有以下幾種:

            1) 6個樣品單獨組裝,然后將組裝結(jié)果進行聚類;

            2) 6個樣品數(shù)據(jù)放在一起組裝;

            3) 6個樣品提取高質(zhì)量數(shù)據(jù),進行組裝,低質(zhì)量數(shù)據(jù),進行組裝;然后聯(lián)合組裝;

            4) 使用Genome-guided參數(shù)與不使用該參數(shù)

            1.3用戶群

            主要讀者:公司研發(fā)部,公司管理人員。

            其他讀者:項目及銷售相關(guān)人員。

            1.4 數(shù)據(jù)對象

            物種

            數(shù)據(jù)類型

            樣品個數(shù)

            測序類型

            水稻

            mRNA

            6個

            PE90

            1.5 測試階段

            軟件測試

            1.6測試工具

            1) Perl;

            2) Trinity

            1.7 參考資料

            1) Brian J Haas,  Alexie Papanicolaou, Moran Yassour V, et al. De novo transcript sequence reconstruction from RNA-seq using the Trinity platform for reference generation and analysis, 11 July 2013; doi:10.1038.

            2) Geo Pertea, Xiaoqiu Huang , et al. TIGR Gene Indices clustering tools (TGICL): a software system for fast clustering of large EST datasets, Vol. 19 no. 5 2003,

            .測試概要

            關(guān)于此項測試工作從2014年4月10日開始預(yù)計到2014年5月30日結(jié)束。

            2.1 主要測試內(nèi)容如下:

            1) Trinity安裝以及測試;

            2) 測試數(shù)據(jù)獲取及處理;

            3) 編寫任務(wù)腳本及任務(wù)提交;

            4) TCICL安裝以及測試;

            5) 組裝結(jié)果質(zhì)量評估及統(tǒng)計;

            6) 不同組裝方法結(jié)果比較;

            7) 編寫結(jié)果報告

            2.2 測試詳細思路描述:

            1) 6個樣品單獨組裝;

            2) 6個樣品組裝結(jié)果,使用TGICL進行聚類,組裝成UniGene;

            3) 6個樣品各取約2.5G數(shù)據(jù),合起來共約16G數(shù)據(jù)組裝,(因6個樣品所有數(shù)據(jù)24G,數(shù)據(jù)量太大,trinity跑不通);

            4) 取一個樣品使用Genome-guided  參數(shù),用有參考序列的組裝方式進行組裝;

            5) 比較使用一個樣品(4G數(shù)據(jù)),與使用6個樣品(16G數(shù)據(jù))的組裝結(jié)果差異

            6) 比較使用6個樣品單獨組裝,然后聚類成的UniGene,與6個樣品數(shù)據(jù)合起來(16G數(shù)據(jù))組裝結(jié)果差異

            7) 比較使用Genome-guided  參數(shù),和不使用Genome-guided  參數(shù)結(jié)果差異

            2.3工作計劃進展

            測試內(nèi)容

            計劃開始時間

            實際開始時間

            計劃完成時間

            實際完成時間

            工作完成情況

            軟件安裝以及測試

            2014年4月10日

            2014年4月10日

            2014年4月10日

            2014年4月10日

            已完成

            測試數(shù)據(jù)獲取及前期處理

            2014年4月10日

            2014年4月18日

            2014年4月14日

            2014年4月18日

            已完成

            編寫任務(wù)腳本及任務(wù)提交

            2014年4月20日

            2014年4月19日

            2014年4月28日

            2014年5月4日

            已完成

            TCICL安裝以及測試

            2014年4月21日

            2014年4月28日

            2014年4月29日

            2014年5月15日

            完成

            組裝結(jié)果質(zhì)量評估及統(tǒng)計

            2014年4月29日

            2014年5月16日

            2014年5月15日

            2014年5月20日

            完成

            不同組裝方法結(jié)果比較

            2014年5月17日

            2014年5月20日

            2014年5月21日

            2014年5月21日

            完成

            編寫結(jié)果報告

            2014年5月21日

            2014年5月21日

            2014年5月22日

            2014年5月22日

            完成

            2.2測試執(zhí)行

            此次測試嚴(yán)格按照項目計劃和測試計劃執(zhí)行,按時完成了測試計劃規(guī)定的測試對象的測試。針對測試計劃制定規(guī)定的測試策略,依據(jù)測試計劃和測試用例,將網(wǎng)絡(luò)數(shù)據(jù)以及我們觀測的關(guān)鍵參數(shù)進行了完整的測試。

            2.3測試用例

            2.3.1功能性

            1) 1.測試Trinity軟件,可以正常運行。

            2) 2.測試TGICL軟件,可以正常運行

            3) 3.評估不同組裝策略組裝質(zhì)量狀況。

            測試環(huán)境

            3.1軟硬件環(huán)境

            硬件環(huán)境

            服務(wù)器

            硬件配置

            CPU:Intel Xeon 2.66GHz *20

            Memory:90GB

            HD:29TB

            軟件配置

            OS:Fedora release 14,Ubuntu 12.10

            Trinity

            網(wǎng)絡(luò)環(huán)境

            20M LAN

            測試結(jié)果

            使用不同方法組裝統(tǒng)計結(jié)果見如下表格:

            物種

            水稻

            組裝策略

            直接組裝

            直接組裝

            直接組裝

            直接組裝

            直接組裝

            直接組裝

            6個樣品部分數(shù)據(jù)合并組裝

            3個樣品單獨組裝后,再聚類

            4個樣品單獨組裝后,再聚類

            5個樣品單獨組裝后,再聚類

            數(shù)據(jù)量

            4G

            4G

            4G

            4G

            4G

            4G

            16G

            12G

            16G

            20G

            樣品名稱

            CQ9522_2mm_1A

            CQ9522_2mm_2A

            CQ9522_4mm_1A

            CQ9522_4mm_2A

            CQ9522_6mm_1A

            eg1D34_1A

            Sample6All

            Sample3Culster

            Sample4Culster

            Sample5Culster

            Total sequences

            45444

            45345

            47746

            47915

            48173

            48561

            283184

            53007

            58131

            62566

            Total bases

            42320514

            42218957

            44463230

            44589916

            44968574

            45256330

            263817521

            52432158

            59334530

            65271000

            Min sequence length

            201

            201

            201

            201

            201

            201

            201

            201

            201

            201

            Max sequence length

            13797

            13797

            12820

            14676

            14693

            13288

            14693

            13797

            15307

            15307

            Average sequence length

            931.27

            931.06

            931.25

            930.6

            933.48

            931.95

            931.61

            989.16

            1020.7

            1043.23

            Median sequence length

            583

            582

            601

            582

            580

            601

            587

            627

            642

            657

            N25 length

            2398

            2398

            2331

            2414

            2415

            2320

            2379

            2545

            2654

            2723

            N50 length

            1504

            1503

            1483

            1498

            1520

            1474

            1496

            1612

            1681

            1732

            N75 length

            773

            773

            788

            770

            782

            780

            778

            867

            910

            946

            N90 length

            375

            375

            378

            375

            375

            381

            376

            398

            409

            420

            N95 length

            282

            282

            284

            285

            282

            289

            284

            286

            289

            290

            querygene number

            39461

            39376

            40564

            40759

            40673

            41318

            109371

            44589

            48253

            51281

            subjectgene number

            41754

            41609

            41338

            41977

            41652

            41396

            46500

            43770

            44768

            45443

            gene region alignment percentage

            61.11%

            61.17%

            61.97%

            62.81%

            62.49%

            62.49%

            67.13%

            62.73%

            64.21%

            64.33%

            組裝reads使用率

            91.76%

            90.79%

            91.36%

            91.45%

            90.11%

            91.42%

            94.43%

            92.69%

            93.28%

            93.72%

            存儲峰值

            35G

            35G

            35G

            35G

            35G

            35G

            200G

            80G

            80G

            80G

            內(nèi)存峰值

            38G

            38G

            38G

            38G

            38G

            38G

            90G

            78G

            78G

            78G

            運行時間(小時)

            3

            3

            3

            3

            3

            3

            18

            3+1

            3+1.2

            3+1.5

            4.1 軟件安裝

            1) 安裝新版2014年4月新版Trinity( trinityrnaseq_r20140413.tar.bz);

            2) 安裝perl 模塊PerlIO-gzip-0.18.tar.gz;

            3) 安裝TGICL(TGICL-2.1.tar.gz) ;

            4) 安裝CD-HIT;

            5) 安裝GMAP and GSNAP(gmap-gsnap-2014-04-20.tar.gz  );

            五.測試結(jié)論與討論

            從上述統(tǒng)計結(jié)果可以看出

            1) 對于Contigs N50:樣品單獨組裝與合并clean data數(shù)據(jù)后組裝的N50差不多,樣品單獨組裝后合并略有提升。

            2) Contigs數(shù)量:樣品單獨組裝后合并contigs數(shù)量比單個樣品組裝contigs數(shù)量稍多,合并并clean data數(shù)據(jù)后組裝contigs數(shù)量明顯增多(但是,數(shù)量太多)

            3) Reads 使用率:合并clean data數(shù)據(jù)后組裝、樣品單獨組裝后合并 reads使用率略高于單個樣品組裝

            4) 基因區(qū)域覆蓋度:合并clean data數(shù)據(jù)后組裝、樣品單獨組裝后合并 reads使用率略高于單個樣品組裝

            5) 另外:

            6) Genome-guided 模式?jīng)]有測通,故不在此次比較范圍內(nèi);

            7) 6個樣品單獨組裝后聚類,TGICL沒有跑通,故使用了3個樣品聚類、4個樣品聚類、5個樣品聚類的結(jié)果進行比較。

            8) CD-HIT是另外一種聚類軟件,2個樣品聚類可以成功運行,但是3個樣品聚類時,一直顯示任務(wù)運行但是無結(jié)果,也不報錯。

            六.測試總結(jié)

            根據(jù)本次測試結(jié)果,綜合考慮到內(nèi)存、運行時間、組裝結(jié)果、存儲等因素,樣品單獨組裝后聚類的效果比較好。






            金门县| 密山市| 巨野县| 神木县| 赤城县| 西充县| 临海市| 上栗县| 南靖县| 永昌县| 崇文区| 侯马市| 车险| 阿合奇县| 海盐县| 奉贤区| 松阳县| 天津市| 麟游县| 星子县| 时尚| 延津县| 称多县| 庆阳市| 泰宁县| 土默特左旗| 山阴县| 洮南市| 栖霞市| 定远县| 若尔盖县| 桓仁| 迭部县| 河北区| 沙洋县| 金华市| 和平区| 泸溪县| 增城市| 自治县| 都昌县|