在這個(gè)時(shí)代,各行各業(yè)都對(duì)大數(shù)據(jù)癡迷,基因組學(xué)也不例外。也許,這源于一種與生俱來的需求,我們渴望了解遺傳組成如何控制人類生活的方方面面。近日,Jeffrey S. Buguliskis博士在GEN網(wǎng)站上討論了大數(shù)據(jù)帶來的挑戰(zhàn)。
在這個(gè)時(shí)代,各行各業(yè)都對(duì)大數(shù)據(jù)癡迷,基因組學(xué)也不例外。也許,這源于一種與生俱來的需求,我們渴望了解遺傳組成如何控制人類生活的方方面面。近日,Jeffrey S. Buguliskis博士在GEN網(wǎng)站上討論了大數(shù)據(jù)帶來的挑戰(zhàn)。
Buguliskis認(rèn)為,基因組學(xué)領(lǐng)域?qū)π畔⒌男枨箝_始于二十年前,也就是芯片技術(shù)出現(xiàn)的時(shí)候。這是科學(xué)家第一次引入大規(guī)模的基因組數(shù)據(jù)集。當(dāng)然,這僅僅是開始。2003年人類基因組計(jì)劃的完成不僅讓科學(xué)家去尋找更經(jīng)濟(jì)的方法進(jìn)行測(cè)序,也進(jìn)一步激發(fā)了他們分析大數(shù)據(jù)集的胃口。
短短數(shù)年,迅速發(fā)展的新一代測(cè)序(NGS)平臺(tái)產(chǎn)生了呈指數(shù)增長(zhǎng)的數(shù)據(jù),比人們想象得更快速,也更經(jīng)濟(jì)。GenoSpace的COO Daniel Meyer談道:“自2005年以來,測(cè)序成本已下降了四個(gè)數(shù)量級(jí),而新技術(shù)讓我們能夠比以前更快地產(chǎn)生更多數(shù)據(jù)。隨著數(shù)據(jù)生成接近商品化,最大的挑戰(zhàn)已經(jīng)轉(zhuǎn)移到有效的分析和解釋?!?
的確,NGS提高了測(cè)序的速度,降低了測(cè)序的成本。然而,它并沒有解決與數(shù)據(jù)采集有關(guān)的任何問題,不僅如此,它還大大增加了文件的大小。NGS的讀長(zhǎng)更短,就全基因組測(cè)序而言大約在50-100 bp,但讀取數(shù)量驚人,大大超過傳統(tǒng)的Sanger測(cè)序。此外,各個(gè)國(guó)際聯(lián)盟也在開展規(guī)模宏大的項(xiàng)目,比如千人基因組計(jì)劃,英國(guó)的10K計(jì)劃,動(dòng)輒產(chǎn)生PB級(jí)的數(shù)據(jù)。
Buguliskis認(rèn)為,在許多方面,生命科學(xué)的大數(shù)據(jù)是基礎(chǔ)設(shè)施的問題。大多數(shù)研究人員沒有能力分析現(xiàn)代NGS平臺(tái)產(chǎn)生的數(shù)據(jù)集。例如,對(duì)于讀長(zhǎng)100 bp和50倍覆蓋度的外顯子組測(cè)序運(yùn)行,原始數(shù)據(jù)大約在1.-1.5 TB,而多次重復(fù)后的數(shù)據(jù)大約需要3-5 TB的存儲(chǔ)空間。即使計(jì)算機(jī)存儲(chǔ)器的價(jià)格在不斷走低,但要有足夠的硬盤空間去存儲(chǔ)多次運(yùn)行的數(shù)據(jù)也并非易事。
雖然數(shù)據(jù)采集和管理是許多機(jī)構(gòu)關(guān)注的問題,但NGS要想成為精準(zhǔn)醫(yī)學(xué)的一部分,絆腳石可不止這些。有人認(rèn)為,NGS的各個(gè)領(lǐng)域都需要標(biāo)準(zhǔn)化,才能成為臨床醫(yī)學(xué)中的強(qiáng)大工具。
此外,科學(xué)家也一直在尋找更輕松、更快速且更高效的分析方法?!拔蚁嘈?,云計(jì)算及通過高度可擴(kuò)展的計(jì)算資源共同查找大數(shù)據(jù)的能力正對(duì)簡(jiǎn)化數(shù)據(jù)分析產(chǎn)生積極的影響,隨著更多數(shù)據(jù)以及更廣泛的分析程序遷移到云端,這種趨勢(shì)將繼續(xù)下去,”Illumina的副總裁Scott Kahn談道。
同時(shí),測(cè)序方面的進(jìn)步也在間接地協(xié)助數(shù)據(jù)分析流,實(shí)現(xiàn)更加準(zhǔn)確的讀取比對(duì),并開辟了新的研究方法。AllSeq的首席科學(xué)官Shawn Baker認(rèn)為:“最有意思的事情是長(zhǎng)讀取。獲得真正的長(zhǎng)讀?。?gt;10 kb)將明顯改善比對(duì)過程,實(shí)現(xiàn)單體型等過去不可能的新分析。長(zhǎng)讀取技術(shù)目前已上市,不過它與短讀取平臺(tái)相比要貴一到兩個(gè)數(shù)量級(jí)?!?
最后,作者也提到了第三代測(cè)序技術(shù)。這種方法跳過了DNA擴(kuò)增,避免了PCR偏向,讓遺傳物質(zhì)在單分子水平上直接測(cè)序。目前,只有幾家公司提供這種測(cè)序平臺(tái),而且價(jià)格較高。