出品:科普中國(guó)
作者:李雷
監(jiān)制:中國(guó)科普博覽
在《基因王國(guó)之二》中,我們?yōu)榇蠹医榻B了從基因到基因組的坎坷與曲折,在六國(guó)共同合作下,我們開啟了人類基因組計(jì)劃,并在2001年向全球公布了人類基因組。
不過,我們已經(jīng)拿到完整的人類基因組了嗎?
答案是否定的。
“人類基因組”并不完整
其實(shí),人類基因組計(jì)劃完成之后還留下了很多缺憾,典型的就是“人類基因組”并不完整。
我們想象中的基因組是一條從頭到尾用ATGC組成的線條,但實(shí)際上并非如此?;蚪M在人體內(nèi)是以染色體的形式分布的,人體一共有23對(duì)染色體,因此,假如人類基因組是一個(gè)小區(qū),那么因?yàn)榛蚪M本身分成了不同的染色體,所以我們可以將其理解為不同的單元樓。
理論上人類的基因組應(yīng)該是23對(duì),也就是22對(duì)被稱為常染色體的單元樓,加上2條性染色體X染色體和Y染色體組成的性染色體樓,以及1段額外的線粒體基因大樓,這些加起來才是人類的基因組。
然而實(shí)際上,我們得到的基因組不只是分成這些單元樓,每一棟單元樓本身還存在一些樓層是懸空的,而這些懸空的東西,并非不存在的,只是我們當(dāng)時(shí)的技術(shù)無法讀取。
舉個(gè)例子,最典型的是重復(fù)序列。雖然我們的基因組是ATGC組成的,但是經(jīng)常會(huì)出現(xiàn)一些DNA重復(fù)序列,比如,有時(shí)候會(huì)出現(xiàn)2-20個(gè)左右的核苷酸單元被重復(fù)成百上千次等,這種重復(fù)形式根據(jù)科學(xué)家們總結(jié)至少可以分為常見重復(fù)和片段重復(fù)等。
舉兩個(gè)具體的例子,長(zhǎng)達(dá)幾十個(gè)的T——“TTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTTT”,和親子鑒定中常用的D21S11(數(shù)目可變的TCTA和TCTG重復(fù)(TCTA)n(TCTG)n(TCTA)nTA(TCTA)nTCA(TCTA)nTCCATA(TCTA)n)。那么這個(gè)時(shí)候,我們的測(cè)序就無法辨認(rèn)它的位置和具體信息了。不僅如此,這些序列還往往處于一些特殊位置,比如染色體中間部位的著絲粒和末端的端粒。
結(jié)果就是,受限于當(dāng)時(shí)的技術(shù),我們獲得的人類基因組有無數(shù)個(gè)空缺,這些空缺有多大呢?加起來占到了人類基因組的8%左右。
基因組序列
(圖片來源:science)
為了解決這個(gè)問題,科學(xué)家們一直在想法設(shè)法彌補(bǔ)這些空缺。
從2003年起,國(guó)際科研團(tuán)隊(duì)組成“端粒到端粒聯(lián)盟”(T2T)來努力破解這些復(fù)雜區(qū)域的序列。一開始,聯(lián)盟的工作進(jìn)展很慢,因?yàn)檫@些區(qū)域往往是重復(fù)的區(qū)域,我們的計(jì)算機(jī)很難把重復(fù)區(qū)域的先后順序以及具體組成區(qū)分開來。
大家也許能想到是什么給事情帶來了轉(zhuǎn)折,沒錯(cuò),又是技術(shù)革新。直到一種全新的測(cè)序技術(shù)出現(xiàn),才為解決這個(gè)難題帶來了曙光,這個(gè)技術(shù)就是長(zhǎng)片段DNA測(cè)序技術(shù),又被稱為第三代測(cè)序技術(shù)。
在過去,無論是一代測(cè)序還是二代測(cè)序,一個(gè)單元長(zhǎng)度都是幾百個(gè)堿基左右,這就導(dǎo)致如果一段基因上反復(fù)出現(xiàn)重復(fù)片段,那么我們就沒法進(jìn)行了,因?yàn)闊o法區(qū)分它們的先后順序和具體組成。
而新的測(cè)序技術(shù)可以一次性從頭到尾讀取幾萬甚至幾十萬的長(zhǎng)度,這么長(zhǎng)的區(qū)域基本上不會(huì)在基因組上出現(xiàn)重復(fù),而那些短的重復(fù)區(qū)域則被覆蓋在其中,于是借助這種新技術(shù),科學(xué)家們成功地把基因組上這剩下的8%的信息基本上都翻譯出來了,形成了迄今為止最完整的人類基因組。
我們可以看到,人類基因組計(jì)劃的完成,是一代測(cè)序、二代測(cè)序和三代測(cè)序共同實(shí)現(xiàn)的。但是,我們并不能僅憑出現(xiàn)時(shí)間的早晚來評(píng)判測(cè)序技術(shù)的高下,要知道,缺乏其中任何一種測(cè)序技術(shù),人類基因組的完全解讀就不能完成。
當(dāng)然,必須指出,即便到如今我們的人類基因組依然不能說是100%完全測(cè)序,依然還有一小點(diǎn)點(diǎn)需要補(bǔ)充,但是按照目前進(jìn)展,可能近幾年就能徹底解決這個(gè)問題。
未來已來?言之過早
看到這里,建立了到目前為止最為完整的人類基因組,那么是不是大功告成了?其實(shí),這只是萬里長(zhǎng)征第一步呢。
在2001年人類基因組計(jì)劃剛完成的時(shí)候,業(yè)內(nèi)也是一片歡呼,仿佛未來已來。然而很快,科學(xué)家們就發(fā)現(xiàn)了一系列問題。
首先,我們當(dāng)年測(cè)序的人類基因組,被稱為參考基因組,當(dāng)然,你也可以理解為“標(biāo)準(zhǔn)版”,但是,具體到每個(gè)人,這就不同了,每個(gè)人的基因組和參考基因組都不是百分之百相似的,而是會(huì)出現(xiàn)一些差別,我們稱之為“基因變異”或者“基因突變”。
而這些變異也是這個(gè)多樣化世界形成的根本因素,世界上找不到任何兩個(gè)一模一樣的人,甚至嚴(yán)格意義上來說,哪怕是同卵雙胞胎,他們的基因也并非完全一致。更為夸張地說,你身體上的所有細(xì)胞都不一定擁有一模一樣的基因組。
基因突變
(圖片來源:wiki)
造成這種現(xiàn)象的主要原因在于基因突變,而能夠引發(fā)基因突變的因素有很多,物理因素比如輻射,化學(xué)因素比如各種致癌物,生物因素比如病毒誘發(fā)變異也存在。
即使沒有這些因素,我們的基因機(jī)制也會(huì)引發(fā)變異,所謂的基因復(fù)制就是從一變多的過程,并不是百分之百精確的,會(huì)隨機(jī)出現(xiàn)錯(cuò)誤,盡管人體有修復(fù)機(jī)制,但這種修復(fù)并不是百分之百精確,最終就導(dǎo)致即使沒有誘變因素,基因依然會(huì)變異,結(jié)果就是同一個(gè)人不同時(shí)期不同部位的DNA可能都不是完全一樣的。
當(dāng)然,需要指出的是基因變異是個(gè)中性的詞匯,我們不要聞之色變,很多優(yōu)勢(shì)的出現(xiàn),同樣也是因?yàn)樽儺?/strong>,而每一個(gè)人一般都攜帶百萬個(gè)單核苷酸多態(tài)性(可以通俗理解為變異)。
那么,當(dāng)我們解讀了這些代碼之后,能做什么呢?別急,我們下回揭曉。
編輯:孫晨宇