版權(quán)歸原作者所有,如有侵權(quán),請聯(lián)系我們

李子林 | 以數(shù)字筑架,述國民基因之貌

科學(xué)中國人
原創(chuàng)
《科學(xué)中國人》雜志社官方賬號
收藏

統(tǒng)計,是一道能寫出大文章的數(shù)學(xué)題。每一個分合整析背后,不僅僅是數(shù)字、符號的精密運(yùn)算,更是對經(jīng)濟(jì)、民生、醫(yī)療等行業(yè)現(xiàn)狀的深刻洞察;每一個數(shù)據(jù)模型的建立也并不簡單,既有相關(guān)研究人員十?dāng)?shù)年學(xué)術(shù)知識的沉淀,也飽含他們想要以學(xué)報國的深刻情感。而這道令人著迷的數(shù)學(xué)題,東北師范大學(xué)數(shù)學(xué)與統(tǒng)計學(xué)院教授李子林已經(jīng)解了近20年,直到今天,關(guān)于高維數(shù)據(jù)的統(tǒng)計分析方法和統(tǒng)計遺傳學(xué)的疑難點仍然是他職業(yè)生涯的主旋律,“我希望可以用自身的研究成果助力中國人群大隊列研究,推進(jìn)國家在精準(zhǔn)預(yù)防和精準(zhǔn)治療方向的發(fā)展,為實施健康中國戰(zhàn)略作出自己的貢獻(xiàn),在百年未有之大變局中為中華民族的偉大復(fù)興貢獻(xiàn)自己微薄的力量,以數(shù)字筑架,述國民基因之貌”,這是心愿,更是行動。

▲李子林

梁園雖好非吾鄉(xiāng)

春華秋實,歲物豐成。2023年,在李子林決定離開美國時,他正在印第安納大學(xué)醫(yī)學(xué)院擔(dān)任助理教授,在這之前,他一度在世界頂級學(xué)府之一的哈佛大學(xué)深耕了6年,師從國際知名統(tǒng)計學(xué)家、美國國家科學(xué)院和美國國家醫(yī)學(xué)院兩院院士林希虹院士;在國際遺傳學(xué)知名期刊《自然·遺傳學(xué)》(Nature Genetics)和《自然·方法》(Nature Methods)上陸續(xù)發(fā)表學(xué)術(shù)論文……這樣的職業(yè)發(fā)展軌跡任誰來看都是熠熠生輝的,他卻在一切都走上正軌的時刻毅然選擇更換賽道,循著身體中流淌的中華血脈、抱著逐夢圓夢的如磐初心重歸祖國熱土,在眾多一線城市高校拋出的橄欖枝中選擇了回報桑梓——加入東北師范大學(xué)?!傲簣@雖好,實非吾鄉(xiāng)”,對于自己誠摯、熱烈也帶些沖動的選擇,他的回應(yīng)始終只有這樣云淡風(fēng)輕卻擲地有聲的一句話。

而教會李子林這句話的,正是我國馳名世界的頂尖學(xué)府之一——清華大學(xué)。作為享譽(yù)國際的高等院校之一,清華大學(xué)在科研和教育上的成就本無須多言,但如果一定要用文字來描述它,則可以用無數(shù)種方法,可以是寥寥數(shù)字,也可以是長篇巨幅。不過無論如何試圖去描述,結(jié)果都一樣:對任何人來說,它都是個神秘的宮殿,里面藏著數(shù)不清的、挖不完的寶藏,或可見或不可見,浮光躍金、流動不止。而李子林從小就在心中種下過這樣一顆種子。

少時的李子林在數(shù)學(xué)學(xué)科上就是有天賦且足夠努力的,憑借著對奧數(shù)的興趣一路“闖入”清華大學(xué)赫赫有名的“數(shù)理基礎(chǔ)科學(xué)班”,但他始終保持謙遜,“小時候我身邊有一群固定的伙伴一起學(xué)習(xí)奧數(shù),他們后來也都各自考入了清華北大、復(fù)旦、上海交通大學(xué)等學(xué)校,并在各自領(lǐng)域都發(fā)展得很好,跟他們比起來我真的談不上‘優(yōu)秀’二字”。雖然擇校后無法常聚,但無論是對于李子林還是他的伙伴,抑或是所有數(shù)學(xué)從業(yè)者而言,他們之間始終都存在著一種無言的默契,即數(shù)學(xué)從來都是助人“開眼看世界”的一個視角,是打造良好邏輯思維的鍛造工具,而不是成績單上令人矚目的數(shù)字,更不是掛在嘴邊逢人炫耀的“學(xué)習(xí)功績”。也正是這樣“兼容并蓄”的認(rèn)知和胸懷,才讓李子林在接觸統(tǒng)計世界的風(fēng)景之后,堅定地選擇這一方向,為畢生事業(yè)打下地基。

大學(xué)三年級對于李子林而言像是一道分水嶺,既結(jié)束了入校前兩年數(shù)理共培的課程模式,讓基礎(chǔ)科學(xué)班的同學(xué)得以自主選擇專業(yè);也分隔了李子林所有的懵懂不定和彷徨不決,因為林希虹院士將遺傳統(tǒng)計學(xué)帶入了他的視野?!拔疫€記得那應(yīng)該是一次暑期活動,學(xué)校特意邀請了許多海外名師來做分享,林希虹院士就是其中之一,她深入淺出的講解和成熟穩(wěn)健的性格特征都給我留下了非常深刻的印象”,這成為李子林此后遠(yuǎn)赴美國跟隨林希虹院士深造的伏筆。不過那時,他還只顧沉迷在相對基礎(chǔ)的統(tǒng)計學(xué)理論知識點中,因為清華大學(xué)數(shù)學(xué)系在當(dāng)時還沒有設(shè)立專門的統(tǒng)計培養(yǎng)方向。“我選擇和其他兩名同學(xué)一起探索,到處旁聽我們認(rèn)為適合的課程,互相鼓勵、有商有量,那是一段非常純粹的學(xué)習(xí)時光?!敝钡浇裉?,他們?nèi)允抢钭恿址浅V匾颐芮械呐笥?,雖然彼此分別于本科畢業(yè)的2011年,但幸運(yùn)的是此間友誼既長且堅,適時的聯(lián)絡(luò)讓李子林得知他們均在各自的人生坐標(biāo)上精耕細(xì)作、閃閃發(fā)亮。

如果說,清華博士二年級發(fā)表第一篇第一作者的學(xué)術(shù)文章標(biāo)志著李子林在學(xué)術(shù)理論上的初步成熟,那么自2013年起在美國磨礪的十年就是李子林邁向?qū)嵺`之路的象征。其導(dǎo)師林希虹院士以將統(tǒng)計學(xué)方法和理論應(yīng)用于醫(yī)學(xué)和公共健康問題的相關(guān)研究聞名學(xué)界,不僅在2005年受聘為哈佛大學(xué)生物統(tǒng)計系終身正教授;還作為首位華人女性獲獎?wù)哂?006年,將統(tǒng)計學(xué)界的“諾貝爾獎”——考普斯總統(tǒng)獎收入囊中,同時于2018年當(dāng)選美國醫(yī)學(xué)院院士,2023年當(dāng)選美國科學(xué)院院士?!澳軌蚋S這樣的導(dǎo)師進(jìn)行學(xué)習(xí),我非常榮幸?!崩钭恿终\懇地說道。

跟隨林院士,李子林深刻了解到生物統(tǒng)計學(xué)的研究領(lǐng)域涉及關(guān)系醫(yī)學(xué)、公共健康和生物醫(yī)學(xué)問題的很多方面,其研究方法也包括假設(shè)建立,實驗設(shè)計、取樣、數(shù)據(jù)收集和整理,數(shù)據(jù)分析,模型建立,結(jié)論推斷等諸多環(huán)節(jié),是一門研究對象復(fù)雜、研究方法多樣的學(xué)科。更重要的是,這一研究與人類健康事業(yè)關(guān)系密切。李子林深感自己重任在肩,因此反復(fù)實踐摸索7年,直到2019年才發(fā)表了自己的第二篇第一作者學(xué)術(shù)論文?!捌溟g如果說完全沒有焦慮與擔(dān)憂肯定是假的,但也正是這段臥薪嘗膽般的日子讓我明確了堅持的意義和重量。”十年磨劍終成鋒,在不斷試錯、挑戰(zhàn)全新數(shù)據(jù)結(jié)構(gòu)的奮行之下,STAAR系列方法和工具順勢而生。

躬耕不輟付春華

“人類基因組由約30億個堿基對構(gòu)成,這是人類遺傳學(xué)研究的核心,也是我所有工作的起源?!崩钭恿纸榻B道。

近年來,隨著測序成本的大幅下降,大規(guī)模的全基因組測序研究和生物樣本庫研究正在快速向前發(fā)展,例如美國國家心肺血液研究所20萬人的精準(zhǔn)化醫(yī)學(xué)研究計劃,美國國家人類基因組研究所的35萬人的基因組測序計劃,以及50萬人的英國生物樣本庫。這些研究已經(jīng)對上百萬個全基因組進(jìn)行了測序,并發(fā)現(xiàn)了近十億個變異位點,其中罕見變異占比率超過了99%,也就是說,罕見變異正在成為復(fù)雜性狀和疾病遺傳力缺失的主要來源。而學(xué)界為了“偵破”罕見變異所帶來的其他隱性改變,其相關(guān)研究與測序數(shù)據(jù)驟增至海量。若要輕松面對如此浩如煙海的數(shù)字架構(gòu),一個關(guān)鍵挑戰(zhàn)就是缺乏全面、自動化、可擴(kuò)展和高效的分析軟件和工具;另一個挑戰(zhàn)則是超過98%的遺傳變異位于非編碼基因組。也就是說,盡管在評估編碼罕見變異對復(fù)雜性狀的影響方面取得了一定的進(jìn)展,但是非編碼罕見變異分析仍存在較大的空白。因此,亟需針對基因組大數(shù)據(jù)中非編碼罕見變異的統(tǒng)計分析方法和軟件,以發(fā)現(xiàn)人類疾病和表型的遺傳構(gòu)架,找到導(dǎo)致疾病的遺傳變異位點,開發(fā)新的藥物靶標(biāo)。

針對這一難題,在林希虹院士的指導(dǎo)及親自帶隊參與下,李子林協(xié)同背后團(tuán)隊開發(fā)了大規(guī)模全基因組測序數(shù)據(jù)非編碼罕見變異關(guān)聯(lián)分析工具——STAAR pipeline。這是一款一體化關(guān)聯(lián)分析流程,可自動化進(jìn)行基因型數(shù)據(jù)與功能注釋集成、關(guān)聯(lián)分析及結(jié)果匯總和可視化。

“首先,STAAR pipeline應(yīng)用FAVOR數(shù)據(jù)庫和FAVOR annotator工具對全基因組數(shù)據(jù)進(jìn)行功能注釋。其次,STAAR pipeline自動定義罕見變體集進(jìn)行分析,包括基于功能性分類的以基因為中心的分析(gene-centric analysis)和基于變異位置的非以基因為中心的分析(non-gene-centric analysis)。對于以基因為中心的分析,STAAR pipeline可提供基于8種非編碼功能類別集的罕見變異分析;對于非以基因為中心的分析,STAAR pipeline則提供了滑動窗口分析和動態(tài)窗口分析。相比于經(jīng)典的固定長度滑動窗口分析,動態(tài)窗口分析通過采用數(shù)據(jù)自適應(yīng)長度提升了檢驗功效。再次,STAAR pipeline通過STAAR方法引入并整合了多組學(xué)功能注釋數(shù)據(jù),進(jìn)一步提高了檢驗功效。最后,STAAR pipeline利用廣義線性混合模型控制人群結(jié)構(gòu)和家系結(jié)構(gòu)的混雜影響,適用于包括連續(xù)型和離散型表型在內(nèi)多種類型的表型數(shù)據(jù),同時提供針對常見和低頻變異的單體分析,并針對編碼基因組提供基于5種功能類別集的罕見變異分析。”每每提及自己匠心獨運(yùn)的得意作品,李子林總是滔滔不絕,因其雖是統(tǒng)計學(xué)世界中走出的一小步,但卻是他個人邁向更深遠(yuǎn)科學(xué)疆域的一大步。正如林希虹院士所一貫要求他們的那樣:既要在統(tǒng)計學(xué)上嚴(yán)格,又要在遺傳應(yīng)用上好用。

▲2022年,李子林(左一)參加美國遺傳學(xué)年會(ASHG)作分組報告

而李子林在美國時的數(shù)據(jù)分析進(jìn)一步證明了這一點。據(jù)悉,研究團(tuán)隊已將STAAR pipeline應(yīng)用于精準(zhǔn)醫(yī)學(xué)跨組學(xué)(TOPMed)全基因組測序數(shù)據(jù)中,高效地分析了4萬人的9種表型。值得注意的是,STAAR pipeline在以基因為中心的非編碼分析中發(fā)現(xiàn)了49個顯著性關(guān)聯(lián),其中35個(71.4%)屬于6個新的非編碼功能類別集。動態(tài)窗口分析在非編碼基因組中檢測到43個非重疊的顯著關(guān)聯(lián),比滑動窗口分析多了19.4%。這些結(jié)果都在向世人表明,STAAR pipeline是一個強(qiáng)大、資源高效且穩(wěn)健的非編碼罕見變異關(guān)聯(lián)分析工具,應(yīng)用于大規(guī)模全基因組數(shù)據(jù)和生物庫樣本庫數(shù)據(jù)。

回國之前,李子林還陸續(xù)構(gòu)建了首個全面的非編碼基因組分析框架,突破了全基因組測序數(shù)據(jù)罕見變異分析的運(yùn)算瓶頸;發(fā)展了全基因組測序數(shù)據(jù)罕見變異薈萃分析方法MetaSTAAR,突破了測序數(shù)據(jù)罕見變異匯總統(tǒng)計數(shù)據(jù)的存儲瓶頸,實現(xiàn)了隱私保護(hù)下多個大規(guī)模全基因組測序研究的整合分析。雖然取得了一定的成績,但他的目光卻隨著人生計劃的逐步推進(jìn)、回歸祖國而投向了更遠(yuǎn)方,即面向世界科技前沿、面向國家重大需求、面向人民生命健康,為廣大民眾的健康福祉作出貢獻(xiàn),在躬耕不輟的“春日”中,將熱愛的種子澆灌成花朵。

抱樸之心守秋實

眼下,雖然李子林加入東北師范大學(xué)僅有短短半年時間,但他已瞄準(zhǔn)“未來賽道”,積極與各大高校和醫(yī)院展開合作,旨在推廣應(yīng)用STAAR系列方法和工具分析中國人群的基因組大數(shù)據(jù),構(gòu)建疾病和復(fù)雜表型的遺傳圖譜。

“這是一個雙向增長的共贏過程。醫(yī)學(xué)研究人員僅需提供基因型和表型數(shù)據(jù),STAAR工具便能自動完成全基因組分析,得到匯總后和可視化的結(jié)果。而通過不斷更新的數(shù)據(jù),我們也能盡快盡好地了解國人基因結(jié)構(gòu),為以后的迭代更新打下基礎(chǔ)?!崩钭恿謴?qiáng)調(diào)。

有怎樣的眼界,就能看到怎樣的遠(yuǎn)方;有多大的胸襟,就能包容多大的世界。走在推廣路上,李子林從不吝嗇將STAAR系列的使用方法及配套技術(shù)廣泛播撒。“授人以魚不如授人以漁,對使用者來說,令人安心的‘售后’工作也是重要一環(huán),我一個人或者說我的團(tuán)隊力量終歸有限,因此不如沿途培養(yǎng),當(dāng)熟知的人足夠多、口碑建立得足夠穩(wěn)固,也就意味著產(chǎn)品本身的成功,我的工作才有價值。”他說。

時間尚短,路程尚遠(yuǎn),今天的李子林無法豪言通過統(tǒng)計學(xué)這根“金扁擔(dān)”挑起國民健康發(fā)展。但天長日久,其心仍堅,慢性病易感基因的識別工作仍在開展,“精準(zhǔn)健康”,即根據(jù)患者的遺傳特征制定個性化診療方案的探索仍在醞釀,眾多藍(lán)海藥物的新靶標(biāo)也正在完善……基因組大數(shù)據(jù)研究在未來疾病預(yù)防、診斷和治療方面發(fā)揮的關(guān)鍵作用毋庸置疑,而李子林相信,只要抱定一顆質(zhì)樸之心,終能收獲秋實。

評論
汨羅鎮(zhèn)徐志雄
少師級
已閱讀
2024-10-05
千至
少師級
時間尚短,路程尚遠(yuǎn),今天的李子林無法豪言通過統(tǒng)計學(xué)這根“金扁擔(dān)”挑起國民健康發(fā)展。
2024-10-03
科普ZSL
學(xué)士級
已閱讀
2024-09-30