人類馴化植物的進程,正因AI(人工智能)技術(shù)的應(yīng)用而加速。
近日,在AI的幫助下,中國棉花育種專家成功找到控制棉花纖維長度的基因,這對棉花品種改良提供了新思路,也為育種家培育“超級作物”按下加速鍵?!?/p>
相關(guān)論文發(fā)表在國際頂級期刊《細胞研究》(Cell Research)上,潮新聞專訪了成果研發(fā)團隊之一的湖畔實驗室(阿里巴巴達摩院)智慧育種團隊負責人顧斐。
AI為育種按下“加速鍵”
在傳統(tǒng)的育種中,改良一個品種,可能需要及幾年甚至幾十年的時間。但現(xiàn)在通過AI,育種有可能將周期縮短到三年甚至更短的時間。
AI如何幫助育種?顧斐向記者介紹,基因是存在于生命體細胞核中的DNA片段,植物的高低、顏色等性狀表型受到基因的調(diào)控,就像正常情況下,男女對應(yīng)的性染色體分別是XY和XX 。而AI可以對基因進行分析,將基因型和表型建立關(guān)聯(lián),弄清楚每一個關(guān)鍵基因所控制的表型,從而將優(yōu)異性狀的基因聚合到一起,形成理想株型。
全流程智慧育種平臺 圖源:湖畔實驗室
“AI做的事情就是盡量收集成對的基因組,當有足夠多的數(shù)據(jù)‘喂養(yǎng)’,AI就能根據(jù)基因序列,直接預(yù)測種子未來可能長成什么樣,數(shù)據(jù)越多準確性越高?!鳖欖辰忉尩?。
如果說,過去育種家們是“看見之后再選擇”,那么現(xiàn)在就可以通過AI“先預(yù)測再驗證”。
顧斐表示,在傳統(tǒng)育種上,種子需要靠種植出來,才能知道種子的產(chǎn)量、抗倒伏能力強弱等表現(xiàn),這樣時間周期長且田間試驗涉及的人力、物力成本高?!叭绻鸄I準確率能達到90%,那么意味著,傳統(tǒng)育種10年才能完成的,有可能一年就能完成?!鳖欖痴f道。
AI算法解決育種需求
解碼海量的遺傳信息,了解每個位點的作用是育種家們一直頭疼的問題。
甚至,最近育種家們發(fā)現(xiàn),不僅DNA本身是重要的遺傳信息,DNA甲基化的作用也不容忽視。想象一下,DNA就像一本寫滿生命信息的書,DNA甲基化就像是貼在某頁上的標簽,這些標簽到底會對作物的表型和遺傳產(chǎn)生什么作用?。
群體單堿基DNA甲基化多態(tài)性的精準鑒定、調(diào)控網(wǎng)絡(luò)解析與預(yù)測模型構(gòu)建 圖源:湖畔實驗室
本次研究中,聯(lián)合科研團隊以棉花為主要研究對象,利用AI對棉花基因進行分析,發(fā)現(xiàn)DNA甲基化會影響棉花產(chǎn)量、纖維品質(zhì)等農(nóng)藝性狀,同時找到了這些被“貼便簽”的基因的位置,并畫出了“地圖”——即構(gòu)建了涵蓋207個品種的棉花全基因組DNA甲基化圖譜,鑒定2.87億個單甲基化多態(tài)性(SMP)位點,規(guī)模為目前所有作物之最。
此前,科學(xué)界已經(jīng)知道DNA甲基化對植物基因表達有影響,但無法確認植物的生長表現(xiàn)是如何受到DNA甲基化控制。
顧斐表示,在此次研究中,正式證明了DNA甲基化也參與控制植物的性狀,并發(fā)現(xiàn)與DNA甲基化相關(guān)的43個有可能影響棉花纖維生長的基因,其中一個基因已經(jīng)被證實有調(diào)控棉花纖維長度的作用。
顧斐告訴記者,此次研究是采用了生物大數(shù)據(jù)和AI技術(shù)的融合,團隊將收集了207個品種的棉花多組學(xué)數(shù)據(jù)輸入到算法模型中,從而得到棉花全基因組DNA甲基化圖譜?!跋啾绕饌鹘y(tǒng)方法,分析計算速度提升近100倍,有助于開展基因數(shù)據(jù)分析?!眻F隊還自主研發(fā)了深度學(xué)習模型DeepFDML,可以自動找出更多DNA甲基化的位點。
AI讓育種有更多可能
“AI的使用,是作物優(yōu)良基因挖掘方法的突破,也代表未來發(fā)展的方向?!痹缭?021年,顧斐團隊就開始大膽嘗試AI育種。
在研究方面,顧斐坦承,訓(xùn)練深度學(xué)習模型需要大量的數(shù)據(jù)。然而在農(nóng)業(yè)領(lǐng)域,作物的基因型和表型數(shù)據(jù)量卻積累不足。在幾年前,AI算法技術(shù)的成熟度也遠不及現(xiàn)在,對于當時的團隊而言,都是不小的問題。
“盡管面臨著重重挑戰(zhàn),但哪怕只能達到60%的準確率,也能在一定程度上減輕育種家的成本負擔。只要能為育種家?guī)韺嵸|(zhì)性的幫助,我們就會堅持到底?!?/p>
顧斐所在的湖畔實驗室智慧育種團隊主要由人工智能、農(nóng)業(yè)育種、計算分析等領(lǐng)域?qū)<覙?gòu)成。他介紹,這是一個跨領(lǐng)域的科學(xué)合作組,旨在通過智慧育種加快育種速度。目前,顧斐等人已經(jīng)在國際期刊上,主導(dǎo)發(fā)表文章十幾篇,更多科學(xué)探索正在推進中。
他還表示,接下來,團隊將致力于提升AI算法的精確度,并深化與其他科研機構(gòu)的合作,“比如,針對棉花育種,團隊將與浙江大學(xué)的專家團隊緊密協(xié)作;在大豆育種領(lǐng)域,則將攜手湘湖實驗室、黑龍江農(nóng)業(yè)科學(xué)院等權(quán)威機構(gòu),” 顧斐說,希望通過這些精準的對接合作,能夠真正加速育種進程,推動農(nóng)業(yè)科技的進步與發(fā)展。
全流程智慧育種平臺主要模塊 圖源:湖畔實驗室
從讀懂生命開始,科學(xué)家們可以進一步著手去賦能人們的美好生活。今年3月,顧斐所在的湖畔實驗室也與中國農(nóng)業(yè)科學(xué)院合作發(fā)布了全流程智慧育種平臺,這是為育種家們提供包含育種數(shù)據(jù)管理和分析、計算加速、AI預(yù)測的“中央廚房”。
也許在不遙遠的未來,通過AI能夠發(fā)現(xiàn)更多植物基因組的秘密,助力育種家們快速育種。而當下的科學(xué)家,正在為這樣的夢想鋪下臺階。