科技部監(jiān)督司發(fā)布《負(fù)責(zé)任研究行為規(guī)范指引(2023)》,針對(duì)社會(huì)關(guān)注的人工智能、重大成果發(fā)布等熱點(diǎn)問(wèn)題,旗幟鮮明地劃定了紅線。
篡改實(shí)驗(yàn)數(shù)據(jù)、實(shí)驗(yàn)圖片造假、論文不當(dāng)署名、教材編寫抄襲……1 月 16 日下午,華中農(nóng)業(yè)大學(xué)的 11 名學(xué)生「一紙?jiān)V狀」,以一份 125 頁(yè)的舉報(bào)材料實(shí)名舉報(bào)該校黃姓教授存在學(xué)術(shù)不端行為。一時(shí)間,輿論迅速發(fā)酵,「賭上前程捍衛(wèi)學(xué)術(shù)清白」、「人人都是學(xué)術(shù)造假受害者」等相關(guān)內(nèi)容在各大平臺(tái)引發(fā)熱烈討論。
有網(wǎng)友由此聯(lián)想到了此前的阿爾茲海默癥開山論文造假事件,這篇被引用 2300 余次的 Nature 論文誤導(dǎo)了全球阿爾茨海默病研究長(zhǎng)達(dá) 16 年。
心無(wú)旁騖求是真,藝不精深未可言。過(guò)去的百余年間,學(xué)術(shù)清正之風(fēng)、造福人類的崇高信仰,是指引莘莘學(xué)子在科研道路上步履不停的明燈,但如今卻摻雜了越來(lái)越多的名利誘惑,致使學(xué)術(shù)造假屢禁不止。尤其是在 AI、大模型等技術(shù)的快速發(fā)展之下,新興技術(shù)卻成為了科研作弊的「幫兇」,不僅對(duì)堅(jiān)持研學(xué)的科研人員不公,虛假研究數(shù)據(jù)還可能造成嚴(yán)重后果。
所以,在嚴(yán)查學(xué)術(shù)造假的同時(shí),規(guī)范 AI 等技術(shù)在科研中的應(yīng)用也十分重要。
劃清邊界,依規(guī)合理使用生成式人工智能
學(xué)術(shù)論文造假由來(lái)已久,除了抄襲,編造數(shù)據(jù)等常規(guī)手段,花錢請(qǐng)寫手、 「論文工廠」代寫、炮制論文等行為也是屢見不鮮。
如今,以 ChatGPT 為代表的生成式人工智能技術(shù) (AIGC) 橫空出世,人們寫論文提供了新幫手。從選題篩選到文稿潤(rùn)色、從統(tǒng)計(jì)分析到圖表制作……其功能之強(qiáng)大,幾乎覆蓋了學(xué)術(shù)論文寫作過(guò)程的方方面面,的確可以幫助科研人員快速完成文獻(xiàn)檢索、數(shù)據(jù)處理、翻譯潤(rùn)色等工作。
但凡事都有雙面性,如果研究人員將 AIGC 生成的文本當(dāng)作自己的創(chuàng)作,很大程度上會(huì)產(chǎn)生毫無(wú)價(jià)值的「學(xué)術(shù)泡沫」。此外,過(guò)度依賴 AIGC 產(chǎn)生不可靠的研究成果,將導(dǎo)致科學(xué)研究的可信度大打折扣。
2023 年 12 月 21 日,**科技部監(jiān)督司發(fā)布《負(fù)責(zé)任研究行為規(guī)范指引(2023)》(以下簡(jiǎn)稱《指引》),**針對(duì)社會(huì)關(guān)注的人工智能、重大成果發(fā)布等熱點(diǎn)問(wèn)題,旗幟鮮明地劃定了紅線。
《指引》在研究選題與實(shí)施部分指出:科研人員研究項(xiàng)目的申報(bào)材料應(yīng)真實(shí)、準(zhǔn)確、客觀。不得使用相同或相似研究?jī)?nèi)容重復(fù)申報(bào),未經(jīng)同意不得將他人列為研究團(tuán)隊(duì)成員。不得抄襲、買賣、代寫申報(bào)材料,不得使用生成式人工智能直接生成申報(bào)材料。
應(yīng)遵循相關(guān)法律法規(guī)及學(xué)術(shù)規(guī)范,依規(guī)合理使用生成式人工智能處理文字、數(shù)據(jù)或?qū)W術(shù)圖像,防范偽造、篡改數(shù)據(jù)等風(fēng)險(xiǎn)。
在文獻(xiàn)引用上,《指引》也明確規(guī)定了:使用生成式人工智能生成的內(nèi)容,特別是涉及事實(shí)和觀點(diǎn)等關(guān)鍵內(nèi)容的,應(yīng)明確標(biāo)注并說(shuō)明其生成過(guò)程,確保真實(shí)準(zhǔn)確和尊重他人知識(shí)產(chǎn)權(quán)。對(duì)其他作者已標(biāo)注為人工智能生成內(nèi)容的,一般不應(yīng)作為原始文獻(xiàn)引用,確需引用的應(yīng)加以說(shuō)明。不得直接使用未經(jīng)核實(shí)的由生成式人工智能生成的參考文獻(xiàn)。
《指引》從研究實(shí)施、數(shù)據(jù)管理、成果署名與發(fā)表、文獻(xiàn)引用等方面明確了合理使用生成式人工智能的邊界,對(duì)于保護(hù)科學(xué)研究的可信度和倫理原則具有重要意義,有助于防止不負(fù)責(zé)任地使用生成式 AI 及相關(guān)技術(shù)。
國(guó)內(nèi)外知名期刊對(duì) AI 生成論文進(jìn)行規(guī)范
學(xué)術(shù)論文造假是一個(gè)全球性的問(wèn)題,生成式 AI 的出現(xiàn)在一定程度上降低了造假門檻,ChatGPT 等聊天機(jī)器人「一本正經(jīng)說(shuō)瞎話且能自圓其說(shuō)」的能力更是為這些人提供了便利。但隨著 AIGC 的使用邊界不斷清晰,除了明確法規(guī)規(guī)范外,國(guó)內(nèi)外也有越來(lái)越多的學(xué)術(shù)機(jī)構(gòu)已經(jīng)達(dá)成共識(shí),開始正視并規(guī)范 AI 的使用。
國(guó)內(nèi)多家期刊發(fā)表聲明,對(duì)投稿人在論文寫作過(guò)程中的各種 AI 使用途徑加以限制。如《暨南學(xué)報(bào)》《文獻(xiàn)與數(shù)據(jù)學(xué)報(bào)》《中國(guó)科技期刊研究》《智庫(kù)理論與實(shí)踐》《圖書情報(bào)工作》等期刊均發(fā)表聲明稱,如果論文主要內(nèi)容是利用 AI 工具生成,一旦發(fā)現(xiàn),以學(xué)術(shù)不端行為處理。
國(guó)外學(xué)術(shù)期刊也紛紛對(duì) AI 在論文寫作中的應(yīng)用進(jìn)行規(guī)范。據(jù)不完全統(tǒng)計(jì),Nature(自然)、Cell(細(xì)胞)、The Lancet(柳葉刀)、JAMA(美國(guó)醫(yī)學(xué)會(huì)雜志)等頂級(jí)期刊均發(fā)表聲明稱,人工智能不具有作者資格,使用人工智能的研究人員應(yīng)在稿件中進(jìn)行說(shuō)明。
用 AI 打敗 AI ,揪出論文「槍手」
推動(dòng) AI 向善發(fā)展,需要借助行之有效的技術(shù)手段。值得注意的是,在當(dāng)前的技術(shù)水平下,AI 生成的論文在形式上與原創(chuàng)論文相似,傳統(tǒng)的文本相似度比對(duì)工具可能無(wú)法準(zhǔn)確檢測(cè)出它們。因此,國(guó)內(nèi)外都在探索研發(fā)專門針對(duì) AIGC 的檢測(cè)工具。
「AI 生成內(nèi)容識(shí)別器的核心思想是首先構(gòu)建一個(gè)訓(xùn)練數(shù)據(jù)集,包含真實(shí)的內(nèi)容和 AI 生成的內(nèi)容,然后訓(xùn)練一個(gè)分類器來(lái)區(qū)別這兩類內(nèi)容?!筂ILA 研究院知名華人學(xué)者唐建在接受媒體采訪時(shí)解釋道。
具體而言,人工智能語(yǔ)言模型通過(guò)一次預(yù)測(cè)和生成一個(gè)單詞來(lái)工作。生成一個(gè)詞后,水印算法將語(yǔ)言模型的詞匯隨機(jī)分為「綠名單」和「紅名單」,然后提示模型選擇「綠名單」上的詞。一篇文章中列入「綠名單」的詞越多,該文本就越有可能是由機(jī)器生成的,人類寫的文本往往包含更隨機(jī)的單詞組合。
簡(jiǎn)單來(lái)說(shuō),AIGC 檢測(cè)技術(shù)是在「用 AI 打敗 AI 」,依托海量的文本和數(shù)據(jù)樣本,識(shí)別出人類和 AIGC 工具在平均句子長(zhǎng)度、詞匯多樣性和文本長(zhǎng)度等方面的不同點(diǎn),從而揪出 AI 論文「槍手」。
但這背后存在一些技術(shù)難點(diǎn),比如語(yǔ)言模型經(jīng)過(guò)人類創(chuàng)作文本訓(xùn)練,參數(shù)量越大,越接近人類創(chuàng)作,越難以區(qū)分;另外,檢測(cè)還受限于文本長(zhǎng)度,文本長(zhǎng)度足夠長(zhǎng),檢測(cè)的準(zhǔn)確率才有保障。
科研中合理使用 AI,不可因噎廢食
AI for Science 的成功應(yīng)用,在一定程度上將科研人員從文本、數(shù)據(jù)的處理工作中「解救」出來(lái),使其能夠更加專注于研究本身,可以在一定程度上提升效率,加快科學(xué)研究的進(jìn)度。此外,在完成一些深度、復(fù)雜科研內(nèi)容的探索上,人工智能也毫不遜色。
比如近年來(lái)醫(yī)學(xué)研究領(lǐng)域備受重視的預(yù)測(cè)模型,讓有些科研新人抓耳撓腮。而 AI 可以逐步建立思路和方法,幫助科研人員快速構(gòu)建一個(gè)合格的模型。
再比如,在實(shí)驗(yàn)設(shè)計(jì)與優(yōu)化方面,只需簡(jiǎn)單提供實(shí)驗(yàn)?zāi)康?、方法和材料等信息,AI 便可生成詳細(xì)的實(shí)驗(yàn)方案,幫助科研人員對(duì)已有的方案進(jìn)行評(píng)估優(yōu)化,減少實(shí)驗(yàn)消耗。
總之,對(duì)生成式人工智能不可「談虎色變」,而要加以規(guī)范和引導(dǎo),讓它沿著正確的軌道為科學(xué)研究服務(wù)。對(duì)于科研人員而言,要善用 AI 技術(shù),借助它的優(yōu)勢(shì)高效、準(zhǔn)確地完成科研和論文的撰寫,但所有的觀點(diǎn)和數(shù)據(jù),必須要經(jīng)過(guò)作者的審查,避免生成式 AI 的一些虛假和杜撰的結(jié)論,以維護(hù)科學(xué)的尊嚴(yán)。
其實(shí)這也恰恰是 AI for Science 的初衷,利用 AI 實(shí)現(xiàn)對(duì)傳統(tǒng)科研范式的重塑與創(chuàng)新。如今 AI for Science 已經(jīng)在生物醫(yī)藥、材料化學(xué)、數(shù)學(xué)、物理等眾多領(lǐng)域完成了升級(jí),并且創(chuàng)造了一批具有實(shí)際應(yīng)用價(jià)值的重要成果。但是,很多科研人員仍持觀望態(tài)度,一方面是所在領(lǐng)域可能缺乏低門檻的 AI 工具,另一方面也可能是尚未找到 AI 與其研究領(lǐng)域的結(jié)合點(diǎn)。
AI for Science 的探索之旅才剛剛啟程,唯有科研與 AI 攜手并進(jìn),才能創(chuàng)造出更普適的工具與方法。