一级黄色影片,精品在线播放

前言

訓(xùn)練數(shù)據(jù)的質(zhì)量?jī)?yōu)劣，直接影響人工智能（AI）大模型的能力水平。

當(dāng)前，盡管大模型在文本/圖像/視頻等內(nèi)容生成和理解等領(lǐng)域不斷取得新突破，但由于數(shù)據(jù)來(lái)源的透明性不足，虛假信息泛濫和幻覺(jué)問(wèn)題依然存在。

這可能會(huì)導(dǎo)致大模型性能下降，出現(xiàn)數(shù)據(jù)偏差、隱含偏差或行為失真等現(xiàn)象，還可能引發(fā)版權(quán)糾紛等法律問(wèn)題。

近日，來(lái)自麻省理工學(xué)院（MIT）研究團(tuán)隊(duì)及其合作者在提高大模型準(zhǔn)確性、減少偏差方面取得了新進(jìn)展——

他們開(kāi)發(fā)了一種名為 “Data Provenance Explorer” 的結(jié)構(gòu)化審查工具，其通過(guò)自動(dòng)生成詳細(xì)的數(shù)據(jù)來(lái)源卡片，幫助 AI 從業(yè)者選擇更適合其大模型的訓(xùn)練數(shù)據(jù)。

他們對(duì) 1800 多個(gè)文本數(shù)據(jù)集進(jìn)行了系統(tǒng)審查，發(fā)現(xiàn)約 70% 的數(shù)據(jù)集缺乏必要的許可信息，50% 的數(shù)據(jù)集包含錯(cuò)誤信息。

通過(guò)使用這一工具，他們將無(wú)法驗(yàn)證的信息從 72% 降至 30%，明顯降低了數(shù)據(jù)的偏差，有效提高了數(shù)據(jù)的可追溯性和透明度。

相關(guān)研究論文以 “A large-scale audit of dataset licensing and attribution in AI” 為題，已發(fā)表在科學(xué)期刊 Nature Machine Intelligence 上。

該研究為大模型的訓(xùn)練提供了更可靠的數(shù)據(jù)基礎(chǔ)，在推動(dòng) AI 領(lǐng)域的法律和倫理研究方面邁出了關(guān)鍵一步。

從72%降至30%，解決未指定許可問(wèn)題

大模型的訓(xùn)練高度依賴于多樣化的數(shù)據(jù)集，這些數(shù)據(jù)集通常來(lái)源不同，在組合使用的過(guò)程中有關(guān)其來(lái)源和使用限制的重要信息往往會(huì)丟失或被混淆。

例如，在創(chuàng)建 ImageNet 數(shù)據(jù)集時(shí)，就通過(guò) Mechanical Turk 雇用了工人，并要求他們?cè)趯D像與概念進(jìn)行匹配時(shí)使用維基百科頁(yè)面作為參考，而從各種網(wǎng)絡(luò)資源中抓取的數(shù)據(jù)集，很難追溯其組成部分的來(lái)源。

該論文的通訊作者 Robert Mahari 表示，“要了解 AI 模型的能力和局限性，最好的方法之一就是了解它是基于什么數(shù)據(jù)訓(xùn)練的。如果數(shù)據(jù)來(lái)源出現(xiàn)錯(cuò)誤歸屬和混淆，就會(huì)產(chǎn)生嚴(yán)重的透明度問(wèn)題?！?/p>

為此，研究人員將數(shù)據(jù)來(lái)源定義為數(shù)據(jù)集的來(lái)源、創(chuàng)建和許可遺產(chǎn)（ licensing heritage）以及其特征的組合，并開(kāi)發(fā)了 Data Provenance Explorer，其工作原理是利用算法自動(dòng)生成詳細(xì)的數(shù)據(jù)來(lái)源卡片，涵蓋來(lái)源、許可信息以及潛在的偏差風(fēng)險(xiǎn)，從而幫助 AI 從業(yè)者在訓(xùn)練模型時(shí)做出更為明智的決策。核心功能包括：

信息審查：涵蓋標(biāo)識(shí)符信息，連接多個(gè)聚合器（如 Hugging Face、GitHub、Papers with Code等）的元數(shù)據(jù)，并提供詳細(xì)的數(shù)據(jù)集特征和來(lái)源信息。

擴(kuò)展來(lái)源元數(shù)據(jù)：包括許可證、數(shù)據(jù)源、創(chuàng)作者身份等，考慮了法律和倫理風(fēng)險(xiǎn)參數(shù)，如許可證的沿襲、數(shù)據(jù)源、創(chuàng)作者身份和其他開(kāi)發(fā)者采用的優(yōu)先級(jí)。

工具發(fā)布：提供了數(shù)據(jù)探索界面和數(shù)據(jù)存儲(chǔ)庫(kù)，支持用戶下載按許可證條件過(guò)濾后的數(shù)據(jù)，并生成人類可讀的數(shù)據(jù)來(lái)源卡片。

他們對(duì) 1800 多個(gè)文本數(shù)據(jù)集進(jìn)行了系統(tǒng)審查，發(fā)現(xiàn)大多數(shù)數(shù)據(jù)集在許可信息方面存在嚴(yán)重不足。具體表現(xiàn)為：

許可信息缺失：在 GitHub、Hugging Face 和 Papers with Code 等平臺(tái)上，分別有 72%、69% 和 70% 的數(shù)據(jù)集沒(méi)有指定明確的許可證，導(dǎo)致開(kāi)發(fā)者在使用時(shí)面臨法律風(fēng)險(xiǎn)。

許可證標(biāo)注不一致：很多數(shù)據(jù)集的許可證標(biāo)注存在問(wèn)題，平臺(tái)標(biāo)注和作者標(biāo)注往往不一致，增加了使用者的困惑。

許可證種類繁多：不同數(shù)據(jù)集使用了各類許可證，如 CC-BY-SA 4.0、OpenAI Terms of Use 等，還有大量自定義許可證，這為小型企業(yè)和資源有限的組織帶來(lái)了挑戰(zhàn)。

為解決大量信息的“未指定”許可的問(wèn)題，研究人員使用 Data Provenance Explorer 將未指定許可證的數(shù)據(jù)比例從 72% 降低至 30%，顯著提高了數(shù)據(jù)的可追溯性和透明度。

另外，他們還觀察到，大部分?jǐn)?shù)據(jù)集都集中在北半球，而不同地區(qū)受文化等因素影響，產(chǎn)生的數(shù)據(jù)集應(yīng)用在不同地方可能會(huì)限制其性能。

總之，通過(guò)減少訓(xùn)練數(shù)據(jù)透明性不足導(dǎo)致的模型偏差，Data Provenance Explorer 有助于提高 AI 模型在實(shí)際應(yīng)用中的準(zhǔn)確性和公正性，增強(qiáng)模型在多樣化任務(wù)中的適應(yīng)性。

然而，這一研究也存在一定的局限性。例如，該工具目前主要適用于文本數(shù)據(jù)集，而對(duì)多模態(tài)數(shù)據(jù)（如視頻、語(yǔ)音等）的支持仍有待加強(qiáng)。未來(lái)，研究人員希望擴(kuò)大他們的分析，調(diào)查多模態(tài)數(shù)據(jù)的數(shù)據(jù)來(lái)源，并研究作為數(shù)據(jù)源的網(wǎng)站的服務(wù)條款如何在數(shù)據(jù)集中產(chǎn)生影響。

提高合規(guī)性與安全性

隨著 AI 技術(shù)的突破性發(fā)展，確保數(shù)據(jù)集的透明性與合規(guī)性尤為重要。

例如，在醫(yī)療 AI 領(lǐng)域，一些醫(yī)療影像診斷 AI 系統(tǒng)在訓(xùn)練過(guò)程中使用了大量的患者影像數(shù)據(jù)，為確保數(shù)據(jù)的合法使用和患者隱私保護(hù)，必須對(duì)數(shù)據(jù)采取明確數(shù)據(jù)來(lái)源、獲得患者知情同意、對(duì)數(shù)據(jù)進(jìn)行匿名化處理等措施。

?在 AI 倫理和法規(guī)領(lǐng)域，一些大語(yǔ)言模型在訓(xùn)練過(guò)程中可能會(huì)接觸到大量的個(gè)人文本數(shù)據(jù)，如電子郵件、社交媒體帖子等。為了保護(hù)用戶隱私，必須采用區(qū)塊鏈、差分隱私等技術(shù)來(lái)增強(qiáng)數(shù)據(jù)安全性。

近年來(lái)，各國(guó)政府也在加強(qiáng)對(duì) AI 數(shù)據(jù)使用的監(jiān)管，出臺(tái)了一系列法規(guī)和政策，要求企業(yè)在收集、使用和存儲(chǔ)數(shù)據(jù)時(shí)必須遵守嚴(yán)格的隱私保護(hù)原則。

Gartner 預(yù)測(cè)，到 2026 年，采用 AI TRiSM（AI 信任、風(fēng)險(xiǎn)、安全管理）控制措施的企業(yè)將通過(guò)篩除多達(dá) 80% 的錯(cuò)誤和非法信息來(lái)提高決策的準(zhǔn)確性。

在這項(xiàng)工作中，研究團(tuán)隊(duì)也與監(jiān)管機(jī)構(gòu)接觸，討論他們的發(fā)現(xiàn)以及微調(diào)數(shù)據(jù)對(duì)版權(quán)的獨(dú)特影響，從而全面提高 AI 大模型的合規(guī)性與安全性。

利好AI大模型，對(duì)“不合適”訓(xùn)練數(shù)據(jù)說(shuō)NO！

利好AI大模型，對(duì)“不合適”訓(xùn)練數(shù)據(jù)說(shuō)NO！