*銘文、碑刻是過去文明的思想、文化和語言的體現(xiàn)。金石學家破譯千年前的密碼,需要完成文本修復、時間歸因和地域歸因三大任務。
主流的研究方式是「字符串匹配」,即憑借記憶或查詢語料庫匹配字型相似的銘文,這導致了結果的混淆和誤判。
為此,DeepMind 和威尼斯福斯卡里大學聯(lián)合開發(fā)了 Ithaca,利用 AI 幫助人類學者破譯希臘銘文。*
作者 | 加零
編輯 | 雪菜、三羊
金石學,是研究金石銘文、碑刻和古代銘文的學科,連接著過去文明的思想、文化和語言。目前,學界面臨著一個重要問題:如何深入研究和理解這些遺產(chǎn)?
通常意義上,解讀銘文碑刻需要金石學家完成以下 3 個基本任務:
文本修復 (text restoration):補充文本中缺失的部分;
時間歸因 (chronological attribution):確定銘文寫作的時間;
地域歸因 (geographical attribution):確定銘文寫作的初始地點。
完成這些任務,金石學家需要結合上下文和現(xiàn)有語料庫,開展大量比對研究。雖然數(shù)字語料庫的出現(xiàn)能一定程度減少研究人員的負擔,但其采取的字符串匹配方式,往往導致結果的混淆和誤判。同時由于年代久遠,銘文多有受損和遺失,使得任務愈發(fā)復雜。
銘文修復圖示
而 AI 善于發(fā)現(xiàn)并運用復雜的統(tǒng)計模式,對人難以處理的大批量數(shù)據(jù)進行分析。因此,DeepMind 和威尼斯福斯卡里大學 (Ca’ Foscari University of Venice) 的研究者聯(lián)合開發(fā)了 Ithaca,旨在協(xié)助金石學家進行文本修復、時間歸因和地域歸因的工作。
實驗證實,Ithaca 文本修復工作的準確率達到 62%,時間歸因誤差在 30 年內,地域歸因準確率達到 71%,且具有很好的協(xié)同性。相關論文已發(fā)表于「Nature」。
相關成果發(fā)表在「Nature」
獲取論文:
https://www.nature.com/articles/s41586-022-04448-z
Ithaca 的相關代碼已開源在 GitHub 平臺,金石學家也可利用公共界面開展研究。
源代碼:https://github.com/deepmind/Ithaca
公共界面:https://ithaca.deepmind.com/
實驗過程
數(shù)據(jù)集:機器可操作銘文集 I.PHI
研究者們基于帕卡德人文研究所的可搜索希臘銘文公共數(shù)據(jù)集 PHI 開展研究。
注:PHI 全稱 The Packard Humanities Institute’s Searchable Greek Inscriptions public dataset
為了便于機器操作,研究者們對 PHI 中的文本進行過濾,為選擇的文本分配數(shù)字 ID、相應的標注地點和時間信息,最終得到 I.PHI 數(shù)據(jù)集。
I.PHI 數(shù)據(jù)集是目前最大的機器可操作銘文數(shù)據(jù)集,包含 78,608 個銘文。
I.PHI 數(shù)據(jù)集示例
算法訓練:針對 3 大任務開展訓練
文本修復:采用交叉熵損失函數(shù),掩蓋輸入文本的部分內容,訓練 Ithaca 模型預測被掩蓋的字符;
時間歸因:以 10 年為間隔,Ithaca 將公元前后 800 年離散為具有相等概率的時間段,稱為目標概率分布。采用 Kullback-Leibler 散度,最小化預測概率分布和目標概率分布之間的差異;
地域歸因:使用交叉熵損失函數(shù),將地域區(qū)域元數(shù)據(jù)作為目標標簽,應用平滑系數(shù) 10% 的標簽平滑技術避免過擬合。
基于此,Ithaca 在谷歌云平臺上的 128 個 TPU v4 pod 上開展了一周的訓練,batch size 為 8,192 篇文本,使用 LAMB 優(yōu)化器以 3 × 10-4 的學習率優(yōu)化 Ithaca 參數(shù)。
模型結構:Ithaca 模型包括 4 部分
Ithaca 模型任務處理流程
Ithaca 模型的結構可總結為以下 4 部分:
1. 輸入 (Inputs):將輸入文本作為字符和單詞共同處理,保證 Ithaca 既可以理解單個字符,又可以將其整合為單詞進行上下文理解,未知、損壞的單詞用特殊符號「unk」替代;
2. 軀干 (Torso):Ithaca 的軀干采用疊加 Transformer 神經(jīng)網(wǎng)絡架構,它使用一種注意力機制 (attention mechanism) 來衡量輸入的字符、單詞對模型決策過程的影響。
在軀干部分,Ithaca 將輸入文本與位置信息結合,標準化處理為一個長度等于輸入字符數(shù)的序列,這個序列中每個項目是一個 2,048 維的嵌入向量。該序列被傳輸給 3 個不同的任務 head;
3. 任務頭(Task heads):Ithaca 有 3 個不同的任務 head,每個 head 由一個淺前饋神經(jīng)網(wǎng)絡組成,專門處理文本修復、時間歸因和地域歸因任務。
4. 輸出(Outputs):3 個任務 head 分別輸出對應結果。
Ithaca 輸出結果
文本修復:Ithaca 預測了 3 個缺失的字符,同時提供了一套按概率排序的前 20 名解碼預測 (上圖 a);
地域歸因:Ithaca 把輸入的文字分為 84 個地區(qū),并用地圖和柱狀圖直觀地實現(xiàn)可能的地區(qū)預測排名表 (上圖 b);
時間歸因:為擴大時間歸因任務的可解釋性,Ithaca 追溯到公元前 800 年到公元 800 年,預測了日期的分類分布,而不是輸出一個單一的日期值 (上圖 c)。
模型訓練結果
綜合比對:Ithaca 具有優(yōu)越的性能
* 4 個對比機制
Ancient historian:人類學者使用訓練集來尋找文本的相似之處,與 Ithaca 的結果對比;
Ancient historian and Ithaca:Ithaca 為金石學家提供 20 個可能的修復,評估 Ithaca 與人類學者的協(xié)同性;
Pythia:一個用于文本修復任務的序列到序列遞歸神經(jīng)網(wǎng)絡 (a sequence-to-sequence recurrent neural network),評價 Ithaca 的文本修復性能;
Onomastics:研究人員使用希臘人名在時間和空間上的已知分布,完成一組文本的時間和地域歸因,評價 Ithaca 的時間和地域歸因性能。
* 3 大評價指標
字符錯誤率 (CER, character error rate):評價文本修復任務,計算最高預測修復序列和目標序列之間的歸一化差異;
top-k accuracy:評價文本修復或地域歸因任務,計算預測結果中概率最大的前 k 個結果包含正確標簽的占比,常用 top 1 準確率;
distance metric (Methods):評價時間歸因任務,計算預測分布的平均值與真值區(qū)間 (ground-truth interval) 之間的年數(shù)距離。
* 實驗結果
文本修復
文本修復任務
a:原始銘文;
b:Rhodes-Osborne 修復后的銘文;
c:Pythia 修復版,與 Rhodes-Osborne 版有 74 處不匹配;
d:Ithaca 修復版,與 Rhodes-Osborne 版有 45 處不匹配;
圖中修復正確的部分由綠色表示,錯誤用紅色突出表示。
原始銘文 (IG II2 116) 缺失 378 個字符,以 Rhodes-Osborne 在 2003 年完成的修復 (圖 b) 為基準,Ithaca 的 CER 為 26.3%,top 1 準確率達到 61.8%。
與金石學家相比,Ithaca 的 CER 低 2.2 倍。Ithaca 的前 20 名預測準確率為78.3%,比 Pythia 高 1.5 倍。
2. 地域歸因
地域歸因任務
地域歸因任務中,Ithaca 達到了 70.8% 的 top 1 準確率和 82.1% 的 top 3 準確率。上圖表示 Ithaca 將 manumission 銘文正確的歸因到了 Delphi 地區(qū)。
3. 時間歸因
時間歸因任務
對于時間歸因任務,人類專家預測的平均值為 144.4,中位數(shù)為 94.5 年,而 Ithaca 的預測與真值區(qū)間 (ground-truth interval) 平均差距為 29.3 年,中位數(shù)的差距僅為 3 年。
綜合 Ithaca 在三項任務中的表現(xiàn),結果整理如下:
相較于人類專家和 Pythia,Ithaca 在 3 大任務上都展現(xiàn)了優(yōu)越的性能。
當人類專家與 Ithaca 協(xié)同時,達到了 18.3% 的 CER 和 71.7% 的 top 1 準確率,相比金石學家單獨開展工作呈現(xiàn)出 3.2 倍和 2.8 倍的改善,相比 Ithaca 獨自完成任務也有顯著改善,展現(xiàn)了 Ithaca 優(yōu)越的協(xié)同性。
Ithaca 的實驗結果對比
時間歸因:Ithaca 解決爭議問題
部分銘文的時間歸因一直存在爭議,傳統(tǒng)時間歸因采用的 sigma 測年標準 (sigma dating criterion) 無法保證準確,金石學家無法確定這些銘文是在公元前 446/5 年之前還是之后。
如下圖的銘文,依照傳統(tǒng)方法追溯到公元前 446/5 年,但最近被重新追溯到公元前 424/3 年。
一條爭議銘文(局部)
這組有爭議的銘文存在于 I.PHI 數(shù)據(jù)集中,Ithaca 的時間歸因結果推翻了基于 sigma 測年標準的傳統(tǒng)歷史解讀,與新發(fā)現(xiàn)的基礎事實平均相差 5 年。
由此證明,Ithaca 可以幫助歷史學家縮小日期范圍,提高歷史事件時間歸因的精確度。
AI 與人類:1 + 1 > 2 ?
Ithaca 的結果輸出部分非常有趣,它并不會輸出單一的答案,而是給出多種可能的結果以供研究人員選擇。
這值得其他 AI 開發(fā)者和使用者借鑒,與其依賴 AI 的輸出,不如利用 AI「探路」,排除一些錯誤答案,拓展自主思考的深度和廣度。
將 AI 的計算能力與人類的創(chuàng)造性和深度思考相結合,Ithaca 幫助我們開拓了一種與 AI 攜手合作的范式。
未來,我們期待 AI 與人類學者協(xié)同并進,實現(xiàn)「1+1 > 2」的目標。
參考文獻:
https://www.nature.com/articles/s41586-022-04448-z
https://www.nature.com/articles/d41586-023-03212-1
—— 完 ——