三级全黄的视频在线观看 ,国产真实夫妇交换视频

*銘文、碑刻是過去文明的思想、文化和語言的體現(xiàn)。金石學家破譯千年前的密碼，需要完成文本修復、時間歸因和地域歸因三大任務。

主流的研究方式是「字符串匹配」，即憑借記憶或查詢語料庫匹配字型相似的銘文，這導致了結果的混淆和誤判。

為此，DeepMind 和威尼斯福斯卡里大學聯(lián)合開發(fā)了 Ithaca，利用 AI 幫助人類學者破譯希臘銘文。*

作者 | 加零

編輯 | 雪菜、三羊

金石學，是研究金石銘文、碑刻和古代銘文的學科，連接著過去文明的思想、文化和語言。目前，學界面臨著一個重要問題：如何深入研究和理解這些遺產(chǎn)？

通常意義上，解讀銘文碑刻需要金石學家完成以下 3 個基本任務：

文本修復 (text restoration)：補充文本中缺失的部分；

時間歸因 (chronological attribution)：確定銘文寫作的時間；

地域歸因 (geographical attribution)：確定銘文寫作的初始地點。

完成這些任務，金石學家需要結合上下文和現(xiàn)有語料庫，開展大量比對研究。雖然數(shù)字語料庫的出現(xiàn)能一定程度減少研究人員的負擔，但其采取的字符串匹配方式，往往導致結果的混淆和誤判。同時由于年代久遠，銘文多有受損和遺失，使得任務愈發(fā)復雜。

銘文修復圖示

而 AI 善于發(fā)現(xiàn)并運用復雜的統(tǒng)計模式，對人難以處理的大批量數(shù)據(jù)進行分析。因此，DeepMind 和威尼斯福斯卡里大學 (Ca’ Foscari University of Venice) 的研究者聯(lián)合開發(fā)了 Ithaca，旨在協(xié)助金石學家進行文本修復、時間歸因和地域歸因的工作。

實驗證實，Ithaca 文本修復工作的準確率達到 62%，時間歸因誤差在 30 年內，地域歸因準確率達到 71%，且具有很好的協(xié)同性。相關論文已發(fā)表于「Nature」。

相關成果發(fā)表在「Nature」

獲取論文：

https://www.nature.com/articles/s41586-022-04448-z

Ithaca 的相關代碼已開源在 GitHub 平臺，金石學家也可利用公共界面開展研究。

源代碼：https://github.com/deepmind/Ithaca

公共界面：https://ithaca.deepmind.com/

實驗過程

數(shù)據(jù)集：機器可操作銘文集 I.PHI

研究者們基于帕卡德人文研究所的可搜索希臘銘文公共數(shù)據(jù)集 PHI 開展研究。

注：PHI 全稱 The Packard Humanities Institute’s Searchable Greek Inscriptions public dataset

為了便于機器操作，研究者們對 PHI 中的文本進行過濾，為選擇的文本分配數(shù)字 ID、相應的標注地點和時間信息，最終得到 I.PHI 數(shù)據(jù)集。

I.PHI 數(shù)據(jù)集是目前最大的機器可操作銘文數(shù)據(jù)集，包含 78,608 個銘文。

I.PHI 數(shù)據(jù)集示例

算法訓練：針對 3 大任務開展訓練

文本修復：采用交叉熵損失函數(shù)，掩蓋輸入文本的部分內容，訓練 Ithaca 模型預測被掩蓋的字符；

時間歸因：以 10 年為間隔，Ithaca 將公元前后 800 年離散為具有相等概率的時間段，稱為目標概率分布。采用 Kullback-Leibler 散度，最小化預測概率分布和目標概率分布之間的差異；

地域歸因：使用交叉熵損失函數(shù)，將地域區(qū)域元數(shù)據(jù)作為目標標簽，應用平滑系數(shù) 10% 的標簽平滑技術避免過擬合。

基于此，Ithaca 在谷歌云平臺上的 128 個 TPU v4 pod 上開展了一周的訓練，batch size 為 8,192 篇文本，使用 LAMB 優(yōu)化器以 3 × 10-4 的學習率優(yōu)化 Ithaca 參數(shù)。

模型結構：Ithaca 模型包括 4 部分

Ithaca 模型任務處理流程

Ithaca 模型的結構可總結為以下 4 部分：

1. 輸入 (Inputs)：將輸入文本作為字符和單詞共同處理，保證 Ithaca 既可以理解單個字符，又可以將其整合為單詞進行上下文理解，未知、損壞的單詞用特殊符號「unk」替代；

2. 軀干 (Torso)：Ithaca 的軀干采用疊加 Transformer 神經(jīng)網(wǎng)絡架構，它使用一種注意力機制 (attention mechanism) 來衡量輸入的字符、單詞對模型決策過程的影響。

在軀干部分，Ithaca 將輸入文本與位置信息結合，標準化處理為一個長度等于輸入字符數(shù)的序列，這個序列中每個項目是一個 2,048 維的嵌入向量。該序列被傳輸給 3 個不同的任務 head；

3. 任務頭(Task heads)：Ithaca 有 3 個不同的任務 head，每個 head 由一個淺前饋神經(jīng)網(wǎng)絡組成，專門處理文本修復、時間歸因和地域歸因任務。

4. 輸出(Outputs)：3 個任務 head 分別輸出對應結果。

Ithaca 輸出結果

文本修復：Ithaca 預測了 3 個缺失的字符，同時提供了一套按概率排序的前 20 名解碼預測 (上圖 a)；

地域歸因：Ithaca 把輸入的文字分為 84 個地區(qū)，并用地圖和柱狀圖直觀地實現(xiàn)可能的地區(qū)預測排名表 (上圖 b)；

時間歸因：為擴大時間歸因任務的可解釋性，Ithaca 追溯到公元前 800 年到公元 800 年，預測了日期的分類分布，而不是輸出一個單一的日期值 (上圖 c)。

模型訓練結果

綜合比對：Ithaca 具有優(yōu)越的性能

* 4 個對比機制

Ancient historian：人類學者使用訓練集來尋找文本的相似之處，與 Ithaca 的結果對比；

Ancient historian and Ithaca：Ithaca 為金石學家提供 20 個可能的修復，評估 Ithaca 與人類學者的協(xié)同性；

Pythia：一個用于文本修復任務的序列到序列遞歸神經(jīng)網(wǎng)絡 (a sequence-to-sequence recurrent neural network)，評價 Ithaca 的文本修復性能；

Onomastics：研究人員使用希臘人名在時間和空間上的已知分布，完成一組文本的時間和地域歸因，評價 Ithaca 的時間和地域歸因性能。

* 3 大評價指標

字符錯誤率 (CER, character error rate)：評價文本修復任務，計算最高預測修復序列和目標序列之間的歸一化差異；

top-k accuracy：評價文本修復或地域歸因任務，計算預測結果中概率最大的前 k 個結果包含正確標簽的占比，常用 top 1 準確率；

distance metric (Methods)：評價時間歸因任務，計算預測分布的平均值與真值區(qū)間 (ground-truth interval) 之間的年數(shù)距離。

* 實驗結果

文本修復

文本修復任務

a：原始銘文；

b：Rhodes-Osborne 修復后的銘文；

c：Pythia 修復版，與 Rhodes-Osborne 版有 74 處不匹配；

d：Ithaca 修復版，與 Rhodes-Osborne 版有 45 處不匹配；

圖中修復正確的部分由綠色表示，錯誤用紅色突出表示。

原始銘文 (IG II2 116) 缺失 378 個字符，以 Rhodes-Osborne 在 2003 年完成的修復 (圖 b) 為基準，Ithaca 的 CER 為 26.3%，top 1 準確率達到 61.8%。

與金石學家相比，Ithaca 的 CER 低 2.2 倍。Ithaca 的前 20 名預測準確率為78.3%，比 Pythia 高 1.5 倍。

2. 地域歸因

地域歸因任務

地域歸因任務中，Ithaca 達到了 70.8% 的 top 1 準確率和 82.1% 的 top 3 準確率。上圖表示 Ithaca 將 manumission 銘文正確的歸因到了 Delphi 地區(qū)。

3. 時間歸因

時間歸因任務

對于時間歸因任務，人類專家預測的平均值為 144.4，中位數(shù)為 94.5 年，而 Ithaca 的預測與真值區(qū)間 (ground-truth interval) 平均差距為 29.3 年，中位數(shù)的差距僅為 3 年。

綜合 Ithaca 在三項任務中的表現(xiàn)，結果整理如下：

相較于人類專家和 Pythia，Ithaca 在 3 大任務上都展現(xiàn)了優(yōu)越的性能。

當人類專家與 Ithaca 協(xié)同時，達到了 18.3% 的 CER 和 71.7% 的 top 1 準確率，相比金石學家單獨開展工作呈現(xiàn)出 3.2 倍和 2.8 倍的改善，相比 Ithaca 獨自完成任務也有顯著改善，展現(xiàn)了 Ithaca 優(yōu)越的協(xié)同性。

Ithaca 的實驗結果對比

時間歸因：Ithaca 解決爭議問題

部分銘文的時間歸因一直存在爭議，傳統(tǒng)時間歸因采用的 sigma 測年標準 (sigma dating criterion) 無法保證準確，金石學家無法確定這些銘文是在公元前 446/5 年之前還是之后。

如下圖的銘文，依照傳統(tǒng)方法追溯到公元前 446/5 年，但最近被重新追溯到公元前 424/3 年。

一條爭議銘文（局部）

這組有爭議的銘文存在于 I.PHI 數(shù)據(jù)集中，Ithaca 的時間歸因結果推翻了基于 sigma 測年標準的傳統(tǒng)歷史解讀，與新發(fā)現(xiàn)的基礎事實平均相差 5 年。

由此證明，Ithaca 可以幫助歷史學家縮小日期范圍，提高歷史事件時間歸因的精確度。

AI 與人類：1 + 1 > 2 ?

Ithaca 的結果輸出部分非常有趣，它并不會輸出單一的答案，而是給出多種可能的結果以供研究人員選擇。

這值得其他 AI 開發(fā)者和使用者借鑒，與其依賴 AI 的輸出，不如利用 AI「探路」，排除一些錯誤答案，拓展自主思考的深度和廣度。

將 AI 的計算能力與人類的創(chuàng)造性和深度思考相結合，Ithaca 幫助我們開拓了一種與 AI 攜手合作的范式。

未來，我們期待 AI 與人類學者協(xié)同并進，實現(xiàn)「1+1 > 2」的目標。

參考文獻：

https://www.nature.com/articles/s41586-022-04448-z

https://www.nature.com/articles/d41586-023-03212-1

—— 完 ——

當古老歷史遇到前沿科技：助力破譯希臘銘文，實現(xiàn)AI與人文共舞？

當古老歷史遇到前沿科技：助力破譯希臘銘文，實現(xiàn)AI與人文共舞？