一項6月26日發(fā)表于《公共科學圖書館-綜合》的研究發(fā)現(xiàn),在使用ChatGPT生成答案的大學考試答卷中,有94%不會被檢測出是由人工智能(AI)生成的,而且這些答案往往比學生真實的答案得分更高。
如今,AI技術的興起和發(fā)展,給教育部門出了一道難題,即學校許多形式的評估,都是在沒有監(jiān)考的情況下完成的,而學生很可能利用AI答題。尤其在新冠疫情后,對無監(jiān)督的居家考試的依賴越發(fā)嚴重。
為此,英國雷丁大學的Peter Scarfe和同事使用ChatGPT生成了雷丁大學心理學本科生學位考試5個模塊共63個評估問題的答案。由于學生們是在家里參加這些考試的,所以他們可以查看筆記和參考資料,甚至可能違反規(guī)定,使用AI幫助答題。
AI生成的答案和學生真實的答案一起被提交,其中前者平均占答卷總數的5%。閱卷人并不知道他們檢查的答卷中有33份來自假學生,而這些假學生的名字也是由ChatGPT生成的。
在所有模塊問題的答案中,只有6%的AI生成答案被標記為可能不是學生自己的答案。而有一些非AI生成的模塊問題的答案則被標記為存疑。
“盡管各模塊之間存在一些差異,但平均而言,AI生成的答案得分高于學生提交的答案。在AI提交的對63個問題的答案中,得分超過學生的概率為83.4%?!盨carfe說,“但AI當前還難以進行更抽象的推理和信息集成?!?br />
研究人員表示,他們的工作是迄今同類研究中規(guī)模最大、最可靠的。盡管只研究了雷丁大學心理學本科學位的工作,但Scarfe認為這是值得整個學術界關注的問題。
“沒有理由認為其他學科領域不會有同樣的問題存在?!盨carfe說,然而從源頭上解決這一問題幾乎是不可能的。因此,必須重新考慮評估內容。