研究人員發現生成式人工智慧在本科法律考試中難以解決複雜的問題

2024-10-03 01:28:11

生成式人工智慧廣泛向大眾普及已經過去近兩年了。一些模型透過學術和專業考試顯示出巨大的前景。

距離現在已經過去近兩年了生成式人工智慧已廣泛向公眾發布。部分型號顯示出巨大的希望通過學術和專業考試。

例如，GPT-4 得分高於 90%美國律師資格考試考生。這些成功引發了人們的擔憂，人工智慧系統也可能輕鬆通過大學層級的評估。然而，我的最近的研究描繪了一幅不同的圖畫，表明它並不完全是一些人可能認為的學術強國。

我的學習

為了探索生成式人工智慧的學術能力，我研究了它在本科刑法期末考中的表現考試在臥龍崗大學，學生需要通過學位的核心科目之一。有225名學生參加考試。

考試持續三小時，分為兩個部分。第一個要求學生評估案例研究關於刑事犯罪以及成功起訴的可能性。第二個包括一篇短文和一組短文回答問題。

測驗問題評估了多種技能，包括法律知識、批判性思維以及建構有說服力的論點的能力。

學生不允許使用人工智慧進行回答，並在監督環境中進行評估。

我使用不同的人工智慧模型為考試問題創建了十個不同的答案。

只要將試題貼到AI工具中，沒有任何提示，就產生了五份試卷。另外五個，我給了詳細的提示和相關的法律內容，看看是否會改善結果。

我在官方考試手冊中手寫了人工智慧生成的答案，並使用了假的學生姓名和號碼。這些人工智慧產生的答案與實際的學生考試答案混合在一起，並匿名提供給五位導師進行評分。

重要的是，在評分時，導師並不知道人工智慧已經產生了十個考試答案。

AI論文表現如何？

當導師在評分後接受採訪時，沒有人懷疑任何答案都是人工智慧生成的。

這顯示人工智慧有可能模仿學生的反應，而教育工作者卻無法發現這類論文。

但總體而言，AI 論文並不令人印象深刻。

雖然人工智慧在論文式問題上表現出色，但它在解決需要深入法律分析的複雜問題時表現不佳。

這意味著儘管人工智慧可以模仿人類的寫作風格，但它缺乏複雜法律推理所需的細緻入微的理解。

學生的考試平均分數是66%。

沒有提示的人工智慧論文平均只擊敗了 4.3% 的學生。兩個勉強通過（及格分數為 50%），三次失敗。

就使用提示的考捲而言，他們平均擊敗了39.9%的學生。其中三篇論文表現不佳，分別為 50%、51.7% 和 60%，但有兩篇論文表現相當不錯。一個得分為73.3%，另一個得分為78%。

這意味著什麼？

這些發現對教育和專業標準都有重要影響。

儘管大肆宣傳，但生成式人工智慧在諸如法律考試等智力要求較高的任務中距離取代人類還差得遠。

我的研究表明，人工智慧應該被視為一種工具，如果使用得當，它可以增強人類的能力。

因此，學校和大學應該專注於培養學生與人工智慧合作並批判性分析其輸出的技能，而不是僅僅依靠工具簡單地給出答案的能力。

此外，為了使人工智慧和學生之間的合作成為可能，我們可能必須重新思考一些關於教育和評估的傳統觀念。

例如，我們可能會考慮，當學生提示、驗證和編輯人工智慧生成的作品時，這是他們的原始貢獻，仍然應該被視為學習的一個有價值的部分。

本文轉載自對話根據知識共享許可。閱讀原創文章。

引文:研究人員發現生成式人工智慧在大學法律考試中難以解決複雜問題（2024 年 10 月 2 日）檢索日期：2024 年 10 月 2 日來自 https://techxplore.com/news/2024-10-generative-ai-struggles-complex-undergraduate.html

本文檔受版權保護。除了出於私人學習或研究目的的任何公平交易外，不得未經書面許可，不得複製部分內容。所提供的內容僅供參考。

另請參閱其他語言版本: English | 简中 | 正體 | 日本語 | 한국인 | हिंदी | Español