exam
图片来源:Pixabay/CC0 公共领域

距离现在已经过去近两年了生成式人工智能已广泛向公众发布。部分型号显示出巨大的希望通过学术和专业考试。

例如,GPT-4 得分高于 90%美国律师资格考试考生。这些成功引发了人们的担忧,人工智能系统也可能轻松通过大学水平的评估。然而,我的最近的研究描绘了一幅不同的图画,表明它并不完全是一些人可能认为的学术强国。

我的学习

为了探索生成式人工智能的学术能力,我研究了它在本科刑法期末考试中的表现在卧龙岗大学,学生需要通过学位的核心科目之一。有225名学生参加考试。

考试持续三个小时,分为两个部分。第一个要求学生评估关于刑事犯罪以及成功起诉的可能性。第二个包括一篇短文和一组短文问题。

测试问题评估了多种技能,包括法律知识、以及构建有说服力的论据的能力。

学生不允许使用人工智能进行回答,并在监督环境中进行评估。

我使用不同的人工智能模型为考试问题创建了十个不同的答案。

只需将试题粘贴到AI工具中,没有任何提示,就生成了五份试卷。对于另外五个,我给出了详细的提示和相关的法律内容,看看是否会改善结果。

我在官方考试手册中手写了人工智能生成的答案,并使用了假的学生姓名和号码。这些人工智能生成的答案与实际的学生考试答案混合在一起,并匿名提供给五位导师进行评分。

重要的是,在评分时,导师并不知道人工智能已经生成了十个考试答案。

AI论文表现如何?

当导师在评分后接受采访时,没有人怀疑任何答案都是人工智能生成的。

这表明人工智能有可能模仿学生的反应,而教育工作者却无法发现此类论文。

但总体而言,AI 论文并不令人印象深刻。

虽然人工智能在论文式问题上表现出色,但它在解决需要深入法律分析的复杂问题时表现不佳。

这意味着尽管人工智能可以模仿人类的写作风格,但它缺乏复杂法律推理所需的细致入微的理解。

学生的考试平均分是66%。

没有提示的人工智能论文平均只击败了 4.3% 的学生。两个勉强通过(及格分数为 50%),三个失败。

就使用提示的试卷而言,他们平均击败了39.9%的学生。其中三篇论文表现不佳,分别为 50%、51.7% 和 60%,但有两篇论文表现相当不错。一个得分为73.3%,另一个得分为78%。

这意味着什么?

这些发现对教育和专业标准都有重要影响。

尽管大肆宣传,但生成式人工智能在诸如法律考试等智力要求较高的任务中距离取代人类还差得远。

我的研究表明,人工智能应该被视为一种工具,如果使用得当,它可以增强人类的能力。

因此,学校和大学应该集中精力培养学生与人工智能合作并批判性分析其输出的技能,而不是仅仅依靠工具简单地给出答案的能力。

此外,为了使人工智能和学生之间的合作成为可能,我们可能必须重新思考一些关于教育和评估的传统观念。

例如,我们可能会考虑,当学生提示、验证和编辑人工智能生成的作品时,这是他们的原始贡献,仍然应该被视为学习的一个有价值的部分。

本文转载自对话根据知识共享许可。阅读原创文章The Conversation

引文:研究人员发现生成式人工智能在本科法律考试中难以解决复杂问题(2024 年 10 月 2 日)检索日期:2024 年 10 月 2 日来自 https://techxplore.com/news/2024-10-generative-ai-struggles-complex-undergraduate.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外,不得未经书面许可,不得复制部分内容。所提供的内容仅供参考。