华人号

登录更多 下载App

OpenAI新模型测评:满分通过巴西最难入学考试之一

2024-09-19 05:07 阅读量:3.6万+

华人号:巴西华人新闻

OpenAI o1人工智能大语言模型满分通过巴西航空理工学院入学考试的数学测试。《圣保罗州报》

OpenAI公司上周推出了名为“OpenAI o1”的新人工智能(AI)大语言模型。根据巴西人的测评,这款AI模型可以在巴西航空理工学院(ITA)入学考试的数学测试中获得10分满分,并通过圣保罗大学(USP)住院医师考试多个专业的测试。

o1满分通过巴西最难入学考试之一的数学测试

巴西《圣保罗州报》9月17日报道,OpenAI称,o1具有逻辑推理和数学运算能力,能处理更复杂的问题。如今,这款AI模型正在世界各地接受专家和研究人员的测试。

在巴西,企业家维尼修斯·苏亚雷斯(Vinícius Soares)使用巴西航空理工学院2024年入学考试中的数学试卷对o1进行了测试,这一考试历来被视为巴西最难入学考试。最终,o1凭借其解决复杂数学问题的能力取得了10分满分的优异成绩。

不过,与ChatGPT的快速响应不同,o1需要更多的处理时间来评估现有数据,并寻找不同的方法得出答案,这一点也体现在苏亚雷斯进行的测试实验中。

苏亚雷斯认为,o1有潜力彻底改变多个领域的发展。他提到,在教育领域,该AI模型可用于生成新的问题并给出解题方案,帮助学生准备航空理工学院等高校的入学考试;在法律领域,o1还可以分析数千个诉讼,以识别其中的模式和趋势,帮助辩方寻找赢得官司的最佳辩护方案。

o1在巴西医疗领域考试中的表现优于“前辈”

不仅如此,o1在医疗领域的表现也令人惊叹。巴西医学教育和数字健康医学专家马修斯·费雷拉(Matheus Ferreira)使用2024年圣保罗大学住院医师考试的试题对o1进行了测试。结果显示,即便没有图像分析能力,o1也能达到82%的准确率,超过了同样由OpenAI开发的ChatGPT-4模型和美国AI初创企业Anthropic推出的Claude 3.5 Sonnet,后两者的准确率皆为76%。

值得一提的是,由于o1在处理图像方面的限制,完全依赖于图像分析的问题被排除在本次试验之外,但仍保留了题干中配有图像的其他问题。

费雷拉指出,在测试过程中,o1最主要的问题是反应时间过长。相比较而言,GPT-4和Claude 3.5几乎能立刻作答,而o1在面对一些问题时,需要“思考”大约100秒。尽管如此,事实证明,o1的答案更加可信,正确回答了93个问题,而另外两个AI模型只答对了85个。

不过,费雷拉强调,在预防医学专业的测试中,三个AI模型的表现都不尽如人意。他认为,主要原因在于训练三个模型的数据库内容大多是英文,而预防医学涉及很多区域性知识,例如巴西的立法和统一卫生系统(SUS)等相关问题。

以上就是小编为您分享《OpenAI新模型测评:满分通过巴西最难入学考试之一》的全部内容,更多有关悉尼华人最新消息、新闻,请多多关注华人头条全世界频道。您还可以下载我们的手机APP,每天个性化推荐你想要看的华人资讯!
免责申明

1、本站(网址:52hrtt.com)为用户提供信息存储空间等服务,用户保证对发布的内容享有著作权或已取得合法授权,不会侵犯任何第三方的合法权益。

2、刊载的文章由平台用户所有权归属原作者,不代表同意原文章作者的观点和立场。

3、因平台信息海量,无法杜绝所有侵权行为,如有侵权烦请联系我们(福建可比信息科技有限公司 邮箱:hrtt@52hrtt.com),以便及时删除。

举报收藏
评论 (0条)
您需要登录后才能评论,点击此处进行登录。
登录后评论

下载华人头条

关于我们

© 2022 华人头条

服务热线 : 0591-83771172

福建可比信息科技有限公司 ©版权所有

ICP许可证号 闽ICP备10203582号

闽公网安备35010202000536号

直播备案号 闽ILS备201708250005

举报热线:0591-83771172

举报邮箱:hrtt@52hrtt.com

免责声明

1、本站(网址:52hrtt.com)为用户提供信息存储空间等服务,用户保证对发布的内容享有著作权或已取得合法授权,不会侵犯任何第三方的合法权益。
2、刊载的文章由平台用户所有权归属原作者,不代表同意原文章作者的观点和立场。
3、因平台信息海量,无法杜绝所有侵权行为,如有侵权烦请联系我们(福建可比信息科技有限公司 邮箱:hrtt@52hrtt.com),以便及时删除。