新论文发现人工智能在历史方面表现不佳

1个月前更新
9 0 0
最新研究表明,尽管大语言模型(LLMs)在编程等任务中表现出色,但在高级历史考试中表现欠佳。研究团队使用 Hist-LLM 基准测试了 GPT-4、Llama 和 Gemini 等模型,发现 GPT-4 Turbo 的准确率仅为 46%。模型在处理复杂历史问题时,倾向于从显性数据中推断,难以检索到更隐晦的历史知识。此外,模型在特定地区(如撒哈拉以南非洲)的表现较差,暗示训练数据可能存在偏差。研究指出,LLMs 在历史研究领域仍需改进,但未来有望辅助历史学家,特别是在扩展数据覆盖和增加问题复杂性方面。

来源:TechCrunch AI

© 版权声明
广告也精彩

相关文章