新论文发现人工智能在历史方面表现不佳

1个月前更新

9 0 0

最新研究表明，尽管大语言模型（LLMs）在编程等任务中表现出色，但在高级历史考试中表现欠佳。研究团队使用 Hist-LLM 基准测试了 GPT-4、Llama 和 Gemini 等模型，发现 GPT-4 Turbo 的准确率仅为 46%。模型在处理复杂历史问题时，倾向于从显性数据中推断，难以检索到更隐晦的历史知识。此外，模型在特定地区（如撒哈拉以南非洲）的表现较差，暗示训练数据可能存在偏差。研究指出，LLMs 在历史研究领域仍需改进，但未来有望辅助历史学家，特别是在扩展数据覆盖和增加问题复杂性方面。

来源：TechCrunch AI

文章版权归作者所有，未经允许请勿转载。