盐源苹果,欢迎助农支农,收获阳光自然果的您!

巴蜀网

 找回密码
 免费注册

QQ登录

只需一步,快速开始

同板块主题的 前一篇 同板块主题的 后一篇
开启左侧
查看: 162|回复: 0
1# 贡嘎山
跳转到指定楼层

[2023年研究发现Llama 2在识别失礼行为上优于人类,同样场景下GPT频繁出错

 [复制链接]
源自:DeepTech深科技
源自:DeepTech深科技

  人类是复杂的生物。我们的沟通方式是多层次的,心理学家已经设计了多种测试来衡量我们从互动中推断彼此的意义和理解的能力。
  人工智能模型在这些测试中的表现越来越好。近日,发表在 Nature Human Behavior 上的一项新研究发现,一些大型语言模型在执行被称为“心智理论”的任务时,表现与人类一样好,在某些情况下甚至超越了人类。
  这并不意味着人工智能系统实际上能够读懂我们的感受,但它确实表明在评估心理学家认为的人类独有能力的实验中,这些模型表现得越来越好。
  为了更好地了解大型语言模型在这些任务中如何成功和失败以及背后的原理,研究人员希望沿用他们用来测试人类心智理论的相同系统性方法。
  理论上,人工智能模型越善于模仿人类,它们在与我们的互动中就越有用和富有同情心。
  OpenAI 和谷歌最近都宣布了超级人工智能助手。GPT-4o 和 Astra 的设计目的是提供比其之前版本更流畅、更自然的反馈。
  但我们必须避免陷入相信它们拥有与“类人”能力的陷阱,即使它们看起来是这样。
  德国汉堡埃彭多夫大学医学中心的神经科学教授克里斯蒂娜·贝基奥(Cristina Becchio)参与了这项研究。
  她说:“我们有一种自然的倾向,即认为没有心智的实体也具备(类似人类的)精神状态、心智和意图。将心智理论放在大型语言模型身上,这样的风险是存在的。”
  (源自:STEPHANIE ARNETT/MITTR)
  心智理论是情商和社会智力的标志,它使我们能够推断他人的意图,并与其互动或表达同情。大多数孩子会在三到五岁之间学会这些技能。
  研究人员测试了两个大型语言模型家族,OpenAI 的 GPT-3.5 和 GPT-4,以及 Meta 的 Llama 的三个版本。
  他们挑选的任务旨在测试人类的心智理论,包括识别错误信念、识别失礼行为,以及理解隐含而非直接说出的意思(潜台词)。他们还对 1907 名人类参与者进行了测试,作为分数对照。
  该小组进行了五种类型的测试。第一项是暗示任务,旨在衡量某人通过间接评论推断他人真实意图的能力。
  第二项是错误信念任务,评估某人是否可以推断出他人的真实信念,而他人的信念通常与事实不符。
  另一项测试衡量某人是否能识别出他人的行为是失礼(或尴尬)的。
  而第四项测试包括讲述奇怪的故事,故事中主人公做了一些不寻常的事情,以评估某人是否能够解释所说的和所做的之间的反差。他们还测试了人们是否能理解讽刺。
  人工智能模型在独立的聊天中对每个测试进行了 15 次尝试,这样它们就可以独立处理每个请求,并且它们的回答也以与人类相同的方式进行评分。
  研究人员随后对人类志愿者进行了测试,比较了两组的分数。
  在涉及间接评论、误导和错误信念的任务中,两种版本的 GPT 的表现都追平或偶尔超越了人类平均水平,而 GPT-4 在讽刺、暗示和奇怪故事测试中的表现优于人类。
  Llama 2 的三个模型的表现均低于人类平均水平。
  然而,Llama 2 在识别失礼行为和场景方面的表现优于人类,而 GPT 总是提供错误的反馈。
  论文作者认为,这是由于 GPT 普遍不愿意对意见发表结论,因为模型经常回应说,没有足够的信息让它们以这样或那样的方式给出回答。
  他说:“这些模型肯定没有展示出人类的心智理论。但我们所展示的是,它们有能力对人物或人们的思想进行心理推理。”
  美国卡内基梅隆大学助理教授玛藤·萨普(Maarten Sap)没有参与这项研究,他说大型语言模型表现得这么好的一个可能原因是,这些心理测试已经构建得很好了,很可能已经包含在模型的训练数据中了。
  他说:“重要的是要承认,当你对小孩子进行虚假信念测试时,他们可能从未见过类似的测试,但语言模型可能见过了。”
  最后,我们仍然不了解大型语言模型是如何工作的。
  美国哈佛大学的认知科学家托默·乌尔曼(Tomer Ullman)说,像这样的研究可以帮助我们加深对这类模型的理解,比如它们能做什么、不能做什么。他没有参与该项目。
  但重要的是,当我们进行这样的大型语言模型测试时,要记住我们真正测试的是什么。
  即使人工智能在旨在测量心智理论的测试中表现优于人类,也不意味着心智理论适用于它。
  乌尔曼说:“我并不反对基准,但很多人担心我们目前使用基准的方式已经不再有意义,我是其中之一。不管这个东西是如何通过基准测试的,它并非以一种类似人类的方式实现的,至少我是这么认为的。”
  支持:Ren
  运营/排版:何晨龙
『 巴蜀网 』提醒,在使用本论坛之前您必须仔细阅读并同意下列条款:
  1. 遵守《全国人大常委会关于维护互联网安全的决定》及中华人民共和国其他各项有关法律法规,并遵守您在会员注册时已同意的《『 巴蜀网 』管理办法》;
  2. 严禁发表危害国家安全、破坏民族团结、破坏国家宗教政策、破坏社会稳定、侮辱、诽谤、教唆、淫秽等内容;
  3. 本帖子由 喇叭河 发表,享有版权和著作权(转帖除外),如需转载或引用本帖子中的图片和文字等内容时,必须事前征得 喇叭河 的书面同意;
  4. 本帖子由 喇叭河 发表,仅代表用户本人所为和观点,与『 巴蜀网 』的立场无关,喇叭河 承担一切因您的行为而直接或间接导致的民事或刑事法律责任。
  5. 本帖子由 喇叭河 发表,帖子内容(可能)转载自其它媒体,但并不代表『 巴蜀网 』赞同其观点和对其真实性负责。
  6. 本帖子由 喇叭河 发表,如违规、或侵犯到任何版权问题,请立即举报,本论坛将及时删除并致歉。
  7. 『 巴蜀网 』管理员和版主有权不事先通知发帖者而删除其所发的帖子。
美国液态金属电池公司Ambri宣布破产,曾获比尔·盖茨多次投资 科学家打造基于量子芯片的神经储存器,每平方厘米支持万亿节点,有望用于自然语言处理任务
您需要登录后才可以回帖 登录 | 免费注册

本版积分规则

© 2002-2024, 蜀ICP备12031014号, Powered by 5Panda
GMT+8, 2024-9-23 00:59, Processed in 0.171601 second(s), 9 queries, Gzip On, MemCache On
同板块主题的 后一篇 !last_thread! 快速回复 返回顶部 返回列表