你的猜测没有错,大模型真的在变笨!
分
享
2023-07-20 14:38
最近有一个关于OpenAI的两个传闻一直在传播。
最近有一个关于OpenAI的两个传闻一直在传播。
第一个传闻是ChatGPT的流量开始下降,而根据数据公司SimilarWeb的统计,全球流量在5月到6月期间下降了9.7%,美国境内流量下降了10.3%。
第二个传闻是关于GPT-4“变笨”的问题,这个传闻在Twitter上引起了热烈的讨论。OpenAI的产品副总裁也公开否认了这个传闻,但群众的讨论热情并未减退。
然而,最新一篇预印论文题为《How Is ChatGPT's Behavior Changing over Time?》证实了GPT-4确实在短期内出现了变笨的现象。这篇论文试图通过多个维度评估GPT-3.5和GPT-4的表现,包括数学问题、敏感问题、代码能力和视觉推理等四个维度。
论文的结果显示,两个大模型在短时间内表现出显著变化,特别是在数学问题上,GPT-4的准确率大幅下降。例如,在判定一个数是否是质数的问题上,GPT-4的成功率在三个月内从97.6%下降到了2.4%!此外,两个版本的模型给出的答案重叠度也很小,可能是因为模型的思维连贯能力出现了问题。
对于敏感问题,GPT-4表现较好,6月版本的GPT-4回答了5%的敏感问题,而GPT-3.5的回答率从2%增加到了8%。作者猜测GPT-4的更新可能部署了更强大的安全层,但并不意味着大模型正在变得更安全。尽管GPT-4经过升级,但当作者采用AIM方式欺骗大模型时,GPT-3.5几乎回答了所有的敏感问题,而GPT-4也回答了近三分之一的问题。
论文还发现,GPT开始不太倾向于直接生成可执行代码,而视觉推理的准确率略有提升。
大模型变笨的发现引起了人们的担忧。对模型能力的不稳定性可能会对其商业化能力产生负面影响。这篇论文使用了“纵向漂移”一词来描述模型能力随着迭代和时间的变化而产生的不稳定性。尽管论文没有具体给出原因,但已经引起了广泛讨论,有人认为这回应了关于大模型变笨的阴谋论,即OpenAI可能并不是出于节省成本的目的故意让模型变笨。
这一发现可能会对大模型的未来发展产生影响。有人推测,这也许是OpenAI在推进alignment对齐研究的原因,以确保每次迭代升级中的模型能力保持一致性。还有人认为,新发布的Code Interpreter功能可能是为了弥补GPT-4在代码方面下降的能力,但对于大模型整体结构的变动还需要更多了解。
综上所述,这篇论文引发了人们对模型能力跟踪评估的关注。人们期望AI助手能在长期使用中保持稳定且优秀的表现,而不是在短期内出现剧烈变化。
热
门
精
选
亚马逊新规已强制执行!卖家:影响流量分配
近期,亚马逊平台上出现了一个令众多卖家措手不及的情况:部分卖家发现,自己并未对后台标题进行任何修改,前台标题却自动变成了二段式,更让人困惑的是,副标题中还出现了一些无关关键词。
Temu:Q2海外整体GMV增速或仍保持40%左右 复苏韧性强劲
8月27日消息,日前,拼多多发布了截至6月30日的2025年第二季度财报
绿联科技2025半年报:线下渠道业绩亮眼 充电类产品扛起增长大梁
上半年,公司实现营业收入38.57亿元,同比增长40.60%;毛利润为36.98%,较上年同期微降1.44%;归母净利润达到2.75亿元,同比增长32.74%;扣非归母净利润为2.59亿元,同比增长28.89%。
美国即时零售迎来新玩家:Best Buy接入Uber Eats 电子产品数小时送货上门
日前,移动出行和配送平台公司Uber与美国消费电子零售商百思买(Best Buy)宣布达成合作,百思买800多家门店将正式接入Uber旗下的外卖平台Uber Eats。
沃尔玛要打通线上线下 第三方电商卖家也能获取实体店流量了
日前,在美国加利福尼亚州圣地亚哥举行的沃尔玛卖家峰会上,沃尔玛宣布其正在探索将实体超市升级为数字百货商店,顾客可以通过扫描货架上的二维码访问数千种在线商品,包括第三方卖家的产品。
TikTok Shop印尼加强商家资质审查:商家六大认证不全的商品将遭下架
TikTok Shop稳居印尼第二大平台,控股后的Tokopedia排名第三;Lazada等中尾部平台用户流失严重,份额被头部集中。
美国Best Buy开放第三方平台卖家入驻
Lowe’s、Nordstrom、Ulta Beauty、Target 等零售巨头相继跟进或扩大第三方电商,美国线下零售“平台化”浪潮再起。
开卖599元外套 霸王茶姬要做“百货店”?
“好好好,果真是百货公司,卖奶茶只是副业吧。”