你的猜测没有错，大模型真的在变笨！-巨鲨出海

免费使用

你的猜测没有错，大模型真的在变笨！

分

享

海外资讯

2023-07-20 14:38

最近有一个关于OpenAI的两个传闻一直在传播。

第一个传闻是ChatGPT的流量开始下降，而根据数据公司SimilarWeb的统计，全球流量在5月到6月期间下降了9.7%，美国境内流量下降了10.3%。

第二个传闻是关于GPT-4“变笨”的问题，这个传闻在Twitter上引起了热烈的讨论。OpenAI的产品副总裁也公开否认了这个传闻，但群众的讨论热情并未减退。

然而，最新一篇预印论文题为《How Is ChatGPT's Behavior Changing over Time?》证实了GPT-4确实在短期内出现了变笨的现象。这篇论文试图通过多个维度评估GPT-3.5和GPT-4的表现，包括数学问题、敏感问题、代码能力和视觉推理等四个维度。

论文的结果显示，两个大模型在短时间内表现出显著变化，特别是在数学问题上，GPT-4的准确率大幅下降。例如，在判定一个数是否是质数的问题上，GPT-4的成功率在三个月内从97.6%下降到了2.4%！此外，两个版本的模型给出的答案重叠度也很小，可能是因为模型的思维连贯能力出现了问题。

对于敏感问题，GPT-4表现较好，6月版本的GPT-4回答了5%的敏感问题，而GPT-3.5的回答率从2%增加到了8%。作者猜测GPT-4的更新可能部署了更强大的安全层，但并不意味着大模型正在变得更安全。尽管GPT-4经过升级，但当作者采用AIM方式欺骗大模型时，GPT-3.5几乎回答了所有的敏感问题，而GPT-4也回答了近三分之一的问题。

论文还发现，GPT开始不太倾向于直接生成可执行代码，而视觉推理的准确率略有提升。

大模型变笨的发现引起了人们的担忧。对模型能力的不稳定性可能会对其商业化能力产生负面影响。这篇论文使用了“纵向漂移”一词来描述模型能力随着迭代和时间的变化而产生的不稳定性。尽管论文没有具体给出原因，但已经引起了广泛讨论，有人认为这回应了关于大模型变笨的阴谋论，即OpenAI可能并不是出于节省成本的目的故意让模型变笨。

这一发现可能会对大模型的未来发展产生影响。有人推测，这也许是OpenAI在推进alignment对齐研究的原因，以确保每次迭代升级中的模型能力保持一致性。还有人认为，新发布的Code Interpreter功能可能是为了弥补GPT-4在代码方面下降的能力，但对于大模型整体结构的变动还需要更多了解。

综上所述，这篇论文引发了人们对模型能力跟踪评估的关注。人们期望AI助手能在长期使用中保持稳定且优秀的表现，而不是在短期内出现剧烈变化。

出海顾问

管家式陪伴1V1服务，帮您快速解决出海获客难题！