OpenAI开启调查:GPT-4o及4o-mini模型性能下降
据报道,OpenAI发布事故报告指出,当前遭遇GPT-4o和4o-mini模型性能下降问题,目前正在进行调查,并将尽快发布最新消息。

近期,科研人员创新性地推出了一项名为LONGPROC的基准测试工具,该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。
实验结果略显意外:包括GPT-4o在内的众多顶尖模型,虽然在常规长上下文回忆基准测试中表现优异,但在应对复杂的长文本生成任务时,仍暴露出显著的改进需求。
具体而言,尽管所有参测模型均宣称其上下文窗口大小超过32K tokens,但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态,而诸如GPT-4o等闭源模型,在应对8K tokens任务时性能也明显下滑。
以GPT-4o为例,在要求其生成详细旅行规划的任务中,即便提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即产生了“幻觉”现象。
实验进一步揭示,即便是最前沿的模型,在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中,即便是参数庞大的先进模型也未能幸免于难,这或许预示着未来大型语言模型(LLM)研究的一个极具潜力的方向。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 习近平同马克龙交流互动的经典瞬间 7904240
- 2 公考枪手替考89次敛财千万 7809157
- 3 15岁高中生捐赠南京大屠杀日军罪证 7713217
- 4 2025你的消费习惯“更新”了吗 7617156
- 5 危险信号!俄数百辆保时捷突然被锁死 7520569
- 6 李幼斌20年后重现《亮剑》名场面 7426396
- 7 连霍高速发生交通事故 造成9死7伤 7329671
- 8 今日大雪 要做这些事 7235152
- 9 众擎T800人形机器人一脚踹倒自家CEO 7137709
- 10 中疾控流感防治七问七答 7045755


![曾可妮 我是不是还没对你们说 十二月愉快 摸摸头 [玉兔]](https://imgs.knowsafe.com:8087/img/aideep/2022/3/19/1b85336b9b7c4076fb7290271b09cc99.jpg?w=250)




海鸥影评
