明敏 发自 凹非寺
量子位 | 公众号 QbitAI
DeepMind新AI登上Nature才一天,GPT-4就来打擂台了!
只通过两段提示,GPT-4就给出了和AlphaDev如出一辙的排序算法优化方法。
哦豁,这下AlphaDev更尴尬了。
让GPT-4“发现”同样操作的老哥直接阴阳:
完全不需要强化学习啊。我能将这个发现登在Nature上吗?
2段提示就搞定
带来这个新发现的是一位来自威斯康星大学麦迪逊分校的副教授,名叫Dimitris Papailiopoulos(下面简称D教授)。
他让GPT-4实现这一操作的步骤非常简单,一共就输入了两次提示。
首先,他和GPT-4说:
这有一个排序算法,我觉得它还能进一步优化。你能不能在下面几行,用*注明哪些指令可以删除或者改进?如果不需要修改,就什么都不动。一步一步解释原因,然后回去验证它是对的。
要非常详细、非常小心。
然后GPT-4对给出的代码做出了详细解释。
继续。如果你有很大的把握,按照上面的提示去做。Temperatur=0(让生成结果确定且一致),尽量简要避免混淆。
我们发现指令“mov S P”多余可以去掉,其他指令都是必须的。但在删除之后,应将P替换成S。
同样,AlphaDev则是通过交换和复制移动,跳过了一个步骤,以一种看似错误但实际上是捷径的方式达成目标。
据介绍,AlphaDev是一种强化学习算法、基于AlphaZero打造,它的发现并非基于现有算法,而是从最底层的汇编指令开始摸索的。
它的创新主要在于两种指令序列:
(1)AlphaDev Swap Move(交换移动)
(2)AlphaDev Copy Move(复制移动)
原理上,DeepMind的研究员给它设计了一种单人“组装”游戏:
只要能够搜索并选择出合适的指令(下图A流程),正确且快速地排好数据(下图B流程),就能获得奖励。
网友:我们总是低估GPT-4的能力
对于GPT-4的“骚操作”,有人表示:即便是资深开发者也低估GPT-4了。
不少人觉得这也不是什么开创性的研究,DeepMind夸大其词。
当然也有人认为,AlphaDev本身的创新点更在于,它是利用强化学习来发现新算法的。
参考链接:
[1]https://chat.openai.com/share/95693df4-36cd-4241-9cae-2173e8fb760c
[2]https://twitter.com/DimitrisPapail/status/1666843952824168465