情感打分算法(情感打分模型)

明敏发自凹非寺
量子位 | 公众号 QbitAI

DeepMind新AI登上Nature才一天，GPT-4就来打擂台了！

只通过两段提示，GPT-4就给出了和AlphaDev如出一辙的排序算法优化方法。

情感打分算法

而AlphaDev被DeepMind称作是“重现AlphaGo神来之笔”，发现了提速70%的排序算法。

哦豁，这下AlphaDev更尴尬了。

让GPT-4“发现”同样操作的老哥直接阴阳：

完全不需要强化学习啊。我能将这个发现登在Nature上吗？

情感打分算法

马斯克“路过看到”，也留下了句“因吹斯听”。

所以GPT-4怎么做到的？

带来这个新发现的是一位来自威斯康星大学麦迪逊分校的副教授，名叫Dimitris Papailiopoulos（下面简称D教授）。

他让GPT-4实现这一操作的步骤非常简单，一共就输入了两次提示。

首先，他和GPT-4说：

这有一个排序算法，我觉得它还能进一步优化。你能不能在下面几行，用*注明哪些指令可以删除或者改进？如果不需要修改，就什么都不动。一步一步解释原因，然后回去验证它是对的。

第一步的时候他还强调说，如果有什么新发现，先不要做改变，只是“看着”就好，写出来一些书面改进建议。

要非常详细、非常小心。

然后GPT-4对给出的代码做出了详细解释。

然后D教授给了第二条提示：

继续。如果你有很大的把握，按照上面的提示去做。Temperatur=0（让生成结果确定且一致），尽量简要避免混淆。

然后GPT-4给出了详细的步骤，最后总结说：

我们发现指令“mov S P”多余可以去掉，其他指令都是必须的。但在删除之后，应将P替换成S。

对比DeepMind新工作AlphaDev在处理同样问题上的思路，不能说毫无关系，只能说一模一样：

DeepMind方面对AlphaDev这通操作，让人想起当年AlphaGo的“第37步”——一种违反直觉的下法却直接击败传奇围棋选手李世石，让观众全都震惊不已。

同样，AlphaDev则是通过交换和复制移动，跳过了一个步骤，以一种看似错误但实际上是捷径的方式达成目标。

据介绍，AlphaDev是一种强化学习算法、基于AlphaZero打造，它的发现并非基于现有算法，而是从最底层的汇编指令开始摸索的。

它的创新主要在于两种指令序列：

（1）AlphaDev Swap Move（交换移动）

（2）AlphaDev Copy Move（复制移动）

原理上，DeepMind的研究员给它设计了一种单人“组装”游戏：

只要能够搜索并选择出合适的指令（下图A流程），正确且快速地排好数据（下图B流程），就能获得奖励。

但这个游戏的挑战不仅在于搜索空间的大小（可组合指令数相当于宇宙中的粒子数），也在于奖励函数的性质，因为一条错误指令就可能会使整个算法失效。

对于GPT-4的“骚操作”，有人表示：即便是资深开发者也低估GPT-4了。

有人感慨说，D教授的操作进一步验证，只要有耐心、懂提示工程，GPT-4能做到的事还有很多。

也有人提出质疑，表示GPT-4能这么做会不会是因为它的训练数据中包含了一些排序算法的优化方法？

不过话说回来，之所以这件事能够引起这么大的关注和讨论，很大一部分原因是AlphaDev登上Nature存在争议。

不少人觉得这也不是什么开创性的研究，DeepMind夸大其词。

不仅是D教授阴阳说“我是不是也能登Nature”，还有网友说自己十几岁的时候优化了快排，这也应该发论文的。

当然也有人认为，AlphaDev本身的创新点更在于，它是利用强化学习来发现新算法的。

你觉得呢？

参考链接：
[1]https://chat.openai.com/share/95693df4-36cd-4241-9cae-2173e8fb760c
[2]https://twitter.com/DimitrisPapail/status/1666843952824168465