| |
陆奇博士的边际到固定,三位一体是比较深刻的。
但目前LLM并没有做到这一点,LLM更像是工业革命早期的用水力推动的动力。原因如下:
1,它是第一次脱离人力的思维能力。和水力磨坊一样。
2,LLM应用需要去适配具体场景。和每一个水车都需要根据河道去做适配一样。
3,它的三位一体并没有有机地结合在一切。因为:
(A)它的感知能力,是被动的,是程序转为Tokens来协助它感知。不是它主动搜索、识别、决策、抛弃这样一个主动迭代的过程。
(B)它的具身能力,来自于强化学习。强化学习+多模态,形成Agent,会有具身能力。但强化学习,又带来了极大的限制。因为强化学习成本高昂,而且很多领域难以实现强化学习。
(C)决策能力和感知+具身融合的不够好。首先是决策能力无法实时更新,其实是“感知+具身”和决策是通过奖励函数来连接起来的。而单一的奖励函数导致决策单一,难以形成复杂的思维链,所以难以面对复杂的场景。
这些问题的核心是“三位一体”没有真正做到。真正的“三位一体”应该是感知、具身、决策是同步训练的,是融为一体的。机器创建自身的奖励体系,而不是使用外部的奖励函数。机器需要能具身地去模仿现实过程并获得这个过程带来的结果,而不是先学习语言过程,然后把现实过程翻译为语言过程,然后根据奖励函数去寻找相应地语言过程结果,然后根据结果,再次利用语言知识,来寻找语言过程;最后再通过强化学习去把语言过程翻译为实现过程。
找问题容易,怎么解决?事实上,我们确实已经有了解决方案。我们将带来内燃机。