大模型为啥这么慢,原来是想多了:新方向是和人一样的思维算法人类直觉是一种常被 AI 研究者忽视的能力,但其精妙程度连我们自身也没有彻底理解。弗吉尼亚理工大...

贴文 3个月前
1.3K 0

大模型为啥这么慢,原来是想多了:新方向是和人一样的思维算法

人类直觉是一种常被 AI 研究者忽视的能力,但其精妙程度连我们自身也没有彻底理解。弗吉尼亚理工大学和微软的一个研究团队在近日的一篇论文中提出了思维算法(AoT),其组合了直觉能力与算法方法的条理性,从而能在保证 LLM 性能的同时极大节省成本。

大型语言模型近来发展速度很快,其在解决一般问题、生成代码和跟随指令方面表现出了显著的非凡能力。

尽管早期的模型依赖于直接回答策略,但当前的研究则转向了线性推理路径,其做法是将问题分解成子任务来发现解决方案,或通过修改上下文来利用外部机制来改变 token 的生成。

与人类认知类似,早期的 LLM 策略似乎模仿的是即时的 System 1(快速反应),其特征是通过脉冲决策实现。相较之下,思维链(CoT)和 least-to-most prompting(L2M)等更新的一些方法则反映了 System 2(慢速思考)的内省式本质。值得注意的是,通过整合中间推理步骤,可让 LLM 的算术推理能力获得提升。

但是,如果任务需要更深度的规划和更广度的思维探索,那么这些的方法的局限性就显现出来了。尽管整合了自我一致性的 CoT(CoT-SC)可使用多个 LLM 输出来达成共识性结果,但由于缺少细致的评估,可能会导致模型走向错误方向。2023 年出现的思维树(ToT)是一种值得注意的解决方案。其中使用一个 LLM 来生成想法,再使用另一个 LLM 来评估这些想法的优点,之后续以「暂停 – 评估 – 继续」的循环。这种基于树搜索的迭代过程明显是有效的,尤其是对于具有较长延续性的任务。研究者认为,这种进展是使用外部工具来增强 LLM网页链接

暂无评论

暂无评论...