算法让机器人离“凭直觉行动”又近了一步

2024-09-11 17:12:59

赫特福德郡大学的研究人员开发了一种新算法，可以让机器人更直观地发挥作用，即利用环境作为指导做出决策。

赫特福德郡大学的研究人员开发了一种新算法，可以让机器人更直观地发挥作用，也就是说，利用环境的指导做出决策。

其原理是，通过算法，机器人代理创建自己的目标。

该算法第一次将不同的目标设定方法统一在一个与物理学直接相关的概念下，并且它还使计算透明，以便其他人可以研究和采用它。

该算法的原理与著名的混沌理论有关，因为该方法使智能体“成为系统动力学混沌的掌握者”。

该研究已发表在日记中PRX 寿命。赫兹研究人员探索了机器人“动机模型”，即使在没有明确奖励信号的情况下，它也能模仿人类和动物的决策过程。

研究介绍人工智能(AI) 公式计算机器人无需直接指令或人工输入即可决定未来行动的方法。

计算机科学教授兼资深作者丹尼尔·波拉尼 (Daniel Polani) 解释说：“从应用意义上来说，这可能意味着让机器人在没有被告知的情况下自行玩耍和操纵物体。

“它可以通过鼓励更‘自然’的行为和互动，增强机器人学习与人类和其他机器人互动的方式。

“这还有进一步的应用，例如半自主机器人放置在人类操作员无法到达的地方（例如地下或星际位置）的生存行为。”

在人类和动物中，一种理论假设存在一种“内在动机”，即行为仅由生物与其环境之间的相互作用驱动，而不是由特定的习得奖励（例如食物）驱动。本文成功地将“内在动机”理论转化为可供机器人代理使用的理论。

波拉尼教授补充道：“这项工作令人兴奋，因为我们现在可以在机器人中实现一种机制，类似于帮助人类和动物在没有经验的情况下解决新问题的机制。

“我们希望在这项工作的基础上，未来能够开发出更多具有更直观流程的类人机器人。这为具有与我们类似决策流程的更复杂的机器人提供了巨大的机会。”

本文所依据的理论称为“赋权最大化”，已在赫茨发展多年。它表明，通过增加未来结果的范围，机器人在更长的未来也将拥有更好的选择。重要的是，这种方法取代并因此可能消除传统的奖励系统（例如食物信号）。

虽然赋权最大化已显示出希望，但尚未得到充分理解或广泛应用。大多数研究过去依赖于模拟，同时仔细计算必要的信息复杂系统该理论仍然具有挑战性。

然而，这项最新的创新研究旨在解释为什么基于赋权的动机可以创造与生物体类似的行为，从而有可能产生更具内在动机的机器人；它还提供了一种显着改进的方法来计算这些动机。

波拉尼教授表示，下一步是利用这一突破性算法让机器人更多地了解世界，开发直接学习能力，识别和磨练新技能，从而在现实世界场景中发挥其价值。

更多信息：Stas Tiomkin 等人，动态控制系统的内在动机，PRX 寿命（2024）。DOI：10.1103/PRXLife.2.033009

引文:算法让机器人离“凭直觉行动”又近了一步（2024 年 9 月 11 日）检索日期：2024 年 9 月 11 日来自 https://techxplore.com/news/2024-09-algorithm-robots-closer-intuition.html

本文档受版权保护。除了出于私人学习或研究目的的任何公平交易外，不得未经书面许可，不得复制部分内容。所提供的内容仅供参考。