张柯论文指导

张柯论文指导考试资料
当前位置:张柯论文指导 > 毕业论文答疑 >

ECOT 论文阅读笔记

2026-05-21 张柯论文指导

Robotic Control via Embodied Chain-of-Thought Reasoning base

Training Strategies for Efficient Embodied Reasoning 续作,主要关注ecot为什么work以及推理速度和性能之间权衡;

Motivation

  • 现有的vla直接学习从observation到action映射,没有经过思考,更像是肌肉记忆;这种肌肉记忆对于domain内的场景表现还可以,但是对于domain外的泛化却是比较差的根源;
  • 这个问题在长程任务上更为明显;
  • vlm使用思维连chain-of-thought推理作为辅助训练/推理任务,可以有效提升模型在如数学问题分析等复杂问题上的表现,大幅度降低语言大模型的幻觉问题;
  • 综上可以设想通过训练vla模型以文本形式推理其执行给定任务时的计划(plan)、环境分析(environment)、动作(motion),以提升其泛化能力;
  • 在vla上直接使用cot存在的问题:
    • 基于开源的vlm小模型二次开发的vla模型,在给定逐步思考的提示prompt时,很难有闭源大模型那样的合理表现;
    • 纯语言的cot单纯做任务拆解对vla提升有限;vla的cot需要结合除语言任务提示意外的环境和自身状态来做任务规划、环境识别以及动作规划;
带ecot的vla示意图;在输出action前会先做环境/自身状态分析、自任务规划
  • 接下来方法论部分分析介绍以下几个问题:
    • 哪些cot内容是对任务有增益的?
    • 如何生成对应的真值用于训练?
    • 推理使用cot会增加延迟,如何优化?

Method

cot内容设计

  • TASK-复述任务
  • PLAN-规划子任务
  • SUBTASK-推理正在执行的子任务
  • MOVE-推理末端移动方向
  • GRIPPER-推理末端位置
  • OBJECT-环境物体检测

如果需要论文指导,可联系网站客服!

学员评价

随机文章
长按复制 bbapay 加微信!