ECOT 论文阅读笔记
2026-05-21
张柯论文指导

Robotic Control via Embodied Chain-of-Thought Reasoning base
Training Strategies for Efficient Embodied Reasoning 续作,主要关注ecot为什么work以及推理速度和性能之间权衡;
Motivation
- 现有的vla直接学习从observation到action映射,没有经过思考,更像是肌肉记忆;这种肌肉记忆对于domain内的场景表现还可以,但是对于domain外的泛化却是比较差的根源;
- 这个问题在长程任务上更为明显;
- vlm使用思维连chain-of-thought推理作为辅助训练/推理任务,可以有效提升模型在如数学问题分析等复杂问题上的表现,大幅度降低语言大模型的幻觉问题;
- 综上可以设想通过训练vla模型以文本形式推理其执行给定任务时的计划(plan)、环境分析(environment)、动作(motion),以提升其泛化能力;
- 在vla上直接使用cot存在的问题:
- 基于开源的vlm小模型二次开发的vla模型,在给定逐步思考的提示prompt时,很难有闭源大模型那样的合理表现;
- 纯语言的cot单纯做任务拆解对vla提升有限;vla的cot需要结合除语言任务提示意外的环境和自身状态来做任务规划、环境识别以及动作规划;
- 接下来方法论部分分析介绍以下几个问题:
- 哪些cot内容是对任务有增益的?
- 如何生成对应的真值用于训练?
- 推理使用cot会增加延迟,如何优化?
Method
cot内容设计
- TASK-复述任务
- PLAN-规划子任务
- SUBTASK-推理正在执行的子任务
- MOVE-推理末端移动方向
- GRIPPER-推理末端位置
- OBJECT-环境物体检测
如果需要论文指导,可联系网站客服!
学员评价

推荐阅读:
- 上一篇:Harvard 引文格式(吐血整理自用,必须最新最全)
- 下一篇:没有了