张柯论文指导

当前位置：张柯论文指导 > 毕业论文答疑 >

ECOT 论文阅读笔记

2026-05-21 张柯论文指导

Robotic Control via Embodied Chain-of-Thought Reasoning base

Training Strategies for Efficient Embodied Reasoning 续作，主要关注ecot为什么work以及推理速度和性能之间权衡；

Motivation

现有的vla直接学习从observation到action映射，没有经过思考，更像是肌肉记忆；这种肌肉记忆对于domain内的场景表现还可以，但是对于domain外的泛化却是比较差的根源；
这个问题在长程任务上更为明显；
vlm使用思维连chain-of-thought推理作为辅助训练/推理任务，可以有效提升模型在如数学问题分析等复杂问题上的表现，大幅度降低语言大模型的幻觉问题；
综上可以设想通过训练vla模型以文本形式推理其执行给定任务时的计划（plan）、环境分析（environment）、动作（motion），以提升其泛化能力；
在vla上直接使用cot存在的问题：

基于开源的vlm小模型二次开发的vla模型，在给定逐步思考的提示prompt时，很难有闭源大模型那样的合理表现；
纯语言的cot单纯做任务拆解对vla提升有限；vla的cot需要结合除语言任务提示意外的环境和自身状态来做任务规划、环境识别以及动作规划；

带ecot的vla示意图；在输出action前会先做环境/自身状态分析、自任务规划

接下来方法论部分分析介绍以下几个问题：

哪些cot内容是对任务有增益的？
如何生成对应的真值用于训练？
推理使用cot会增加延迟，如何优化？

Method

cot内容设计

TASK-复述任务
PLAN-规划子任务
SUBTASK-推理正在执行的子任务
MOVE-推理末端移动方向
GRIPPER-推理末端位置
OBJECT-环境物体检测

上一篇：Harvard 引文格式（吐血整理自用，必须最新最全）
下一篇：没有了

随机文章

最新文章

返回
首页

长按复制 bbapay 加微信！