我们提出 V-Thinker,一个面向视觉交互推理的多模态推理框架。通过冷启动监督微调与强化学习相结合的训练,使模型能够在推理过程中自主生成代码并与图像交互,从而实现「边画边思考」的视觉推理方式。