
SeeAct 简介
SeeAct 是一个基于 GPT-4V 的通用网络代理,它融合了视觉感知能力和自然语言处理能力,能够在各种网站上识别网页元素并执行多样化的任务。例如,它可以在苹果官网上比较不同型号的iPhone并提供购买建议,或者在旅游网站上搜索航班信息。SeeAct 展示了推测性规划、网页内容推理到错误自我纠正等多种能力。

主要能力
- 执行网站任务:在任何网站上执行特定任务,如产品比较、航班搜索等。
- 动作生成:模拟人类浏览网页,生成完成任务所需的动作描述。
- 动作定位:识别网页上与动作描述相对应的HTML元素,执行相应操作。
- 多种能力展示:包括推测性规划、网页内容推理和错误自我纠正。
- 适用多种网站:能够适应并在不同类型的网站上执行任务。

应用场景
SeeAct 的应用场景包括但不限于:
- 电子商务网站:比较产品规格、价格和功能,提供购买建议。
- 旅游网站:搜索航班信息、酒店预订和旅游计划。
- 教育和研究:从多个学术网站收集和对比信息。
- 个人助理:帮助用户在多个网站上执行复杂的任务。
下载地址
- 项目演示:SeeAct 项目页面
- 论文:SeeAct 论文
- GitHub:SeeAct GitHub