LvRuan绿软

SeeAct:识别网页元素执行任务

SeeAct 简介

SeeAct 是一个基于 GPT-4V 的通用网络代理,它融合了视觉感知能力和自然语言处理能力,能够在各种网站上识别网页元素并执行多样化的任务。例如,它可以在苹果官网上比较不同型号的iPhone并提供购买建议,或者在旅游网站上搜索航班信息。SeeAct 展示了推测性规划、网页内容推理到错误自我纠正等多种能力。

主要能力

  1. 执行网站任务:在任何网站上执行特定任务,如产品比较、航班搜索等。
  2. 动作生成:模拟人类浏览网页,生成完成任务所需的动作描述。
  3. 动作定位:识别网页上与动作描述相对应的HTML元素,执行相应操作。
  4. 多种能力展示:包括推测性规划、网页内容推理和错误自我纠正。
  5. 适用多种网站:能够适应并在不同类型的网站上执行任务。

应用场景

SeeAct 的应用场景包括但不限于:

  • 电子商务网站:比较产品规格、价格和功能,提供购买建议。
  • 旅游网站:搜索航班信息、酒店预订和旅游计划。
  • 教育和研究:从多个学术网站收集和对比信息。
  • 个人助理:帮助用户在多个网站上执行复杂的任务。

下载地址