SeeAct：识别网页元素执行任务 | 绿软下载

SeeAct 简介

SeeAct 是一个基于 GPT-4V 的通用网络代理，它融合了视觉感知能力和自然语言处理能力，能够在各种网站上识别网页元素并执行多样化的任务。例如，它可以在苹果官网上比较不同型号的iPhone并提供购买建议，或者在旅游网站上搜索航班信息。SeeAct 展示了推测性规划、网页内容推理到错误自我纠正等多种能力。

主要能力

执行网站任务：在任何网站上执行特定任务，如产品比较、航班搜索等。
动作生成：模拟人类浏览网页，生成完成任务所需的动作描述。
动作定位：识别网页上与动作描述相对应的HTML元素，执行相应操作。
多种能力展示：包括推测性规划、网页内容推理和错误自我纠正。
适用多种网站：能够适应并在不同类型的网站上执行任务。

应用场景

SeeAct 的应用场景包括但不限于：

电子商务网站：比较产品规格、价格和功能，提供购买建议。
旅游网站：搜索航班信息、酒店预订和旅游计划。
教育和研究：从多个学术网站收集和对比信息。
个人助理：帮助用户在多个网站上执行复杂的任务。

下载地址

项目演示：SeeAct 项目页面
论文：SeeAct 论文
GitHub：SeeAct GitHub