绿软下载·绿色软件联盟

这 10 个开源项目基本覆盖了 AI 数据采集的完整流程，从网页爬取、浏览器自动化、文档解析到移动端数据获取都有对应方案。不管是想给 Hermes、OpenClaw 等 AI 项目准备数据，还是搭建自己的数据采集流程，都可以根据不同场景组合使用。大部分项目均已开源，并拥有活跃的社区维护。

Firecrawl：输入一个 URL 即可自动抓取整个网站，并输出适合 LLM 使用的干净数据，支持 JavaScript 渲染页面。

Crawl4AI：将网页转换为大语言模型可直接读取的文本内容，无需 API Key，适合快速构建 AI 数据集。

browser-use：让 AI 像真人一样操作浏览器，可完成点击、登录、填写表单等自动化任务。

Crawlee：提供任务队列、自动重试、代理管理、浏览器自动化等功能，适用于大规模网页采集。

Scrapy：Python 生态经典爬虫框架，性能稳定，适合构建高并发数据采集系统。

MarkItDown：微软开源工具，可将 PDF、Office 文档、HTML、图片等内容批量转换为 Markdown 或文本，方便 AI 处理。

Scrapling：支持智能网页解析，对页面结构变化具有一定适应能力，可提升数据采集稳定性。

scrcpy：通过电脑远程控制 Android 手机，适合处理仅提供 App、不提供网页的数据来源。

AutoScraper：只需提供目标样例即可自动学习提取规则，无需手动编写复杂选择器。

curl-impersonate：模拟主流浏览器网络请求特征，提高与真实浏览器的一致性，适用于需要兼容不同网站请求环境的场景。

AI 数据采集爬虫软件合集