开源推荐
evening
GitHub 热门项目:ScrapeServ
2026-06-17
1 阅读
GitHub Trending
GitHub 项目:ScrapeServ
仓库地址:https://github.com/goodreasonai/ScrapeServ
星级:1185 | 作者:goodreasonai
项目描述:一个自托管 API,它接受 URL 并返回带有浏览器屏幕截图的文件。
===================================================
自述文件内容:
# ScrapeServ:屏幕截图服务器的简单 URL
您在计算机上将 API 作为 Web 服务器运行,向其发送 URL,然后以文件形式返回网站数据以及网站的屏幕截图。简单如。
该项目是为了支持 AI 平台 [Abbey](https://github.com/goodreasonai/abbey)。它的作者是[Gordon Kamer](https://x.com/gkamer8)。如果您喜欢这个项目,请留下一颗星星! 一些亮点: - 滚动浏览页面并截取不同部分的屏幕截图 - 在 docker 容器中运行 - 基于浏览器(将运行网站的 Javascript) - 为您提供第一个请求的 HTTP 状态代码和标头 - 自动处理重定向 - 正确处理下载链接 - 任务在具有可配置内存分配的队列中处理 - 阻止API - 零状态或其他复杂性 该网络爬虫是资源密集型的,但比许多替代品质量更高。网站是使用 Playwright 进行抓取的,它会为每个作业启动一个 Firefox 浏览器上下文。 ## 设置 您应该安装 Docker 和 `docker compose`。 ### 简单(使用预先构建的图像) 您可以使用名为“usaiinc/scraper”的预构建映像。您可以通过创建一个名为“docker-compose.yml”的文件并将以下内容放入其中,将其与“docker compose”一起使用: ```` 服务: 刮刀: 图片:usaiinc/scraper:最新 端口: - 5006:5006 # 卷: # - ./.env:/app/.env ```` 然后,您可以通过在文件所在的目录中运行“docker compose up”来运行它。有关如何与服务器交互的信息,请参阅下面的[用法](#usage)部分! ### 可定制(从源代码构建) 另一种选择是克隆存储库并自己构建它,这也很容易!这还允许您修改服务器设置,例如内存使用情况、队列的最大长度和其他默认配置。 1. 克隆这个仓库 2. 运行 `docker compose up` (提供了一个 `docker-compose.yml` 文件供您使用) ...该服务将在“http://localhost:5006”处可用。有关如何与其交互的详细信息,请参阅下面的[用法](#usage) 部分。 ## 用法 ### 来自您的应用程序 **查看 [client](client/README.md) 以获取 Python 中的完整参考客户端实现。** 只需发送 HTTP 请求并根据下面的 [API 参考](#api-reference) 处理响应即可。 ### 从 Mac/Linux 上的命令行 您可以使用 cURL 和 ripmime 从命令行与 API 进行交互。 Ripmime 处理“multipart/mixed”HTTP 响应并将下载的文件放入文件夹中。在 Mac 上使用 `brew install ripmime` 或在 Linux 上使用 `apt-get install ripmime` 安装 [ripmime](https://pldaniels.com/ripmime/)。然后,将其粘贴到您的终端中: ```` 卷曲-i -s -X POST“http://localhost:5006/scrape”\ -H“内容类型:application/json”\ -d '{"url": "https://goodreason.ai"}' \ | r