开源推荐
morning
GitHub 热门项目:ai-crawler-py
2026-06-17
1 阅读
GitHub Trending
GitHub 项目:ai-crawler-py
仓库地址:https://github.com/oxylabs/ai-crawler-py
星级:2953 | 作者:oxylabs
项目描述:从 URL 开始抓取网站,查找相关页面并提取数据 - 一切都由自然语言提示引导。
===================================================
自述文件内容:
# 人工智能爬虫
[](https://aistudio.oxylabs.io/apps/crawl?utm_source=877&u tm_medium=affiliate&utm_campaign=ai_studio&groupid=877&utm_content=ai-crawler-py-github&transaction_id=102f49063ab94276ae8f116d224b67)
[](https://discord.gg/Pds3gBmKMH) [](https://www.youtube.com/@oxylabs)
[**AI-Crawler**](https://aistudio.oxylabs.io/apps/crawl) 是 [**Oxylabs AI Studio**](https://aistudio.oxylabs.io/) 开发的实验性数据提取应用程序,它使用先进的 AI 算法来抓取给定的域。它根据自然语言提示识别相关页面,并提取结构化 **JSON** 或 **Markdown** 输出数据。
这种低代码工具旨在简化复杂的数据采集任务,使开发人员和数据科学家能够专注于分析,而不是构建和维护自定义网络抓取工具。 AI 网络爬虫提供高级过滤、基于模式的解析以及与各种自动化管道的无缝集成。
## 主要特点
- **从任何给定 URL 开始抓取:** 使用 AI Crawler 作为起点,从任何有效网址开始提取数据。
- **自然语言提示:** 用简单的英语定义您的数据需求,抓取代理将解释提示以查找相关内容。
- **AI 辅助 URL 选择:** AI 网络爬虫智能地探索网站,识别并优先考虑与您的提示最相符的页面。
- **多种输出格式:** 在结构化 JSON 或 Markdown 输出之间进行选择,以无缝集成到自动化或 AI 工作流程中。
- **基于模式的解析:** 对于 JSON 输出,您可以用自然语言定义解析模式,以确保提取的数据的结构适合您的应用程序。
## 它是如何工作的
要开始使用 AI Crawler,请遵循以下四步流程:
1. **提供您希望网络爬虫探索的网站的起始 URL**。
2. **使用爬网代理的自然语言提示描述要检索的内容**。
3. **选择输出格式。** 在结构化 JSON 或 Markdown 之间进行选择。
4. **如果使用 JSON 输出,**提供一个架构来指导 AI 网络爬虫解析和构建提取的数据。
### 安装
首先,请确保您有权访问 API 密钥(或[获取免费试用](https://aistudio.oxylabs.io/register),并获得 **1,000 积分**)并安装“Python 3.10+”。您可以使用 pip 安装 `oxylabs-ai-studio` 包:
````bash
pip 安装 oxylabs-ai-studio
````
### 代码示例 (Python)
以下示例演示如何使用`AiCrawler`执行常见的爬虫任务。
````蟒蛇
从 oxylabs_ai_studio.apps.ai_crawler 导入 AiCrawler
进口