GitHub 热门项目:ai-crawler-py

2026-06-17 1 阅读 GitHub Trending
GitHub 项目:ai-crawler-py 仓库地址:https://github.com/oxylabs/ai-crawler-py 星级:2953 | 作者:oxylabs 项目描述:从 URL 开始抓取网站,查找相关页面并提取数据 - 一切都由自然语言提示引导。 =================================================== 自述文件内容: # 人工智能爬虫 [![人工智能爬虫标头](https://github.com/oxylabs/ai-crawler-py/blob/main/Ai-studio%20.png)](https://aistudio.oxylabs.io/apps/crawl?utm_source=877&u tm_medium=affiliate&utm_campaign=ai_studio&groupid=877&utm_content=ai-crawler-py-github&transaction_id=102f49063ab94276ae8f116d224b67) [![](https://dcbadge.limes.pink/api/server/Pds3gBmKMH?style=for-the-badge&theme=discord)](https://discord.gg/Pds3gBmKMH) [![YouTube](https://img.shields.io/badge/YouTube-Oxylabs-red?style=for-the-badge&logo=youtube&logoColor=white)](https://www.youtube.com/@oxylabs) [**AI-Crawler**](https://aistudio.oxylabs.io/apps/crawl) 是 [**Oxylabs AI Studio**](https://aistudio.oxylabs.io/) 开发的实验性数据提取应用程序,它使用先进的 AI 算法来抓取给定的域。它根据自然语言提示识别相关页面,并提取结构化 **JSON** 或 **Markdown** 输出数据。 这种低代码工具旨在简化复杂的数据采集任务,使开发人员和数据科学家能够专注于分析,而不是构建和维护自定义网络抓取工具。 AI 网络爬虫提供高级过滤、基于模式的解析以及与各种自动化管道的无缝集成。 ## 主要特点 - **从任何给定 URL 开始抓取:** 使用 AI Crawler 作为起点,从任何有效网址开始提取数据。 - **自然语言提示:** 用简单的英语定义您的数据需求,抓取代理将解释提示以查找相关内容。 - **AI 辅助 URL 选择:** AI 网络爬虫智能地探索网站,识别并优先考虑与您的提示最相符的页面。 - **多种输出格式:** 在结构化 JSON 或 Markdown 输出之间进行选择,以无缝集成到自动化或 AI 工作流程中。 - **基于模式的解析:** 对于 JSON 输出,您可以用自然语言定义解析模式,以确保提取的数据的结构适合您的应用程序。 ## 它是如何工作的 要开始使用 AI Crawler,请遵循以下四步流程: 1. **提供您希望网络爬虫探索的网站的起始 URL**。 2. **使用爬网代理的自然语言提示描述要检索的内容**。 3. **选择输出格式。** 在结构化 JSON 或 Markdown 之间进行选择。 4. **如果使用 JSON 输出,**提供一个架构来指导 AI 网络爬虫解析和构建提取的数据。 ### 安装 首先,请确保您有权访问 API 密钥(或[获取免费试用](https://aistudio.oxylabs.io/register),并获得 **1,000 积分**)并安装“Python 3.10+”。您可以使用 pip 安装 `oxylabs-ai-studio` 包: ````bash pip 安装 oxylabs-ai-studio ```` ### 代码示例 (Python) 以下示例演示如何使用`AiCrawler`执行常见的爬虫任务。 ````蟒蛇 从 oxylabs_ai_studio.apps.ai_crawler 导入 AiCrawler 进口