Scrapy 2.13 文档

简介: Scrapy 2.13 文档 Scrapy 是一个快速的高级 网络爬行 和 网络抓取 框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据

Scrapy 2.13 文档

Scrapy 是一个快速的高级 网络爬行 和 网络抓取 框架,用于抓取网站并从其页面中提取结构化数据。它可用于各种用途,从数据挖掘到监控和自动化测试。

获取帮助

遇到问题?我们很乐意提供帮助!

试试 常见问题解答 – 它包含一些常见问题的答案。

寻找特定信息?试试 索引 或 模块索引。

在 StackOverflow 上使用 scrapy 标签提问或搜索问题。

在 Scrapy subreddit 上提问或搜索问题。

在 scrapy-users 邮件列表的归档中搜索问题。

在 #scrapy IRC 频道中提问,

在我们的 问题跟踪器中报告 Scrapy 的错误。

加入 Discord 社区 Scrapy Discord。

第一步

Scrapy 概览了解 Scrapy 是什么以及它如何帮助你。

安装指南在你的电脑上安装 Scrapy。

Scrapy 教程编写你的第一个 Scrapy 项目。

示例通过一个现成的 Scrapy 项目来学习更多。

基本概念

命令行工具了解用于管理 Scrapy 项目的命令行工具。

爬虫编写抓取网站的规则。

选择器使用 XPath 从网页中提取数据。

Scrapy shell在交互式环境中测试你的提取代码。

项目定义你想抓取的数据。

项目加载器用提取的数据填充你的数据项(items)。

数据管道后处理和存储你的抓取数据。

数据导出使用不同的格式和存储方式输出你的抓取数据。

请求与响应了解用于表示 HTTP 请求和响应的类。

链接提取器用于从页面中提取要跟随的链接的便捷类。

设置了解如何配置 Scrapy 并查看所有 可用设置。

异常查看所有可用异常及其含义。

内置服务

日志了解如何在 Scrapy 中使用 Python 的内置日志记录。

统计信息收集收集关于你的抓取爬虫的统计信息。

发送电子邮件在特定事件发生时发送电子邮件通知。

Telnet 控制台使用内置的 Python 控制台检查正在运行的爬虫。

解决特定问题

常见问题解答获取最常见问题的答案。

调试爬虫了解如何调试 Scrapy 爬虫的常见问题。

爬虫契约了解如何使用契约来测试你的爬虫。

常见实践熟悉一些 Scrapy 常见实践。

宽泛抓取调整 Scrapy 以并行抓取大量域。

使用浏览器开发者工具进行抓取学习如何使用浏览器开发者工具进行抓取。

选择动态加载的内容读取动态加载的网页数据。

调试内存泄漏学习如何在你的爬虫中查找和清除内存泄漏。

下载和处理文件及图片下载与你抓取的数据项(items)相关的文件和/或图片。

部署爬虫部署你的 Scrapy 爬虫并在远程服务器上运行它们。

AutoThrottle 扩展根据负载动态调整抓取速率。

基准测试检查 Scrapy 在你的硬件上的性能。

作业:暂停和恢复抓取学习如何暂停和恢复大型爬虫的抓取。

协程使用 协程语法。

asyncio使用 asyncio 和由 asyncio 驱动的库。

扩展 Scrapy

架构概览理解 Scrapy 架构。

附加组件启用和配置第三方扩展。

下载器中间件自定义页面如何被请求和下载。

爬虫中间件自定义爬虫的输入和输出。

扩展用你的自定义功能扩展 Scrapy

信号查看所有可用信号以及如何使用它们。

调度器理解调度器组件。

数据导出器快速将你抓取的数据项(items)导出到文件(XML, CSV 等)。

组件学习构建自定义 Scrapy 组件时的通用 API 和一些良好实践。

核心 API在扩展和中间件中使用它来扩展 Scrapy 功能。

其他内容

发布说明查看 Scrapy 近期版本中的变化。

贡献给 Scrapy学习如何贡献给 Scrapy 项目。

版本控制与 API 稳定性理解 Scrapy 版本控制和 API 稳定性。