Scrapy 2.5 documentation

Scrapy 是一种快速的高级 web crawlingweb scraping 框架,用于对网站进行爬网并从其页面提取结构化数据。它可以用于广泛的用途,从数据挖掘到监控和自动化测试。

得到帮助

有麻烦吗?我们想帮忙!

  • 试试 FAQ --它有一些常见问题的答案。

  • 寻找具体信息?试试 索引模块索引 .

  • 使用scrapy标签`_在StackOverflow中提问或搜索问题。

  • 在“Scrapy subreddit”中询问或搜索问题。

  • 搜索`scrapy-users邮件列表`_的档案问题。

  • 在`#scrapy IRC channel`_ 中提问,

  • 在我们的“问题跟踪器”中用Scrapy报告错误。

第一步

Scrapy一目了然

了解 Scrapy 是什么以及它如何帮助你。

安装指南

在你的电脑上安装Scrapy。

Scrapy 教程

写你的第一个 Scrapy 项目。

实例

通过玩预先制作的零碎项目了解更多信息。

基本概念

命令行工具

了解用于管理零碎项目的命令行工具。

蜘蛛

编写规则以对网站进行爬网。

选择器

使用xpath从网页中提取数据。

Scrapy shell

在交互式环境中测试提取代码。

项目

定义要擦除的数据。

项目加载器

用提取的数据填充项目。

项目管道

后处理和存储您的抓取数据。

Feed 导出

使用不同的格式和存储输出抓取的数据。

请求和响应

了解用于表示HTTP请求和响应的类。

链接提取器

方便的类从页面中提取要跟踪的链接。

设置

了解如何配置Scrapy并查看所有 available settings .

例外情况

查看所有可用的异常及其含义。

内置服务

登录

了解如何在Scrapy上使用Python的内置日志记录。

统计数据集合

收集关于您的 Scrape 爬虫的统计数据。

发送电子邮件

发生某些事件时发送电子邮件通知。

远程登录控制台

使用内置的python控制台检查正在运行的爬虫程序。

Web服务

使用Web服务监视和控制爬虫程序。

解决具体问题

常见问题

获取最常见问题的答案。

调试spiders

学习如何调试你的废蜘蛛的常见问题。

蜘蛛合约

学习如何使用联系来测试你的蜘蛛。

常用做法

熟悉一些 Scrapy 惯例。

宽爬行

调整Scrapy以并行地爬行许多域。

使用浏览器的开发人员工具进行抓取

了解如何使用浏览器的开发人员工具。

选择动态加载的内容

读取动态加载的网页数据。

调试内存泄漏

学习如何发现并消除爬行器中的内存泄漏。

下载和处理文件和图像

下载与抓取项目相关的文件和/或图像。

部署蜘蛛

部署 Scrapy 蜘蛛并在远程服务器中运行它们。

AutoThrottle 扩展

根据负载动态调整爬行速率。

标杆管理

检查Scrapy在硬件上的性能。

作业:暂停和恢复爬行

学习如何暂停和恢复大型蜘蛛的爬行。

协同程序

使用 coroutine syntax .

asyncio

使用 asyncioasyncio -动力库。

扩展Scrapy

体系结构概述

了解 Scrapy 构造。

下载器中间件

自定义请求和下载页面的方式。

蜘蛛中间件

自定义蜘蛛的输入和输出。

扩展

使用自定义功能扩展scrapy

核心API

在扩展和中间软件上使用它来扩展 Scrapy 功能

信号

查看所有可用信号以及如何使用它们。

调度程序

了解调度程序组件。

条目导出器

快速将已删除的项目导出到文件(XML,CSV等)。

其余所有

发行说明

看看最近的Scrapy版本有什么变化。

为 Scrapy 贡献

学习如何为 Scrapy 项目做出贡献。

版本控制和API稳定性

了解Scrapy版本和API稳定性。