Scrapy 1.6 documentation

Scrapy 是一种快速的高级 web crawlingweb scraping 框架,用于对网站进行爬网并从其页面提取结构化数据。它可以用于广泛的用途,从数据挖掘到监控和自动化测试。

得到帮助

有麻烦吗?我们想帮忙!

第一步

Scrapy at a glance
了解 Scrapy 是什么以及它如何帮助你。
安装指南
在你的电脑上安装Scrapy。
Scrapy 教程
写你的第一个 Scrapy 项目。
实例
通过玩预先制作的零碎项目了解更多信息。

基本概念

命令行工具
了解用于管理零碎项目的命令行工具。
Spider
编写规则以对网站进行爬网。
选择器
使用xpath从网页中提取数据。
Scrapy shell
在交互式环境中测试提取代码。
项目
定义要擦除的数据。
项目加载器
用提取的数据填充项目。
项目管道
后处理和存储您的抓取数据。
Feed 导出
使用不同的格式和存储输出抓取的数据。
请求和响应
了解用于表示HTTP请求和响应的类。
链接提取器
方便的类从页面中提取要跟踪的链接。
设置
了解如何配置Scrapy并查看所有 available settings .
例外情况
查看所有可用的异常及其含义。

内置服务

Logging
了解如何在Scrapy上使用Python的内置日志记录。
统计数据集合
收集关于您的 Scrape 爬虫的统计数据。
发送电子邮件
发生某些事件时发送电子邮件通知。
远程登录控制台
使用内置的python控制台检查正在运行的爬虫程序。
Web服务
使用Web服务监视和控制爬虫程序。

解决具体问题

常见问题
获取最常见问题的答案。
调试spiders
了解如何调试 Scrapy Spider 的常见问题。
Spider 合约
学习如何使用合同来测试你的 Spider 。
常用做法
熟悉一些 Scrapy 惯例。
通用爬虫
调整Scrapy以并行地爬行许多域。
使用浏览器的开发人员工具进行抓取
了解如何使用浏览器的开发人员工具。
调试内存泄漏
学习如何发现并消除爬行器中的内存泄漏。
下载和处理文件和图像
下载与抓取项目相关的文件和/或图像。
部署 Spider
部署碎片 Spider 并在远程服务器中运行它们。
AutoThrottle 扩展
根据负载动态调整爬行速率。
Benchmarking
检查Scrapy在硬件上的性能。
作业:暂停和恢复爬行
学习如何暂停和恢复大型 Spider 的爬行。

延伸 Scrapy

体系结构概述
了解 Scrapy 建筑。
下载器中间件
自定义请求和下载页面的方式。
Spider 中间件
自定义 Spider 的输入和输出。
扩展
使用自定义功能扩展scrapy
核心API
在扩展和中间软件上使用它来扩展 Scrapy 功能
信号
查看所有可用信号以及如何使用它们。
条目导出器
快速将刮下的项目导出到文件(XML、CSV等)。

其余所有

发行说明
看看最近的垃圾版本有什么变化。
为 Scrapy 贡献
学习如何为 Scrapy 项目做出贡献。
版本控制和API稳定性
了解Scrapy版本和API稳定性。