Scrapy 2.5 documentation¶

Scrapy 是一种快速的高级 web crawling 和 web scraping 框架，用于对网站进行爬网并从其页面提取结构化数据。它可以用于广泛的用途，从数据挖掘到监控和自动化测试。

得到帮助¶

有麻烦吗？我们想帮忙！

试试 FAQ --它有一些常见问题的答案。
寻找具体信息？试试索引或模块索引 .
使用scrapy标签`_在StackOverflow中提问或搜索问题。
在“Scrapy subreddit”中询问或搜索问题。
搜索`scrapy-users邮件列表`_的档案问题。
在`#scrapy IRC channel`_ 中提问,
在我们的“问题跟踪器”中用Scrapy报告错误。

第一步¶

Scrapy一目了然: 了解 Scrapy 是什么以及它如何帮助你。
安装指南: 在你的电脑上安装Scrapy。
Scrapy 教程: 写你的第一个 Scrapy 项目。
实例: 通过玩预先制作的零碎项目了解更多信息。

基本概念¶

命令行工具: 了解用于管理零碎项目的命令行工具。
蜘蛛: 编写规则以对网站进行爬网。
选择器: 使用xpath从网页中提取数据。
Scrapy shell: 在交互式环境中测试提取代码。
项目: 定义要擦除的数据。
项目加载器: 用提取的数据填充项目。
项目管道: 后处理和存储您的抓取数据。
Feed 导出: 使用不同的格式和存储输出抓取的数据。
请求和响应: 了解用于表示HTTP请求和响应的类。
链接提取器: 方便的类从页面中提取要跟踪的链接。
设置: 了解如何配置Scrapy并查看所有 available settings .
例外情况: 查看所有可用的异常及其含义。

内置服务¶

登录: 了解如何在Scrapy上使用Python的内置日志记录。
统计数据集合: 收集关于您的 Scrape 爬虫的统计数据。
发送电子邮件: 发生某些事件时发送电子邮件通知。
远程登录控制台: 使用内置的python控制台检查正在运行的爬虫程序。
Web服务: 使用Web服务监视和控制爬虫程序。

解决具体问题¶

常见问题: 获取最常见问题的答案。
调试spiders: 学习如何调试你的废蜘蛛的常见问题。
蜘蛛合约: 学习如何使用联系来测试你的蜘蛛。
常用做法: 熟悉一些 Scrapy 惯例。
宽爬行: 调整Scrapy以并行地爬行许多域。
使用浏览器的开发人员工具进行抓取: 了解如何使用浏览器的开发人员工具。
选择动态加载的内容: 读取动态加载的网页数据。
调试内存泄漏: 学习如何发现并消除爬行器中的内存泄漏。
下载和处理文件和图像: 下载与抓取项目相关的文件和/或图像。
部署蜘蛛: 部署 Scrapy 蜘蛛并在远程服务器中运行它们。
AutoThrottle 扩展: 根据负载动态调整爬行速率。
标杆管理: 检查Scrapy在硬件上的性能。
作业：暂停和恢复爬行: 学习如何暂停和恢复大型蜘蛛的爬行。
协同程序: 使用 coroutine syntax .
asyncio: 使用 asyncio 和 asyncio -动力库。

扩展Scrapy¶

体系结构概述: 了解 Scrapy 构造。
下载器中间件: 自定义请求和下载页面的方式。
蜘蛛中间件: 自定义蜘蛛的输入和输出。
扩展: 使用自定义功能扩展scrapy
核心API: 在扩展和中间软件上使用它来扩展 Scrapy 功能
信号: 查看所有可用信号以及如何使用它们。
调度程序: 了解调度程序组件。
条目导出器: 快速将已删除的项目导出到文件（XML，CSV等）。

其余所有¶

发行说明: 看看最近的Scrapy版本有什么变化。
为 Scrapy 贡献: 学习如何为 Scrapy 项目做出贡献。
版本控制和API稳定性: 了解Scrapy版本和API稳定性。