Scrapy 2.5 documentation¶
Scrapy 是一种快速的高级 web crawling 和 web scraping 框架,用于对网站进行爬网并从其页面提取结构化数据。它可以用于广泛的用途,从数据挖掘到监控和自动化测试。
得到帮助¶
有麻烦吗?我们想帮忙!
第一步¶
- Scrapy一目了然
了解 Scrapy 是什么以及它如何帮助你。
- 安装指南
在你的电脑上安装Scrapy。
- Scrapy 教程
写你的第一个 Scrapy 项目。
- 实例
通过玩预先制作的零碎项目了解更多信息。
基本概念¶
内置服务¶
解决具体问题¶
- 常见问题
获取最常见问题的答案。
- 调试spiders
学习如何调试你的废蜘蛛的常见问题。
- 蜘蛛合约
学习如何使用联系来测试你的蜘蛛。
- 常用做法
熟悉一些 Scrapy 惯例。
- 宽爬行
调整Scrapy以并行地爬行许多域。
- 使用浏览器的开发人员工具进行抓取
了解如何使用浏览器的开发人员工具。
- 选择动态加载的内容
读取动态加载的网页数据。
- 调试内存泄漏
学习如何发现并消除爬行器中的内存泄漏。
- 下载和处理文件和图像
下载与抓取项目相关的文件和/或图像。
- 部署蜘蛛
部署 Scrapy 蜘蛛并在远程服务器中运行它们。
- AutoThrottle 扩展
根据负载动态调整爬行速率。
- 标杆管理
检查Scrapy在硬件上的性能。
- 作业:暂停和恢复爬行
学习如何暂停和恢复大型蜘蛛的爬行。
- 协同程序
使用 coroutine syntax .
- asyncio
扩展Scrapy¶
其余所有¶
- 发行说明
看看最近的Scrapy版本有什么变化。
- 为 Scrapy 贡献
学习如何为 Scrapy 项目做出贡献。
- 版本控制和API稳定性
了解Scrapy版本和API稳定性。