Scrapy
2.5

第一步

  • Scrapy一目了然
  • 安装指南
  • Scrapy 教程
  • 实例

基本概念

  • 命令行工具
  • 蜘蛛
  • 选择器
  • 项目
  • 项目加载器
  • Scrapy shell
  • 项目管道
  • Feed 导出
  • 请求和响应
  • 链接提取器
  • 设置
  • 例外情况

内置服务

  • 登录
  • 统计数据集合
  • 发送电子邮件
  • 远程登录控制台
  • Web服务

解决具体问题

  • 常见问题
  • 调试spiders
  • 蜘蛛合约
  • 常用做法
  • 宽爬行
  • 使用浏览器的开发人员工具进行抓取
  • 选择动态加载的内容
  • 调试内存泄漏
  • 下载和处理文件和图像
  • 部署蜘蛛
  • AutoThrottle 扩展
  • 标杆管理
  • 作业:暂停和恢复爬行
  • 协同程序
  • asyncio

扩展Scrapy

  • 体系结构概述
  • 下载器中间件
  • 蜘蛛中间件
  • 扩展
  • 核心API
  • 信号
  • 调度程序
  • 条目导出器

其余所有

  • 发行说明
  • 为 Scrapy 贡献
  • 版本控制和API稳定性
Scrapy
  • »
  • 概览:模块代码

代码可用的所有模块

  • parsel.selector
  • parsel.xpathfuncs
  • scrapy.contracts
  • scrapy.downloadermiddlewares.ajaxcrawl
  • scrapy.downloadermiddlewares.cookies
  • scrapy.downloadermiddlewares.defaultheaders
  • scrapy.downloadermiddlewares.downloadtimeout
  • scrapy.downloadermiddlewares.httpauth
  • scrapy.downloadermiddlewares.httpcompression
  • scrapy.downloadermiddlewares.httpproxy
  • scrapy.downloadermiddlewares.redirect
  • scrapy.downloadermiddlewares.stats
  • scrapy.downloadermiddlewares.useragent
  • scrapy.exceptions
  • scrapy.extensions.closespider
  • scrapy.extensions.corestats
  • scrapy.extensions.debug
  • scrapy.extensions.httpcache
  • scrapy.extensions.logstats
  • scrapy.extensions.memdebug
  • scrapy.extensions.postprocessing
  • scrapy.extensions.telnet
  • scrapy.http.request
    • scrapy.http.request.json_request
  • scrapy.http.response
    • scrapy.http.response.html
    • scrapy.http.response.text
    • scrapy.http.response.xml
  • scrapy.item
  • scrapy.link
  • scrapy.linkextractors.lxmlhtml
  • scrapy.logformatter
  • scrapy.robotstxt
  • scrapy.selector.unified
  • scrapy.settings
  • scrapy.spiderloader
  • scrapy.spidermiddlewares.depth
  • scrapy.spidermiddlewares.httperror
  • scrapy.spidermiddlewares.offsite
  • scrapy.spidermiddlewares.referer
  • scrapy.spidermiddlewares.urllength
  • scrapy.spiders.crawl
  • scrapy.spiders.feed
  • scrapy.spiders.sitemap
  • scrapy.statscollectors
  • scrapy.utils.curl
  • scrapy.utils.defer
  • scrapy.utils.reactor
  • scrapy.utils.request
  • scrapy.utils.trackref

© 版权所有 2008–2021, Scrapy developers. 最后更新于 10月 27, 2021.

Built with Sphinx using a theme provided by Read the Docs.