部署蜘蛛

本节描述了部署报废蜘蛛以定期运行它们的不同选项。在您的本地机器中运行 Scrapy 蜘蛛对于(早期)开发阶段非常方便,但是当您需要执行长时间运行的蜘蛛或移动蜘蛛以在生产中连续运行时,就不那么方便了。这就是部署报废蜘蛛的解决方案。

部署报废蜘蛛的常见选择是:

部署到ScrapyD服务器

Scrapyd 是一个开放源码的应用程序,可以运行 Scrapy 蜘蛛。它为服务器提供了HTTP API,能够运行和监视 Scrapy 蜘蛛。

要将spiders部署到scrapyD,可以使用由提供的scrapyD部署工具 scrapyd-client 包裹。请参阅 scrapyd-deploy documentation 更多信息。

ScrapyD由一些Scrapy开发人员维护。

部署到Zyte Scrapy Cloud

Zyte Scrapy Cloud 是一项托管的基于云的服务,由 Zyte, Scrapy背后的公司。

Zyte Scrapy Cloud消除了设置和监控服务器的需要,并提供了一个不错的UI来管理蜘蛛并查看抓取的项目、日志和统计数据。

要将爬行器部署到Zyte Scrapy Cloud,可以使用 shub 命令行工具。请参阅 Zyte Scrapy Cloud documentation 了解更多信息。

Zyte Scrapy Cloud与Scrapyd兼容,用户可以根据需要在它们之间切换-配置从 scrapy.cfg 文件就像 scrapyd-deploy