Scrapy的运行方式：scrapy不同的运行方式

发表于2020-11-08|更新于2026-04-07|scrapy

|浏览量:

scrapy不同的运行方式

CrawlerProcess

custom_settings = {}  # 项目的配置文件
project_settings = get_project_settings()
settings = dict(project_settings.copy())
settings.update(custom_settings.get('settings'))
process = CrawlerProcess(settings)
process.crawl(Example2Spider)
process.start()

CrawlerRunner

configure_logging()
runner = CrawlerRunner()
@defer.inlineCallbacks
def crawl():
    yield runner.crawl(Example2Spider)
    # yield runner.crawl()
    reactor.stop()
# 调用crawl()
crawl()
reactor.run()

cmd

custom_settings = {}
project_settings = get_project_settings()
settings = dict(project_settings.copy())
settings.update(custom_settings)
execute(["scrapy", "crawl", "{}".format(name)], settings)

custom_settings设置

多个spider自动运行

process = CrawlerProcess(settings=get_project_settings())
for module_string in find_modules('demo_project.spiders'):
    # 通过模块名找到py文件
    module = import_string(module_string)
    # 拼接spider中的类名，比如demo
    class_string = module_string.split('.')[-1].capitalize() + 'Spider'
    print(f"正在处理的spider：-> {class_string}")
    # 通过反射拿到对应的类
    spider_class = getattr(module, class_string)
    # 开始运行所有的spider
    process.crawl(spider_class)
process.start()

多进程运行spider

subpros = []
s = 'scrapy crawl {} >/dev/null 2>&1'.format(spider_name)
for _ in range(pools):
    subpro = subprocess.Popen(s, shell=True, stdout=None)
    subpros.append(subpro)
    time.sleep(2)
for por in subpros:
    por.wait()

具体可以参考:https://github.com/SummerWorm-Bullfrog/ScrapyTemplate

文章作者: Jane

文章链接: https://zhang-jane.github.io/post/bf2ca3c2.html

版权声明: 本博客所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议。转载请注明来源 desperado！

相关推荐

Scrapy基础：[Scrapy](https://doc.scr…

Scrapy新建一个项目的命令：123456789101112131415161718192021scrapy startproject 项目的名称产生如下的目录：tutorial/ scrapy.cfg tutorial/ __init__.py items.py pipelines.py settings.py spiders/ __init__.py ...这些文件分别是:scrapy.cfg: 项目的配置文件tutorial/: 该项目的python模块。之后您将在此加入代码。tutorial/items.py: 项目中的item文件.tutorial/pipelines.py: 项目中的pipelines文件.tutorial/settings.py: 项目的设置文件.tutorial/spiders/: 放置spider代码的目录. 新建一个爬虫项目：123456Available templates: basic crawl ...

Scrapy的CrawlSpider类

scrapy的CrawlSpider类CrawlSpider：scrapy.spiders.CrawlSpider，规则爬虫，提供了一个新的属性 rules，该属性是一个包含一个或多个 Rule 对象的集合，每个 Rule 对爬取网站的动作定义了特定的规则。 spiders(Lib\site-packages\scrapy\spiders) 12345├── __init__.py├── crawl.py├── feed.py├── init.py└── sitemap.py 自定义爬虫类123456789101112from scrapy.spiders.crawl import CrawlSpider # 或者from scrapy.spiders import CrawlSpider，因为在__init__.py文件中以及帮你初始化导入了class TemplateSpidersSpider(CrawlSpider): name = 'template_spiders' allowed_domains = ['*'] ...

Scrapy调试技巧：scrapy fetch

scrapy fetch12scrapy fetch https://segmentfault.com/a/1190000017087999scrapy fetch https://segmentfault.com/a/1190000017087999 --nolog --headers scrapy shell 带请求头 1scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0" https://www.zhihu.com/question/285908404 1234$ scrapy shell>>> from scrapy import Request>>> req = Request('yoururl.com', headers={"header1":"value1"})>...

Scrapy中间件源码解读：源码解读

源码解读class MiddlewareManagerE:\python3.7.6\Lib\site-packages\scrapy\middleware.py class Spider(MiddlewareManager)E:\python3.7.6\Lib\site-packages\scrapy\core\spidermw.py class Download(MiddlewareManager)E:\python3.7.6\Lib\site-packages\scrapy\core\downloader\middleware.py class Extensions(MiddlewareManager)E:\python3.7.6\Lib\site-packages\scrapy\extension.py ItemPipelineManager(MiddlewareManager)E:\python3.7.6\Lib\site-packages\scrapy\pipelines_init_.py 关于中间件如何调用1234567891011121314151617181920...

Scrapy的Spider类：scrapy的Spider类

scrapy的Spider类Spider：scrapy.Spider, 是所有 Spider 的基类，它是最基础的爬虫，所有的 spider 都会继承 scrapy.Spider。它提供了 start_requests() 的默认实现，读取并请求 spider 属性中的 start_urls，并根据返回的 response 调用 spider 中的 parse 方法。 spiders(Lib\site-packages\scrapy\spiders) 12345├── __init__.py├── crawl.py├── feed.py├── init.py└── sitemap.py 自定义爬虫类1234567891011import scrapyclass TemplateSpidersSpider(scrapy.Spider): name = 'template_spiders' allowed_domains = ['*'] start_urls = ['http://*/'] def ...

数据加载中