Scrapy 命令

Python　2021/10/26 17:12:30　　点击：不统计

<文章来源：www.forasp.cn网站制作学习>

Scrapy 命令

创建项目
scrapy startproject ProjectName 【project dir】
cd ProjectName 进去后管理自己的项目
默认的project dir和项目名称一致
从现有项目中生成一个爬虫项目
scrapy genspider [-t template] <name> <domain>
<name> 是新的项目命名
<template> 是从那个项目中生成(或者叫复制)ProjectName
<domain>用于生成allowed_domains和start_urls爬虫的属性
运行爬虫
scrapy crawl <ProjectName[spider name]>
<ProjectName> 爬虫名称
检查爬虫 check
scrapy check -l <ProjectName>
默认检查所有 spider 项目
列出所有爬虫 list
scrapy list
编辑项目 edit
scrapy edit <ProjectName>
获取网页内容 fetch
scrapy fetch <url>
--spider=SPIDER：绕过爬虫自动检测和强制使用特定的爬虫
--headers：打印响应的HTTP头，而不是响应的正文
--no-redirect：不遵循HTTP 3xx重定向（默认是遵循它们）
以蜘蛛模式查看网页内容 view
scrapy view <url>
--spider=SPIDER：绕过爬虫自动检测和强制使用特定的爬虫
--no-redirect：不遵循HTTP 3xx重定向（默认是遵循它们）
回调解析返回数据 parse
scrapy parse <url> [options]
--spider=SPIDER：绕过爬虫自动检测和强制使用特定的爬虫
--a NAME=VALUE：set spider argument（可以重复）
--callback或者-c：spider方法用作回调来解析响应
--pipelines：通过管道处理项目
--rules或者-r：使用CrawlSpider 规则来发现用于解析响应的回调（即，spider方法）
--noitems：不显示已抓取的项目
--nolinks：不显示提取的链接
--nocolour：避免使用pygments来着色输出
--depth或-d：请求应递归跟踪的深度级别（默认值：1）
--verbose或-v：显示每个深度级别的信息
项目参数 settings
scrapy settings [options]
获取参数 —get BOT_NAME
运行一个非项目 spider 文件,不用创建项目
scrapy runspider <spider.py>
查看scrapy 版本信息
scrapy version [-v]
如果添加 -V 也会打印 python 平台等信息
测试压力测试 bench
scrapy bench

<%77w%77%2Ef%6F%72p%73%70%2Ec%6E>

·上一篇：Python中的迭代 >> 　　　·下一篇：python换国内源地址 >>