Scrapy 命令
Python 2021/10/26 17:12:30 点击:不统计
<文章来源:www.forasp.cn网站制作学习>
Scrapy 命令
- 创建项目
scrapy startproject ProjectName 【project dir】
cd ProjectName 进去后管理自己的项目
默认的project dir和项目名称一致 - 从现有项目中生成一个爬虫项目
scrapy genspider [-t template] <name> <domain>
<name> 是新的项目命名
<template> 是从那个项目中生成(或者叫复制)ProjectName
<domain>用于生成allowed_domains和start_urls爬虫的属性 - 运行爬虫
scrapy crawl <ProjectName[spider name]>
<ProjectName> 爬虫名称 - 检查爬虫 check
scrapy check -l <ProjectName>
默认检查所有 spider 项目 - 列出所有爬虫 list
scrapy list - 编辑项目 edit
scrapy edit <ProjectName> - 获取网页内容 fetch
scrapy fetch <url>
--spider=SPIDER:绕过爬虫自动检测和强制使用特定的爬虫
--headers:打印响应的HTTP头,而不是响应的正文
--no-redirect:不遵循HTTP 3xx重定向(默认是遵循它们) - 以蜘蛛模式查看网页内容 view
scrapy view <url>
--spider=SPIDER:绕过爬虫自动检测和强制使用特定的爬虫
--no-redirect:不遵循HTTP 3xx重定向(默认是遵循它们) - 回调解析返回数据 parse
scrapy parse <url> [options]
--spider=SPIDER:绕过爬虫自动检测和强制使用特定的爬虫
--a NAME=VALUE:set spider argument(可以重复)
--callback或者-c:spider方法用作回调来解析响应
--pipelines:通过管道处理项目
--rules或者-r:使用CrawlSpider 规则来发现用于解析响应的回调(即,spider方法)
--noitems:不显示已抓取的项目
--nolinks:不显示提取的链接
--nocolour:避免使用pygments来着色输出
--depth或-d:请求应递归跟踪的深度级别(默认值:1)
--verbose或-v:显示每个深度级别的信息 - 项目参数 settings
scrapy settings [options]
获取参数 —get BOT_NAME - 运行一个 非项目 spider 文件,不用创建项目
scrapy runspider <spider.py> - 查看scrapy 版本信息
scrapy version [-v]
如果添加 -V 也会打印 python 平台等信息 - 测试 压力测试 bench
scrapy bench
<%77w%77%2Ef%6F%72p%73%70%2Ec%6E>
·上一篇:Python中的迭代 >> ·下一篇:python换国内源地址 >>