网站制作学习网Python→正文:Scrapy 命令
字体:

Scrapy 命令

Python 2021/10/26 17:12:30  点击:不统计

<文章来源:www.forasp.cn网站制作学习>

Scrapy  命令

 

  1. 创建项目
    scrapy startproject  ProjectName project dir
    cd  ProjectName  进去后管理自己的项目
    默认的project dir和项目名称一致
  2. 从现有项目中生成一个爬虫项目
    scrapy genspider [-t template] <name> <domain>
    <name> 是新的项目命名
    <template> 是从那个项目中生成(或者叫复制)ProjectName
    <domain>用于生成allowed_domainsstart_urls爬虫的属性
  3. 运行爬虫
    scrapy crawl  <ProjectName[spider name]>
    <ProjectName> 爬虫名称 
  4. 检查爬虫 check
    scrapy  check  -l <ProjectName>
    默认检查所有 spider 项目
  5. 列出所有爬虫 list
    scrapy list   
  6. 编辑项目 edit
    scrapy edit  <ProjectName>
  7. 获取网页内容 fetch
    scrapy fetch <url>
    --spider=SPIDER:绕过爬虫自动检测和强制使用特定的爬虫
    --headers:打印响应的HTTP头,而不是响应的正文
    --no-redirect:不遵循HTTP 3xx重定向(默认是遵循它们)
  8. 以蜘蛛模式查看网页内容 view
    scrapy view <url>
    --spider=SPIDER:绕过爬虫自动检测和强制使用特定的爬虫
    --no-redirect:不遵循HTTP 3xx重定向(默认是遵循它们)
  9. 回调解析返回数据 parse
    scrapy parse  <url>  [options]
    --spider=SPIDER:绕过爬虫自动检测和强制使用特定的爬虫
    --a NAME=VALUEset spider argument(可以重复)
    --callback或者-cspider方法用作回调来解析响应
    --pipelines:通过管道处理项目
    --rules或者-r:使用CrawlSpider 规则来发现用于解析响应的回调(即,spider方法)
    --noitems:不显示已抓取的项目
    --nolinks:不显示提取的链接
    --nocolour:避免使用pygments来着色输出
    --depth-d:请求应递归跟踪的深度级别(默认值:1
    --verbose-v:显示每个深度级别的信息
  10. 项目参数 settings
    scrapy settings [options]
    获取参数  —get BOT_NAME
  11. 运行一个 非项目 spider 文件,不用创建项目
    scrapy runspider <spider.py>
  12. 查看scrapy 版本信息
    scrapy version [-v]
    如果添加 -V 也会打印 python 平台等信息
  13. 测试 压力测试  bench
    scrapy bench

<%77w%77%2Ef%6F%72p%73%70%2Ec%6E>

·上一篇:Python中的迭代 >>    ·下一篇:python换国内源地址 >>
推荐文章
最新文章