爬虫框架Scrapy 之(二) --- scrapy文件

2019-04-28 08:24:26来源:博客园 阅读 ()

新老客户大回馈,云服务器低至5折

框架简介

  1. 核心部分: 引擎、下载器、调度器
  2. 自定义部分: spider(自己建的爬虫文件)、管道(pipelines.py)

 

目录结构

    firstSpider
        firstSpider
            spiders           爬虫目录(写代码位置)
                __init__.py
                myspider.py   自己建的爬虫文件,以后的爬虫代码写在这里
            __init__.py
            items.py          定义数据结构地方
            middlewares.py    中间件(了解)
            pipelines.py      管道文件
            settings.py       项目配置文件
        scrapy.cfg

 

项目处理

项目创建处理,里面是没有爬虫的,我们需要通过指令来创建一个爬虫: cd firstSpider/firstSpider scrapy genspider qiubai “www.qiushibaike.com" 以上指令完事后,就会在firstSpider/firstSpider/spiders里面自动创建一个qiubai.py name: 爬虫的名字,启动的时候根据爬虫的名字启动项目 allowed_domains:允许的域名,就是爬取的时候这个请求要不要发送,如果是该允许域名之下的url,就会发送,如果不是,则过滤掉这个请求,这是一个列表,可以写多个允许的域名 start_urls:爬虫起始url,是一个列表,里面可以写多个,一般只写一个 def parse(self, response): 这个函数非常重要,就是你以后写代码的地方,parse函数名是固定的,当收到下载数据的时候会自动的调用这个方法,该方法第二个参数为response,这是一个响应对象,从该对象中获取html字符串,然后解析之。【注】这个parse函数必须返回一个可迭代对象 (3)定制item.py,其实就是您的数据结构,格式非常简单,复制粘贴即可

 


原文链接:https://www.cnblogs.com/TMMM/p/10776296.html
如有疑问请与原作者联系

标签:

版权申明:本站文章部分自网络,如有侵权,请联系:west999com@outlook.com
特别注意:本站所有转载文章言论不代表本站观点,本站所提供的摄影照片,插画,设计作品,如需使用,请与原作者联系,版权归原作者所有

上一篇:Python3.2.3官方文档(中文版)

下一篇:python3爬虫-知乎登陆