Login dark

scrapy笔记

文档

中文
https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html
英文
https://docs.scrapy.org/en/latest/

建立一个爬虫的过程

建立一个爬取moozik.cn的爬虫
scrapy startproject mzik
获取如下目录

mzik/
    scrapy.cfg
    mzik/
        __init__.py
        items.py
        pipelines.py
        middlewares.py
        settings.py
        spiders/
            __init__.py
            ...

scrapy.cfg: 项目的配置文件
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.

items.py

import scrapy


class MzikItem(scrapy.Item):
    # define the fields for your item here like:
    url = scrapy.Field()
    title = scrapy.Field()
    author = scrapy.Field()
    date = scrapy.Field()
    view = scrapy.Field()
    comment = scrapy.Field()
    wordcount = scrapy.Field()
    cag = scrapy.Field()
    #pass

pipelines的用处:
清理HTML数据
验证爬取的数据(检查item包含某些字段)
查重(并丢弃)
将爬取结果保存到数据库中