scrapy笔记
文档
中文
https://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html
英文
https://docs.scrapy.org/en/latest/
建立一个爬虫的过程
建立一个爬取moozik.cn
的爬虫scrapy startproject mzik
获取如下目录
mzik/
scrapy.cfg
mzik/
__init__.py
items.py
pipelines.py
middlewares.py
settings.py
spiders/
__init__.py
...
scrapy.cfg: 项目的配置文件
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件.
tutorial/pipelines.py: 项目中的pipelines文件.
tutorial/settings.py: 项目的设置文件.
tutorial/spiders/: 放置spider代码的目录.
items.py
import scrapy
class MzikItem(scrapy.Item):
# define the fields for your item here like:
url = scrapy.Field()
title = scrapy.Field()
author = scrapy.Field()
date = scrapy.Field()
view = scrapy.Field()
comment = scrapy.Field()
wordcount = scrapy.Field()
cag = scrapy.Field()
#pass
pipelines的用处:
清理HTML数据
验证爬取的数据(检查item包含某些字段)
查重(并丢弃)
将爬取结果保存到数据库中