济宁北湖旅游度假区建设局网站,适合个人做的外贸平台,四平做网站,企业网站货物查询怎么做一个比较基础且常见的爬虫#xff0c;写下来用于记录和巩固相关知识。
一、前置条件
本项目采用scrapy框架进行爬取#xff0c;需要提前安装
pip install scrapy# 国内镜像
pip install scrapy -i https://pypi.douban.com/simple
由于需要保存数据到数据库#xff0c;因…一个比较基础且常见的爬虫写下来用于记录和巩固相关知识。
一、前置条件
本项目采用scrapy框架进行爬取需要提前安装
pip install scrapy# 国内镜像
pip install scrapy -i https://pypi.douban.com/simple
由于需要保存数据到数据库因此需要下载pymysql进行数据库相关的操作
pip install pymysql# 国内镜像
pip install pymysql -i https://pypi.douban.com/simple
同时在数据库中创立对应的表
create database spider01 charset utf8;use spider01;# 这里简单创建name和src
create table book(id int primary key auto_increment,name varchar(188),src varchar(188)
);
二、项目创建
在终端进入准备存放项目的文件夹中
1、创建项目
scrapy startproject scrapy_book
创建成功后结构如下 2、跳转到spiders路径
cd scrapy_book\scrapy_book\spiders 3、生成爬虫文件
由于涉及链接的提取这里生成CrawlSpider文件
scrapy genspider -t crawl read Www.dushu.com 注意先将第11行中follow的值改为False否则会跟随从当前页面提取的链接继续爬取避免过度下载
4、项目结构说明
接下来我们一共要修改4个文件完成爬取功能
read.py: 自定义的爬虫文件完成爬取的功能items.py 定义数据结构的地方是一个继承自scrapy.Item的类pipelines.py 管道文件里面只有一个类用于处理下载数据的后续处理setings.py 配置文件 比如是否遵循robots协议User-Agent协议 三、网页分析
1、图书分析
读书网主页 在读书网中随便选取一个分类这里以外国小说为例进行分析
这里我们简单爬取它的图片和书名当然也可扩展 使用xpath语法对第一页的图片进行分析 由上图可以知道
书名//div[classbookslist]//img/alt
书图片地址//div[classbookslist]//img/data-original 不是src属性是因为页面图片使用懒加载 2、页码分析
第一页外国小说 - 读书网|dushu.com 或 https://www.dushu.com/book/1176_1.html
第二页外国小说 - 读书网|dushu.com
第三页外国小说 - 读书网|dushu.com 发现规律满足表达式r/book/1176_\d\.html 四、项目完成
1、修改items.py文件
自己定义下载数据的结构
# Define here the models for your scraped items
#
# See documentation in:
# https://docs.scrapy.org/en/latest/topics/items.htmlimport scrapyclass ScrapyBookItem(scrapy.Item):# define the fields for your item here like:# name scrapy.Field()# 书名name scrapy.Field()# 图片地址src scrapy.Field() 2、修改settings.py文件
将第65行的ITEM_PIPELINES的注释去掉并在下面新增自己数据库的相关配置 3、修改pipnelines.py文件
进行下载数据的相关处理
# Define your item pipelines here
#
# Dont forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://docs.scrapy.org/en/latest/topics/item-pipeline.html# useful for handling different item types with a single interface
from itemadapter import ItemAdapter# 加载settings文件
from scrapy.utils.project import get_project_settings
import pymysqlclass ScrapyBookPipeline:# 最开始执行def open_spider(self,spider):settings get_project_settings()# 获取配置信息self.host settings[DB_HOST]self.port settings[DB_PORT]self.user settings[DB_USER]self.password settings[DB_PASSWROD]self.name settings[DB_NAME]self.charset settings[DB_CHARSET]self.connect()def connect(self):self.conn pymysql.connect(hostself.host,portself.port,userself.user,passwordself.password,dbself.name,charsetself.charset)self.cursor self.conn.cursor()# 执行中def process_item(self, item, spider):# 根据自己的表结构进行修改我的是book表sql insert into book(name,src) values({},{}).format(item[name], item[src])# 执行sql语句self.cursor.execute(sql)# 提交self.conn.commit()# 结尾执行def close_spider(self, spider):self.cursor.close()self.conn.close()
4、修改read.py
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule# 导入时可能有下划线报错是编译器问题可以正常使用
from scrapy_book.items import ScrapyBookItemclass ReadSpider(CrawlSpider):name readallowed_domains [www.dushu.com]# 改为第一页的网址,这样都能满足allow的规则不遗漏start_urls [https://www.dushu.com/book/1176_1.html]# allow属性提取指定链接下面是正则表达式 callback回调函数 follow是否跟进就是按照提取连接规则进行提取这里选择Falserules (Rule(LinkExtractor(allowr/book/1176_\d\.html), callbackparse_item, followFalse),)def parse_item(self, response):item {}# item[domain_id] response.xpath(//input[idsid]/value).get()# item[name] response.xpath(//div[idname]).get()# item[description] response.xpath(//div[iddescription]).get()# 获取当前页面的所有图片img_list response.xpath(//div[classbookslist]//img)for img in img_list:name img.xpath(./alt).extract_first()src img.xpath(./data-original).extract_first()book ScrapyBookItem(namename, srcsrc)# 进入pipelines管道进行下载yield book5、下载
终端进入spiders文件夹运行命令scrapy crawl read
其中read是spiders文件夹下read.py中name的值 6、结果 一共下载了40(每一页的数据) * 13(页) 520条数据
将read.py中的follow改为True即可下载该类书籍的全部数据总共有100页如果用流量的话谨慎下载预防话费不足。 5、结语
这个爬虫项目应该可以适用于挺多场景的不是特别多 跟着写一下也没啥坏处。如果有代码的需求的话日后会把项目的代码地址给出。因为自己学爬虫没多久记录一下梳理下思路也可以为以后有需要的时候做参考。