未分类

20190819-Scrapy学习-爬取基金基本信息和Logging使用

本次以爬取基金的编码、名称、净值和净值日期做为爬取目标(暂不涉及翻页),目标网址是:

http://fund.eastmoney.com/trade/hh.html?spm=001.1.swh#zwf_,sc_1n,st_desc,

同时对Logging模块的使用进行初步学习,学习记录如下

1、创建工程dfcf,scrapy startproject dfcf

2、创建爬虫getfund,scrapy genspider getfund fund.eastmoney

3、修改getfund代码,本次学习代码如下

001

这里主要用到了xpath的知识,同时借助浏览器的开发者模式,对于dom树形结构进行分析

4、修改settings.py打开logging和启用pipline,修改pipline.py进行输出等操作,其中settings.py本次学习代码如下

002
003

piplines.py本次学习代码如下

004

5、最后执行一下这个爬虫,scrapy crawl getfund,正常情况下应该会打印爬取结果,同时会在根目录下生成fund.log日志文件

6、最后贴上总结的截图及Logging的应用截图

005
006

分享到