天道酬勤,学无止境

古诗词

python爬虫——爬取古诗词

一. 概要 1.通过python爬虫循环爬取古诗词网站唐诗宋词2.落地到本地数据库 二. 页面分析 首先通过firedebug进行页面定位: 其次源码定位: 最终生成lxml etree定位div标签源码: # 通过 lxml进行页面分析 ​response = etree.HTML(data) # div层定位 for row in response.xpath('//div[@class="left"]/div[@class="sons"]'): # 标题定位 title = row.xpath('div[@class="cont"]/p/a/b/text()')[0] if row.xpath('div[@class="cont"]/p/a/b/text()') else '' # 朝代定位 dynasty = row.xpath('div[@class="cont"]/p[@class="source"]//text()')[0] if row.xpath('div[@class="cont"]/p[@class="source"]//text()') else '' # 诗人定位 author = row.xpath('div[@class="cont"]/p[@class="source"]//text()')[-1] if row.xpath('div[@class=

2021-03-27 06:44:15    分类:博客    python   爬虫   古诗词    python爬虫