Python爬虫-爬取三国演义文本数据-bs4

2024-07-13 1757阅读

bs4进行数据解析

（图片来源网络，侵删）

-数据解析的原理:

- 1.标签定位

-2.提取标签、标签属性中存储的数据值

- bs4数据解析的原理:

- 1.实例化一个BeautifulSoup对象,并且将页面源码数据加载到该对象中

-2.通过调用BeautifulSoup对象中相关的属性或者方法进行标签定位和数据提取

- 环境安装:

- pip install bs4

- pip install lxml

- 如何实例化BeautifulSoup对象:

- from bs4 import BeautifulSoup

-对象的案例化:

- 1.将本地的html文档中的数据加载到该对象中

fp = open('./test.html','r', encoding='utf-8')

soup = BeautifulSoup(fp, 'lxml')

- 2.将互联网上获取的页面源码加载到该对象中

page_text = response. text

soup = BeatifulSoup(page_text, 'lxml')

- 提供的用于数据解析的方法和属性:

爬取三国演义文本数据

先使用通用爬虫爬取页面所有数据，再解析标题内容

import requests  # 导入requests库，用于发起网络请求
from bs4 import BeautifulSoup  # 导入BeautifulSoup库，用于解析网页内容
# 设置要爬取的网站的URL和请求头信息
url = 'https://www.shicimingju.com/book/sanguoyanyi.html'  # 这是我们要爬取的网站地址
headers = {'User-Agent': 'Mozilla/5.0'}  # 这是告诉网站我们是用什么浏览器来访问的，这里用的是Mozilla/5.0，类似于Firefox
# 使用requests发起网络请求，获取网页内容
page_text = requests.get(url=url, headers=headers).content  # 发起请求并获取返回的网页内容
# 创建BeautifulSoup对象，用于解析网页内容
soup = BeautifulSoup(page_text, 'html.parser')  # 使用html.parser解析网页内容
# 使用BeautifulSoup选择器找到包含章节标题和详情页URL的列表项
li_list = soup.select('.book-mulu > ul > li')  # 找到所有符合这个规则的列表项
# 打开一个文件，准备写入解析到的内容
fp = open('./sanguo.txt', 'w', encoding='utf-8')  # 打开一个文件，准备写入解析到的内容
# 遍历找到的列表项，解析每个章节的标题和详情页URL
for li in li_list:
    title = li.a.string  # 提取每个列表项中a标签内的文本内容，即章节标题
    detail_url = 'http://www.shicimingju.com' + li.a['href']  # 构建每个章节的详情页URL
    
    # 对每个详情页发起网络请求，获取详情页内容
    try:
        detail_page_text = requests.get(url=detail_url, headers=headers).content  # 发起请求并获取返回的详情页内容
        detail_soup = BeautifulSoup(detail_page_text, 'html.parser')  # 使用html.parser解析详情页内容
        div_tag = detail_soup.find('div', class_='chapter_content')  # 找到包含章节内容的div标签
        if div_tag:  # 如果找到章节内容div标签
            content = div_tag.text  # 提取章节内容文本
            fp.write(title + ':' + content + '\n')  # 将章节标题和内容写入文件，每行一个
            print(title, '爬取成功！！！')  # 打印章节标题，表示成功爬取
        else:
            print(title, '内容解析失败！！！')  # 打印章节标题，表示内容解析失败
    except requests.exceptions.RequestException as e:  # 处理可能出现的网络请求异常
        print(f'请求失败: {e}')  # 打印错误信息
# 完成所有章节的解析和写入后，关闭文件
fp.close()  # 关闭文件

VPS购买请点击我

免责声明：我们致力于保护作者版权，注重分享，被刊用文章因无法核实真实出处，未能及时与作者取得联系，或有版权异议的，请联系管理员，我们会立即处理! 部分文章是来自自研大数据AI进行生成,内容摘自(百度百科,百度知道,头条百科,中国民法典,刑法,牛津词典,新华词典,汉语词典,国家院校,科普平台)等数据,内容仅供学习参考,不准确地方联系删除处理! 图片声明：本站部分配图来自人工智能系统AI生成,觅知网授权图片,PxHere摄影无版权图库和百度，360，搜狗等多加搜索引擎自动关键词搜索配图，如有侵权的图片，请第一时间联系我们，邮箱：ciyunidc@ciyunshuju.com。本站只作为美观性配图使用,无任何非法侵犯第三方意图,一切解释权归图片著作权方,本站不承担任何责任。如有恶意碰瓷者,必当奉陪到底严惩不贷!

Python爬虫-爬取三国演义文本数据-bs4

相关阅读

怎么把织梦的模板替换?

dedecms怎么调用特定的栏目文档?

怎么抓包一个网页?

wap怎么封装app?

目录[+]