python selenium爬取斗鱼所有直播房间信息过程详解

脚本专栏 2026/1/17 佚名

3 2 1

明霞山资源网 Design By www.htccd.com

还是分析一下大体的流程：

首先还是Chrome浏览器抓包分析元素，这是网址：https://www.douyu.com/directory/all

发现所有房间的信息都是保存在一个无序列表中的li中，所以我们可以先获取一个装有li的element对象的列表，然后在对每个element逐一操作

分析斗鱼的翻页，有一个下一页按钮，是个li，class="dy-Pagination-item-custom" ，但是当烦到最后一页的时候，class="dy-Pagination-disabled dy-Pagination-next"，所以我们要想利用selenium模拟点击这个按钮，我们应该利用

get_elements_by_xpath()这个函数，这样到最后一页就获取不到了，就可以终止程序了。而用elements的原因是当到最后一页的时候获取不到的话，element会报错

然后还是通用的套路：发送请求获取响应、提取数据和下一页的元素、保存数据、点击下一页的元素循环......

遇到的两个坑：

需要用time.sleep()函数强制等待页面加载完再获取元素，否则报错，睡几秒就看你的网速了

xpath定位的时候，网页上有的类如这样：class=" abc"或者class="abc " ，前面或后面有空格的，xpath处理的时候也必须有空格，否则获取不到

代码实现：

import time
from selenium import webdriver
class DouyuSpider(object):
  def __init__(self):
    self.start_rul = 'https://www.douyu.com/directory/all'
    self.driver = webdriver.Chrome()

  def get_content_list(self):
    time.sleep(10) # 强制等待10秒，否则可能报错
    li_list = self.driver.find_elements_by_xpath('//ul[@class="layout-Cover-list"]/li')
    content_list = []
    for li in li_list:
      item = {}
      item['room_img'] = li.find_element_by_xpath('.//img[@class="DyImg-content is-normal "]').get_attribute('src')
      item['room_title'] = li.find_element_by_xpath('.//h3[@class="DyListCover-intro"]').text
      item['root_category'] = li.find_element_by_xpath('.//span[@class="DyListCover-zone"]').text
      item['author_name'] = li.find_element_by_class_name('DyListCover-user').text
      item['watch_num'] = li.find_element_by_class_name('DyListCover-hot').text
      content_list.append(item)
      print(item) # 打印每次获取到的直播房间的信息
    # 获取下一页的元素,为了防止没有报错，这里用elements，翻到最后一页一定就没有了，返回一个列表
    next_url = self.driver.find_elements_by_xpath('//li[@class=" dy-Pagination-next"]')
    next_url = next_url[0] if len(next_url) > 0 else None
    return content_list, next_url
  def save_content_list(self, content_list):
    pass # 保存数据这里就不再做演示

  def run(self): # 实现主要逻辑
    # 1.start_url
    # 2.发送请求，获取响应
    self.driver.maximize_window()
    self.driver.get(self.start_rul)
    # 3.提取数据，提取下一页的元素
    content_list, next_url = self.get_content_list()
    # 4.保存数据
    self.save_content_list(content_list)
    # 4.点击下一页元素，循环
    while next_url is not None:
      next_url.click()
      content_list, next_url = self.get_content_list()
      self.save_content_list(content_list)
if __name__ == '__main__':
  douban = DouyuSpider()
  douban.run()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

python,selenium,爬取,斗鱼直播,房间信息

标签：

python,selenium,爬取,斗鱼直播,房间信息

明霞山资源网 Design By www.htccd.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

明霞山资源网 Design By www.htccd.com

评论“python selenium爬取斗鱼所有直播房间信息过程详解”

暂无评论...

www.htccd.com 明霞山资源网

139,976互联网资源

144,792高清电影

21,817无损音乐

631,128技术资源

最新文章

群星《奔赴！万人现场第2期》[FLAC/分轨][5

2026/1/17

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2026/1/17

群星《奇妙浪一夏 (上海迪士尼度假区音乐)》

2026/1/17

【古典音乐】詹姆斯·高威《季节》1993[WAV+

2026/1/17

贝拉芳蒂《卡里普索之王》SACD[WAV+CUE]

2026/1/17

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2026/1/17

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

python selenium爬取斗鱼所有直播房间信息过程详解

python,selenium,爬取,斗鱼直播,房间信息

python matplotlib库绘制散点图例题解析

python matplotlib库绘制条形图练习题

评论“python selenium爬取斗鱼所有直播房间信息过程详解”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

友情链接

python selenium爬取斗鱼所有直播房间信息过程详解

python,selenium,爬取,斗鱼直播,房间信息

python matplotlib库绘制散点图例题解析

python matplotlib库绘制条形图练习题

评论“python selenium爬取斗鱼所有直播房间信息过程详解”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存