明霞山资源网 Design By www.htccd.com
Python2.7Mac OS
抓取的是电影天堂里面最新电影的页面。链接地址: http://www.dytt8.net/html/gndy/dyzz/index.html
获取页面的中电影详情页链接
import urllib2
import os
import re
import string
# 电影URL集合
movieUrls = []
# 获取电影列表
def queryMovieList():
url = 'http://www.dytt8.net/html/gndy/dyzz/index.html'
conent = urllib2.urlopen(url)
conent = conent.read()
conent = conent.decode('gb2312','ignore').encode('utf-8','ignore')
pattern = re.compile ('<div class="title_all"><h1><font color=#008800>.*"25" align="center" bgcolor="#F4FAE2"> ',re.S)
items = re.findall(pattern,conent)
str = ''.join(items)
pattern = re.compile ('<a href="(.*" class="ulink">(.*"htmlcode">
def queryMovieInfo(movieUrls):
for index, item in enumerate(movieUrls):
print('电影URL: ' + item)
conent = urllib2.urlopen(item)
conent = conent.read()
conent = conent.decode('gb2312','ignore').encode('utf-8','ignore')
movieName = re.findall(r'<div class="title_all"><h1><font color=#07519a>(.*""
# 截取名称
movieName = movieName[movieName.find("《") + 3:movieName.find("》")]
else:
movieName = ""
print("电影名称: " + movieName.strip())
movieContent = re.findall(r'<div class="co_content8">(.*""
print("电影发布时间: " + movieDate[-10:])
pattern = re.compile('<br /><br />(.*"<br />","")
# 根据 ◎ 符号拆分
movieInfo = movieInfo.split('◎')
else:
movieInfo = ""
print("电影基础信息: ")
for item in movieInfo:
print(item)
# 电影海报
pattern = re.compile('<img.*"(.*".*""
print("电影海报: " + movieImg)
pattern = re.compile('<td style="WORD-WRAP: break-word" bgcolor="#fdfddf"><a href="(.*">.*""
print("电影下载地址:" + movieDownUrl + "")
print("------------------------------------------------\n\n\n")
执行抓取
if __name__=='__main__':
print("开始抓取电影数据");
queryMovieList()
print(len(movieUrls))
queryMovieInfo(movieUrls)
print("结束抓取电影数据")
总结
学好正则表达式很重要,很重要,很重要!!!! Python的语法好有感觉, 对比Java …
标签:
Python,电影天堂
明霞山资源网 Design By www.htccd.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
明霞山资源网 Design By www.htccd.com
暂无评论...
RTX 5090要首发 性能要翻倍!三星展示GDDR7显存
三星在GTC上展示了专为下一代游戏GPU设计的GDDR7内存。
首次推出的GDDR7内存模块密度为16GB,每个模块容量为2GB。其速度预设为32 Gbps(PAM3),但也可以降至28 Gbps,以提高产量和初始阶段的整体性能和成本效益。
据三星表示,GDDR7内存的能效将提高20%,同时工作电压仅为1.1V,低于标准的1.2V。通过采用更新的封装材料和优化的电路设计,使得在高速运行时的发热量降低,GDDR7的热阻比GDDR6降低了70%。