明霞山资源网 Design By www.htccd.com
这篇文章主要介绍了基于Python获取docx/doc文件内容代码解析,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下
整体思路:
下载文件并修改后缀为zip文件,解压zip文件,所要获取的内容在固定的文件夹下:work/temp/word/document.xml
所用包,全部是python自带,不需要额外下载安装.
# encoding:utf-8 import os import re import requests import zipfile import xml.dom.minidom newfile = 'test.docx' def create(newfile): """下载docx文件,并修改后缀为zip""" res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp"""解压zip,并在work/temp/word/document.xml获取文本内容,进行正则替换标签等操作""" f = zipfile.ZipFile('test.zip', 'r') for file in f.namelist(): f.extract(file, "temp/") f = xml.dom.minidom.parse('./temp/word/document.xml') txt = re.sub(r'</w:t></w:r></w:p>', '\n', f.toxml()) print re.sub(r'<.*?>', '', txt) if __name__ == '__main__': create(newfile) get_txt()
以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持。
明霞山资源网 Design By www.htccd.com
广告合作:本站广告合作请联系QQ:858582 申请时备注:广告合作(否则不回)
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
免责声明:本站文章均来自网站采集或用户投稿,网站不提供任何软件下载或自行开发的软件! 如有用户或公司发现本站内容信息存在侵权行为,请邮件告知! 858582#qq.com
明霞山资源网 Design By www.htccd.com
暂无评论...