基于Python获取docx/doc文件内容代码解析

脚本专栏 2025/12/15 佚名

3 2 1

明霞山资源网 Design By www.htccd.com

这篇文章主要介绍了基于Python获取docx/doc文件内容代码解析,文中通过示例代码介绍的非常详细，对大家的学习或者工作具有一定的参考学习价值,需要的朋友可以参考下

整体思路：

下载文件并修改后缀为ｚｉｐ文件，解压ｚｉｐ文件，所要获取的内容在固定的文件夹下：work/temp/word/document.xml

所用包，全部是ｐｙｔｈｏｎ自带，不需要额外下载安装．

# encoding:utf-8
import os
import re
import requests
import zipfile
import xml.dom.minidom

newfile = 'test.docx'


def create(newfile):
  """下载docx文件，并修改后缀为zip"""
  res = requests.get('https://www.cqjbfy.gov.cn/publiccenter/splc/mb/splc_gginfo.asp"""解压zip，并在work/temp/word/document.xml获取文本内容，进行正则替换标签等操作"""
  f = zipfile.ZipFile('test.zip', 'r')
  for file in f.namelist():
    f.extract(file, "temp/")
  
  f = xml.dom.minidom.parse('./temp/word/document.xml')
  
  txt = re.sub(r'</w:t></w:r></w:p>', '\n', f.toxml())
  print re.sub(r'<.*?>', '', txt)

if __name__ == '__main__':
  create(newfile)
  get_txt()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

Python,获取,docx,doc

标签：

Python,获取,docx,doc

明霞山资源网 Design By www.htccd.com

广告合作：本站广告合作请联系QQ：858582 申请时备注：广告合作（否则不回）
免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

明霞山资源网 Design By www.htccd.com

评论“基于Python获取docx/doc文件内容代码解析”

暂无评论...

基于Python获取docx/doc文件内容代码解析

Python,获取,docx,doc

Win10下安装并使用tensorflow-gpu1.8.0+python3.6全过程分析（显卡MX250+CUDA9.0+cudnn）

Windows下实现将Pascal VOC转化为TFRecords

评论“基于Python获取docx/doc文件内容代码解析”

友情链接