首页
社区
课程
招聘
[原创]遵循微软帮助文档写的提取Word97-2003文本源码
发表于: 2012-6-18 18:10 4537

[原创]遵循微软帮助文档写的提取Word97-2003文本源码

2012-6-18 18:10
4537

因为之前要提取各种文件格式的文本内容, 中途研究Office97-2003的文本提取, 参考了看雪上的一个帖子, 但是那个帖子所提供的源码很乱, 注释也甚少, 又参考了OSChina上的一个源码, 前面一大段写得还好, 思路很明了, 但是后面很长一段代码无法看懂, 例如这种问题:微软帮助文档已经说明了一些结构体的具体成员, 但是这个代码没有使用结构体, 而是直接操作二进制数组。还是老实参考微软提供的文档吧。 说实在的, 第一次看微软提供的文档, 会有一种凌乱的感觉, 但当你仔细阅读下来, 发现写得很详尽, 而且后面还附带有Example。 最后参考微软的文档, 将Word97-2003的文本提取写了出来, 置于其他格式还得研究, 而Office2007以后是一个zip压缩包, 文本可以从解压后的xml文件中提取。

附上一个参考链接:c6dK9s2c8@1M7q4)9K6b7g2)9J5c8W2)9J5c8X3#2K6k6r3&6Q4x3X3g2E0K9h3y4J5L8%4y4G2k6Y4c8Q4x3X3g2U0L8$3#2Q4x3V1k6*7K9q4)9J5k6r3y4F1i4K6u0r3L8r3W2T1M7X3q4J5P5g2)9J5c8X3c8V1z5e0l9@1z5e0l9%4i4K6u0W2j5i4y4H3P5l9`.`.

下面附上源码:
Office2Text.rar


[培训]科锐逆向工程师培训第53期2025年7月8日开班!

上传的附件:
收藏
免费 6
支持
分享
最新回复 (0)
游客
登录 | 注册 方可回帖
返回