近日TE网络因版本升级而导致很多BUG,我们会尽快让网站恢复稳定运行,非常抱歉给大家带来不便。
TE社区 > 后端开发
客服QQ:1206116161

分享一段代码, 使用Java去读取word文档的内容

HUANG888 于 2016-05-16 23:18:08 创建话题
(3458)
(2)
举报

分享一段代码,  使用Java去读取word文档的内容

package com.lss.common.doc;

import Java.io.File;
import java.io.FileInputStream;

import org.apache.log4j.Logger;
import org.textmining.text.extraction.WordExtractor;

/**
 * Word文件工具 *.doc
 * 
 * @Description
 * @author SHOUSHEN LUAN
 * @Date 2011-12-10
 */
public class WordUtils {
 private final static Logger logger = Logger.getLogger(WordUtils.class);

 /**
  * 读取Word文件
  * 
  * @param filePath
  * @throws Exception
  * @throws Exception
  */
 public String readWordFile(String filePath) throws Exception {
  return readWordFile(new File(filePath));
 }

 public String readWordFile(File file) throws Exception {
  FileInputStream in = null;
  String docContent = null;
  try {
   in = new FileInputStream(file);
   WordExtractor extractor = new WordExtractor();
   docContent = extractor.extractText(in);
  } catch (Exception e) {
   logger.error(e);
  } finally {
   if (in != null) {
    in.close();
   }
  }
  return docContent;
 }
}


  • hupo1598
    - 2017年09月16日 (0)

    会有乱码吗?

  • tabris
    - 01月03日 (0)

    编码方式不同有影响么

扫码关注TE官方微博 扫码关注TE官方微博
举报X