lucene5(6)读取word、pdf内容

祈雨的博客

2017-10-01

lucene5

No bibi 亮代码

/**
 * 读取doc
 */
@Test
public void readWord2003() throws Exception{
    InputStream is = new FileInputStream("E:/test.doc");
    HWPFDocument doc2003 = new HWPFDocument(is);
    WordExtractor word2003 = new WordExtractor(doc2003);
    System.out.println(word2003.getText());
    word2003.close();
    doc2003.close();
    is.close();
}

/**
 * 读取docx
 */
@Test
public void readWord2007() throws Exception{
    InputStream is = new FileInputStream("E:/test.docx");
    XWPFDocument doc2007 = new XWPFDocument(is);
    XWPFWordExtractor word2007 = new XWPFWordExtractor(doc2007);
    System.out.println(word2007.getText());
    word2007.close();
    doc2007.close();
    is.close();
}

/**
 * 读取pdf
 */
@Test
public void readPDF() throws Exception{
    InputStream is = new FileInputStream("E:/test.pdf");
    PDDocument document=PDDocument.load(is);
    //获取一个PDFTextStripper文本剥离对象          
    PDFTextStripper stripper = new PDFTextStripper();
    //获取文本内容
    String content = stripper.getText(document);
    System.out.println(content);
    document.close();
    is.close();
}

lucene5(6)读取word、pdf内容

lucene5(6)读取word、pdf内容

No bibi 亮代码

Recommend

Module organization guidelines for Haskell projects

你可以写在简介中的终身成就吗？

重庆高速 “云”上见！

Java中的阻塞队列

日本黑科技？可通过液化气用量监测老年人衰弱迹象

tomcat(4)连接器

What Are The Biggest CX Trends in 2022?

请教下大佬们，在运行的业务服务器，要升级内核吗？

Technical Debt Doesn’t Exist

mac 真就那么香吗

About Joyk