c# – 如何在iTextSharp中将PDF转换为文本文件

前端之家收集整理的这篇文章主要介绍了c# – 如何在iTextSharp中将PDF转换为文本文件前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我必须从PDF文件中检索文本.但是使用下面的代码我只得到空文本文件.
for (int i = 0; i < n; i++)
{
    pagenumber = i + 1;
    filename = pagenumber.ToString();
    while (filename.Length < digits) filename = "0" + filename;
    filename = "_" + filename;
    filename = splitFile + name + filename;
    // step 1: creation of a document-object
    document = new Document(reader.GetPageSizeWithRotation(pagenumber));
    // step 2: we create a writer that listens to the document
    PdfWriter writer = PdfWriter.GetInstance(document,new FileStream(filename + ".pdf",FileMode.Create));

    // step 3: we open the document
    document.Open();

    PdfContentByte cb = writer.DirectContent;
    PdfImportedPage page = writer.GetImportedPage(reader,pagenumber);
    int rotation = reader.GetPageRotation(pagenumber);
    if (rotation == 90 || rotation == 270)
    {
        cb.AddTemplate(page,-1f,1f,reader.GetPageSizeWithRotation(pagenumber).Height);
    }
    else
    {
        cb.AddTemplate(page,0);
    }
    // step 5: we close the document

    document.Close();
    PDFParser parser = new PDFParser();
    parser.ExtractText(filename + ".pdf",filename + ".txt");
}

我做错了什么以及如何从PDF中提取文本?

解决方法

要使用iTextSharp进行文本提取,请获取该库的当前版本并使用
PdfTextExtractor.GetTextFromPage(reader,pageNumber);

请注意,某些5.3.x版本的文本提取代码中存在一个错误,同时已在主干中修复.因此,您可能想要检查主干版本.

原文链接:https://www.f2er.com/csharp/96453.html

猜你在找的C#相关文章