频道导航

c# – 如何在iTextSharp中将PDF转换为文本文件

2020-02-23 C# 前端之家

前端之家收集整理的这篇文章主要介绍了c# – 如何在iTextSharp中将PDF转换为文本文件，前端之家小编觉得挺不错的，现在分享给大家，也给大家做个参考。

我必须从PDF文件中检索文本.但是使用下面的代码我只得到空文本文件.

for (int i = 0; i < n; i++)
{
    pagenumber = i + 1;
    filename = pagenumber.ToString();
    while (filename.Length < digits) filename = "0" + filename;
    filename = "_" + filename;
    filename = splitFile + name + filename;
    // step 1: creation of a document-object
    document = new Document(reader.GetPageSizeWithRotation(pagenumber));
    // step 2: we create a writer that listens to the document
    PdfWriter writer = PdfWriter.GetInstance(document,new FileStream(filename + ".pdf",FileMode.Create));

    // step 3: we open the document
    document.Open();

    PdfContentByte cb = writer.DirectContent;
    PdfImportedPage page = writer.GetImportedPage(reader,pagenumber);
    int rotation = reader.GetPageRotation(pagenumber);
    if (rotation == 90 || rotation == 270)
    {
        cb.AddTemplate(page,-1f,1f,reader.GetPageSizeWithRotation(pagenumber).Height);
    }
    else
    {
        cb.AddTemplate(page,0);
    }
    // step 5: we close the document

    document.Close();
    PDFParser parser = new PDFParser();
    parser.ExtractText(filename + ".pdf",filename + ".txt");
}

我做错了什么以及如何从PDF中提取文本？

解决方法

要使用iTextSharp进行文本提取,请获取该库的当前版本并使用

PdfTextExtractor.GetTextFromPage(reader,pageNumber);

请注意,某些5.3.x版本的文本提取代码中存在一个错误,同时已在主干中修复.因此,您可能想要检查主干版本.

原文链接：https://www.f2er.com/csharp/96453.html

上一篇：c# – 是否可以检查对象为null并在下一篇：在C#中将HTML转义字符解码回普通字

猜你在找的C#相关文章

C#使用SharpZipLib创建压缩文件，并指定压缩文件夹路径（解决SharpZipLib压缩长路径显示问题）

在项目中使用SharpZipLib压缩文件夹的时候，遇到如果目录较深，则压缩包中的文件夹同样比较...

作者：踏平扶桑时间：2024-09-29

C#使用Parallel处理数据同步写入Datatable并使用BulkInsert批量导入数据库

项目需要，几十万张照片需要计算出每个照片的特征值（调用C++编写的DLL）。业务流...

作者：踏平扶桑时间：2024-09-29

C# byte和10进制、16进制相互转换

var array = new byte[4]; var i = Encoding.UTF8.GetBytes(100.ToString("x2&am...

作者：踏平扶桑时间：2024-09-29

Winform下的Combox根据值来选中项

其实很简单，因为Combox的Item是一个K/V的object，那么就可以把它的items转换成IEnumerabl...

作者：踏平扶桑时间：2024-09-29

HM NIS Edit制作安装包时检测是否有.net4.6环境，没有的时候自动安装。

把.net4.6安装包打包进安装程序。关键脚本如下：头部引用字符串对比库 !include &qu...

作者：踏平扶桑时间：2024-09-29

WPF下使用FreeRedis操作RedisStream实现简单的消息队列

Redis Stream简介 Redis Stream是随着5.0版本发布的一种新的Redis数据类型：高效消费者组...

作者：踏平扶桑时间：2024-09-29

C#进行图片压缩（对jpg压缩效果最好）

直接上代码 1 public static class ImageCompress 2 { 3 /// <summary> 4 /...

作者：踏平扶桑时间：2024-09-29

CefSharp访问需要认证网页或接口(在Request的Headers中添加认证Token)

然后在使用的时候，就可以获取到Header的内容了。

作者：踏平扶桑时间：2024-09-29

C#使用FileSystemWatcher来监控指定文件夹，并使用TCP/IP协议通过Socket发送到另外指定文件夹

项目需求：局域网内有两台电脑，电脑A(Windows系统)主要是负责接收一些文件（远程桌面粘贴...

作者：踏平扶桑时间：2024-09-29

绿色版Mysql自动建立my.ini和命令行启动并动态指定datadir路径

1、先去下载绿色版的Mysql(https://cdn.mysql.com//archives/mysql-5.7/mysql-5.7.20-winx...

作者：踏平扶桑时间：2024-09-29

编程分类

PHP Java Java SE Python C#C&C++Ruby VB asp.Net Go Perl netty Django Delphi Jsp .NET Core Spring Flask Springboot SpringMVC Lua Laravel Mybatis Asp Groovy ThinkPHP Yii swoole

最新文章