c# – 如何从pdf文件中提取附件?

前端之家收集整理的这篇文章主要介绍了c# – 如何从pdf文件中提取附件?前端之家小编觉得挺不错的,现在分享给大家,也给大家做个参考。
我有一大堆带有xml文件的pdf文档.我想提取那些附加的xml文件并阅读它们.如何使用.net以编程方式执行此操作?

解决方法

iTextSharp也能够提取附件……虽然您可能必须使用低级别对象来执行此操作.

有两种方法可以在PDF中嵌入文件

>在文件注释中
>在文档级别“EmbeddedFiles”.

从任一源获得文件规范字典后,文件本身将成为标记为“EF”(嵌入文件)的字典中的流.

因此,要列出文档级别的所有文件,可以编写代码(使用Java):

  1. Map<String,byte[]> files = new HashMap<String,byte[]>();
  2.  
  3. PdfReader reader = new PdfReader(pdfPath);
  4. PdfDictionary root = reader.getCatalog();
  5. PdfDictionary names = root.getAsDict(PdfName.NAMES); // may be null
  6. PdfDictionary embeddedFilesDict = names.getAsDict(PdfName.EMBEDDEDFILES); //may be null
  7. PdfArray embeddedFiles = embeddedFilesDict.getAsArray(PdfName.NAMES); // may be null
  8.  
  9. int len = embeddedFiles.size();
  10. for (int i = 0; i < len; i += 2) {
  11. PdfString name = embeddedFiles.getAsString(i); // should always be present
  12. PdfDictionary fileSpec = embeddedFiles.getAsDict(i+1); // ditto
  13.  
  14. PdfDictionary streams = fileSpec.getAsDict(PdfName.EF);
  15. PRStream stream = null;
  16.  
  17. if (streams.contains(PdfName.UF))
  18. stream = (PRStream)streams.getAsStream(PdfName.UF);
  19. else
  20. stream = (PRStream)streams.getAsStream(PdfName.F); // Default stream for backwards compatibility
  21.  
  22. if (stream != null) {
  23. files.put( name.toUnicodeString(),PdfReader.getStreamBytes((PRStream)stream));
  24. }
  25. }

猜你在找的C#相关文章