中文
  1. 产品
  2.   Aspose.PDF
  3.   文本提取器

PDF文本提取器for.NET

使用Aspose.PDF .NET插件从PDF文档中提取纯文本、原始文本或普通文本。

NET的文本提取器

介绍Aspose.PDF文本提取器 for .NET插件 - 一个强大的工具,简化了从PDF文档中提取文本的过程。这个插件不仅仅是一个文本提取器 - 它是一个全面的解决方案,提高了您文档管理过程的效率和多功能性。 该插件通过扫描您的PDF文档并识别嵌入的文本来工作。然后,它在保留原始格式和结构的情况下提取这些文本。这个过程旨在提高您内容的可访问性和可用性。 该插件的一个显著特点是它提供三种操作模式:纯模式、原始模式和普通模式。纯模式提取文本,同时保留其原始格式。原始模式按原样提取文本,不带任何格式。普通模式提取文本并删除任何特殊字符或格式。这些模式为.NET应用程序中的文本提取任务提供了灵活性和便利性,确保您可以选择最适合您需求的模式。 然而,这个插件的好处不仅限于文本提取。它还提供了流畅高效的提取过程,尽量减少从 PDF 中提取文本所需的时间和精力。有了这个插件,您可以体验到快速简便的文本提取带来的便利。 总之,Aspose.PDF Text Extractor for .NET 插件是一个全面的解决方案,它简化了从 PDF 文档中提取文本的过程,提高了内容的可访问性,并优化了文档管理流程。现在就试试,体验我们插件的便捷和高效。发现新的效率层次!

如何通过.NET从PDF中提取文本

  • 在您的项目中引用Aspose.PDF
  • 设置许可证密钥
  • 创建 TextExtractorOptions 的实例
  • 使用TextExtractorOptions.AddDataSource添加输入PDF文档。
  • 调用 TextExtractorOptions.Process 并将结果赋值给 ResultContainer
  • 通过 ResultContainer.ResultCollection 访问提取出的文本

开始使用PDF文本提取器

downloads获取组件文件,或从NuGet获取包,直接将Aspose.PDF添加到您的工作空间中。

  • 支持的操作系统包括 Windows 7-11,以及 Windows Server 2003-2022,macOS (10.12+) 和 Linux
  • 支持的框架范围从4.0到7.0。
  • 适用于各种微软Visual Studio版本


如何从多个PDF中提取文本

  • 在您的项目中引用 Aspose.PDF for .NET。
  • 设置许可证密钥
  • 创建 TextExtractorTextExtractorOptions 的实例
  • 使用TextExtractorOptions.AddDataSource添加输入PDF文档。
  • 使用TextExtractorOptions实例作为参数调用TextExtractor.Process
  • 将结果存储在一个 ResultContainer 实例中。
  • 使用 ResultContainer.ResultCollection 访问提取的文本。

文本提取器的操作模式

  • Pure` 选项使得可以从 PDF 文件中提取文本,通过各种格式化程序,将相对位置纳入考虑,并添加额外空格以使文本与页面宽度对齐。
  • Raw` 模式从 PDF 文件中提取文本,而不应用任何格式。
  • Plain`模式从PDF文件中提取文本,考虑到文本片段的相对位置,但与“Pure”模式不同,它不会添加额外的空格。


PDF文本提取器的高级功能

  • 支持同时批量处理多个PDF。
  • 针对特定用例的可定制提取设置。
  • 与各种 .NET 应用程序的直接集成,实现无缝功能。

与其他提取器的比较分析

  • 与 Aspose.PDF 相比,流行文本提取工具的概述。
  • 性能优势的详细描述,包括速度和准确性。
  • 用户评价突出使用 Aspose.PDF 的优势。


常见问题

Aspose.PDF Text Extractor for .NET 是什么作用?

Aspose.PDF Text Extractor for .NET 是专为 .NET 应用程序设计的插件,提供从 PDF 文档中提取文本的功能,具有三种操作模式:Pure、Raw 和 Plain。它默认为 ‘Raw’ 模式,支持多样化的输入和输出选项,允许同时处理多个 PDF 文件,并为开发人员提供定制选项,使其成为 .NET 环境下文本提取的便利解决方案。

Aspose.PDF for .NET 和 Aspose.PDF Text Extractor for .NET 之间有什么区别?

Aspose.PDF for .NET 是一款强大的 .NET API,用于各种 PDF 任务,包括文档生成、压缩、表的创建,以及诸如 PDF 数据导入和导出的高级功能。另一方面,Aspose.PDF Text Extractor for .NET 是一款专门的插件,专注于从 PDF 文档中提取文本,强调文本提取功能。

Aspose.PDF 的 .NET 文本提取器是否仅限于从 PDF 中提取文本?

是的,针对 .NET 的 PDF 文本提取器专门设计用于从 PDF 中提取文本。对于其他操作,您可以使用其他 PDF 插件或 Aspose.PDF 库的全部功能。

Aspose.PDF 是否提供在线 PDF 文本提取工具?

是的,Aspose.PDF 提供了一种 免费的在线 PDF 文本解析器工具 满足基本需求。

我在哪里可以找到C#中Aspose.PDF文本提取的示例?

发现我们的登陆页面,适用于 从 PDF 中提取文本的 .NET

 中文