1. Produtos
  2.   Aspose.PDF
  3.   .NET
  4.   Extrator de texto

Extrator de Texto de PDF para .NET

Extrair texto puro, bruto ou simples de documentos PDF com o plugin Aspose.PDF .NET

Extrator de Texto para .NET

Simplifique a extração de texto de documentos PDF com o plug-in Aspose.PDF Text Extractor para .NET. Esta ferramenta versátil oferece três modos de operação: puro, bruto e simples, proporcionando flexibilidade e conveniência para tarefas de extração de texto em aplicações .NET.

Como Extrair Texto de um PDF via .NET

  • Referencie o Aspose.PDF no seu projeto
  • Defina suas chaves de licença: Link para a documentação
  • Criar instâncias de TextExtractorOptions.
  • Adicione documentos PDF de entrada usando TextExtractorOptions.AddDataSource.
  • Chame TextExtractorOptions.Process e atribua o resultado a ResultContainer
  • Acesse o texto extraído usando ResultContainer.ResultCollection.

Começando com o Extrator de Texto de PDF

Obtenha os arquivos de montagem dos downloads ou baixe o pacote do NuGet para adicionar o Aspose.PDF diretamente ao seu ambiente de trabalho.

  • Os sistemas operacionais suportados incluem Windows 7-11, e Windows Server 2003-2022, macOS (10.12+) e Linux.
  • Os frameworks suportados variam de 4.0 a 7.0
  • Compatível com várias versões do Microsoft Visual Studio


Como Extrair Texto de Múltiplos PDFs

  • Referencie o Aspose.PDF para .NET em seu projeto.
  • Defina suas chaves de licença: Link para a documentação
  • Criar instâncias de TextExtractor e TextExtractorOptions.
  • Adicione documentos PDF de entrada usando TextExtractorOptions.AddDataSource.
  • Chame TextExtractor.Process com uma instância de TextExtractorOptions como parâmetro.
  • Obtenha o resultado em uma instância de ResultContainer.
  • Acesse o texto extraído usando ResultContainer.ResultCollection.

Modos de Operação do Extrator de Texto

  • A opção Pure permite a extração de texto de um arquivo PDF com diversos procedimentos de formatação, incorporando posições relativas e introduzindo espaços adicionais para alinhar o texto à largura da página.
  • O modo Raw extrai texto do arquivo PDF sem aplicar formatação alguma.
  • O modo Simples extrai texto do arquivo PDF, levando em conta a posição relativa dos fragmentos de texto, mas ao contrário do modo “Puro”, ele não adiciona espaço extra.


Perguntas Frequentes

O que faz o Extrator de Texto Aspose.PDF para .NET?

O Aspose.PDF Text Extractor para .NET é um plugin projetado para aplicações .NET, oferecendo extração de texto de documentos PDF com três modos de operação; Puro, Bruto e Simples. Ele padrão é o modo ‘Bruto’, suporta opções de entrada e saída versáteis, permite o processamento simultâneo de vários arquivos PDF e fornece personalização para desenvolvedores, tornando-o uma solução conveniente para extração de texto em ambientes .NET.

Qual é a diferença entre Aspose.PDF para .NET e Aspose.PDF Text Extractor para .NET?

Aspose.PDF para .NET é uma API robusta para uma ampla gama de tarefas em PDF, incluindo geração de documentos, compressão, criação de tabelas e recursos avançados como importação e exportação de dados em PDF. Por outro lado, o Aspose.PDF Text Extractor para .NET é um plugin especializado focado exclusivamente em extrair texto de documentos PDF, enfatizando as capacidades de extração de texto.

 Português