1. Produits
  2.   Aspose.PDF
  3.   .NET
  4.   Extracteur de texte

Extracteur de texte PDF pour .NET

Extraire du texte pur, brut ou simple à partir de documents PDF avec le plugin Aspose.PDF .NET

Extracteur de texte pour .NET

Simplifiez l’extraction de texte à partir de documents PDF avec le plugin Aspose.PDF Text Extractor pour .NET. Cet outil polyvalent offre trois modes de fonctionnement : pur, brut et simple, offrant flexibilité et commodité pour les tâches d’extraction de texte dans les applications .NET.

Comment extraire du texte d’un PDF via .NET

  • Référencez Aspose.PDF dans votre projet
  • Définir vos clés de licence
  • Créez des instances de TextExtractorOptions
  • Ajoutez des documents PDF d’entrée en utilisant TextExtractorOptions.AddDataSource.
  • Appeler TextExtractorOptions.Process et assigner le résultat à ResultContainer.
  • Accédez au texte extrait en utilisant ResultContainer.ResultCollection.

Commencer avec l'extrait de texte PDF

Obtenez les fichiers d’assemblage depuis les téléchargements ou récupérez le package depuis NuGet pour ajouter Aspose.PDF directement à votre espace de travail.

  • Les systèmes d’exploitation pris en charge incluent Windows 7 à 11, Windows Server 2003 à 2022, macOS (version 10.12 et supérieure) et Linux.
  • Les frameworks pris en charge vont de 4.0 à 7.0.
  • Compatible with various versions of Microsoft Visual Studio


Comment extraire du texte de plusieurs PDF

  • Référencez Aspose.PDF pour .NET dans votre projet
  • Définir vos clés de licence
  • Créez des instances de TextExtractor & TextExtractorOptions
  • Ajoutez des documents PDF d’entrée en utilisant TextExtractorOptions.AddDataSource.
  • Appeler TextExtractor.Process avec une instance de TextExtractorOptions en tant que paramètre
  • Obtenez le résultat dans une instance de ResultContainer.
  • Accédez au texte extrait en utilisant ResultContainer.ResultCollection.

Modes de fonctionnement de l'extracteur de texte

  • L’option Pure permet l’extraction de texte à partir d’un fichier PDF avec diverses procédures de mise en forme, incorporant des positions relatives et introduisant des espaces supplémentaires pour aligner le texte sur la largeur de la page.
  • Le mode Brut extrait le texte du fichier PDF sans appliquer de mise en forme
  • Le mode Simple extrait le texte du fichier PDF en tenant compte du positionnement relatif des fragments de texte, mais contrairement au mode “Pur”, il n’ajoute pas d’espace supplémentaire.


Foire aux questions

Que fait Aspose.PDF Text Extractor pour .NET?

Aspose.PDF Text Extractor for .NET est un plugin conçu pour les applications .NET, offrant l’extraction de texte à partir de documents PDF avec trois modes de fonctionnement: Pur, Brut et Simple. Il se décline en mode ‘Brut’ par défaut, prend en charge diverses options d’entrée et de sortie, permet le traitement simultané de plusieurs fichiers PDF, et offre une personnalisation pour les développeurs, en faisant une solution pratique pour l’extraction de texte au sein des environnements .NET.

Quelle est la différence entre Aspose.PDF pour .NET et Aspose.PDF Text Extractor pour .NET?

Aspose.PDF pour .NET est une API .NET robuste pour une large gamme de tâches PDF, y compris la génération de documents, la compression, la création de tables et des fonctionnalités avancées telles que l’importation et l’exportation de données PDF. En revanche, Aspose.PDF Text Extractor pour .NET est un plugin spécialisé axé uniquement sur l’extraction de texte à partir de documents PDF, mettant l’accent sur les capacités d’extraction de texte.

 Français