1. Produkty
  2.   Aspose.PDF
  3.   .NET
  4.   Wydobywacz tekstu

Program do wyodrębniania tekstu z plików PDF dla .NET

Wyodrębniaj czysty, surowy lub prosty tekst z dokumentów PDF za pomocą wtyczki Aspose.PDF .NET.

Narzędzie do pobierania tekstu dla .NET

Uprość wyodrębnianie tekstu z dokumentów PDF za pomocą wtyczki Aspose.PDF Text Extractor dla .NET. Ten wszechstronny narzędzie oferuje trzy tryby pracy: czysty, surowy i zwykły, zapewniając elastyczność i wygodę podczas wyodrębniania tekstu w aplikacjach .NET.

Jak wyodrębnić tekst z pliku PDF za pomocą .NET

  • Odwołaj się do Aspose.PDF w swoim projekcie
  • Ustaw swoje klucze licencyjne
  • Utwórz instancje klasy TextExtractorOptions
  • Dodaj dokumenty PDF za pomocą TextExtractorOptions.AddDataSource
  • Wywołaj TextExtractorOptions.Process i przypisz wynik do ResultContainer.
  • Uzyskaj dostęp do wyodrębnionego tekstu, korzystając z ResultContainer.ResultCollection.

Rozpoczęcie pracy z ekstraktorem tekstu PDF

Pobierz pliki montażowe z pobieranie lub pobierz pakiet z NuGet, aby dodać Aspose.PDF bezpośrednio do swojej przestrzeni roboczej.

  • Obsługiwane systemy operacyjne to Windows 7-11 oraz Windows Server 2003-2022, macOS (10.12+) i Linux
  • Wspierane ramy pracy obejmują zakres od 4.0 do 7.0
  • Zgodny z różnymi wersjami programu Microsoft Visual Studio


Jak wydobyć tekst z wielu plików PDF

  • Dodaj odwołanie do Aspose.PDF dla .NET w swoim projekcie
  • Ustaw swoje klucze licencyjne
  • Utwórz instancje klasy TextExtractor oraz TextExtractorOptions.
  • Dodaj dokumenty PDF za pomocą TextExtractorOptions.AddDataSource
  • Wywołaj TextExtractor.Process z instancją TextExtractorOptions jako parametrem.
  • Uzyskaj wynik do egzemplarza ResultContainer.
  • Uzyskaj dostęp do wyodrębnionego tekstu, korzystając z ResultContainer.ResultCollection

Tryb pracy wyciągu tekstu

  • Opcja Pure umożliwia wyodrębnienie tekstu z pliku PDF za pomocą różnych procedur formatowania, uwzględniając względne pozycje i wprowadzając dodatkowe spacje w celu wyrównania tekstu do szerokości strony.
  • Tryb Surowy wyodrębnia tekst z pliku PDF bez zastosowania żadnego formatowania.
  • Tryb „Zwykły” wyodrębnia tekst z pliku PDF, uwzględniając względną pozycję fragmentów tekstu, ale w odróżnieniu od trybu „Czysty” nie dodaje dodatkowej przestrzeni.


Najczęściej Zadawane Pytania

Czym jest Aspose.PDF Text Extractor dla .NET?

Aspose.PDF Text Extractor dla .NET to wtyczka zaprojektowana dla aplikacji .NET, oferująca ekstrakcję tekstu z dokumentów PDF w trzech trybach działania: Czystym, Surowym i Zwykłym. Domyślnie działa w trybie ‘Surowym’, obsługuje wszechstronne opcje wejścia i wyjścia, pozwala na jednoczesne przetwarzanie wielu plików PDF oraz zapewnia dostosowanie dla deweloperów, co czyni ją wygodnym rozwiązaniem do ekstrakcji tekstu w środowiskach .NET.

Jaka jest różnica między Aspose.PDF dla .NET a Aspose.PDF Text Extractor dla .NET?

Aspose.PDF dla .NET to solidne API .NET do szerokiego zakresu zadań związanych z PDF, w tym generowania dokumentów, kompresji, tworzenia tabel oraz zaawansowanych funkcji, takich jak import i eksport danych PDF. Z kolei Aspose.PDF Text Extractor dla .NET to specjalistyczny plugin skoncentrowany wyłącznie na wyodrębnianiu tekstu z dokumentów PDF, podkreślając możliwości wyodrębniania tekstu.

 Polski