1. Продукты
  2.   Aspose.OCR
  3.   .NET
  4.   Сканированный PDF в текст

Сканированный PDF в текст с использованием OCR

Извлекайте текст из отсканированных PDF-файлов или конвертируйте их в документы с возможностью поиска. Прочтите любой макет и стиль, точно определите структуру текста и таблиц. Сохраняйте оригинальные изображения на заднем плане для сохранения контента. Aspose.OCR - ваше решение для извлечения текста из PDF для .NET.

Преобразование отсканированных PDF в текст с помощью Aspose.OCR для .NET

Плагин Aspose.OCR .NET позволяет извлекать текст из отсканированных PDF-документов или преобразовывать их в документы с возможностью поиска, сохраняя оригинальные изображения. Благодаря передовым алгоритмам точно определяются текст и структуры таблиц, делая его идеальным решением для извлечения текста из PDF-файлов.

Как использовать плагин для извлечения текста из отсканированного PDF-файла.

  • Установите пакет Aspose.OCR из NuGet или локально загруженного файла.
  • Установите свои лицензионные ключи.
  • Загрузите отсканированное изображение в объект OcrInput.
  • Создайте экземпляр движка распознавания Aspose.OCR.
  • Извлечение текста из отсканированного PDF.
  • Выведите распознанный текст или сохраните его в файл.

Получите плагин для преобразования отсканированных PDF в текст

Получите соответствующие сборочные файлы из загрузок или получите пакет с NuGet, чтобы добавить Aspose.OCR непосредственно в ваше рабочее пространство.

  • Совместимо с Microsoft Windows или совместимой ОС с .NET Standard 2.0
  • Требуется среда разработки, такая как Microsoft Visual Studio.


Часто задаваемые вопросы

Требуется ли указание языка?

По умолчанию, Aspose.OCR может автоматически распознавать широкий спектр языков на основе расширенного латинского алфавита. Однако указание конкретного языка может значительно повысить точность распознавания. Явно указывайте язык при распознавании текстов на кириллице, китайском и хинди.

Какие форматы файлов поддерживаются?

Aspose.OCR поддерживает популярные форматы с сканеров или камер, включая PDF, JPEG, PNG и TIFF. Результаты распознавания возвращаются в виде простого текста, HTML, Microsoft Word, PDF, JSON и XML.

Как достичь лучшего результата?

Качество изображения имеет решающее значение для точного распознавания текста на изображениях (OCR). Используйте сканер или камеру с высоким разрешением. Библиотека включает в себя продвинутые фильтры для автоматического улучшения качества изображения перед распознаванием.

Где найти больше информации и примеров?

Изучите нашу онлайн-документацию или посетите хранилище Aspose.OCR для .NET для образцов кода и демонстрационных проектов.

  

Ресурсы поддержки и обучения

  
 Русский