Aspose.OCR 的 .NET OCR 插件可以从扫描的 PDF 文档中提取文本,或者将其转换为可搜索的文档,同时保留原始图像。先进的算法能够准确识别文本和表格结构,使其成为您提取 PDF 文本的首选解决方案。
默认情况下,Aspose.OCR 可以基于扩展拉丁字母自动识别多种语言。但是,指定特定语言可以显著提高识别准确性。在识别西里尔文、中文和印地文时,请明确指定语言。
Aspose.OCR 支持来自扫描仪或相机的常见格式,包括 PDF、JPEG、PNG 和 TIFF。识别结果以纯文本、HTML、Microsoft Word、PDF、JSON 和 XML 返回。
良好的图像质量对于准确的OCR至关重要。使用扫描仪或高分辨率相机。图书馆包含高级滤镜,可在识别之前自动改善图像质量。
浏览我们的在线文档或访问Aspose.OCR for .NET存储库获取代码示例和展示项目。