Question 1

¿Cómo funciona el OCR para hacer un PDF escaneado buscable?

Accepted Answer

Renderiza cada página a un canvas a 300 DPI, luego ejecuta Tesseract.js para detectar cada palabra y su posición. Crea un nuevo PDF donde la imagen original de la página se preserva y una capa de texto invisible se superpone, alineando cada palabra a su ubicación exacta. Esto permite seleccionar, copiar y buscar texto manteniendo el aspecto del documento.

Question 2

¿Qué idiomas soporta el reconocimiento óptico de caracteres?

Accepted Answer

Tesseract.js soporta más de 100 idiomas y escrituras incluyendo español, inglés, francés, alemán, chino (simplificado y tradicional), japonés, coreano, árabe, hindi y ruso. Los archivos de datos de idioma se descargan automáticamente al seleccionar un idioma y se cachean en el navegador para uso futuro.

Question 3

¿Qué indica la puntuación de confianza y qué tan preciso es el OCR?

Accepted Answer

La puntuación (0-100%) indica la certeza del motor OCR sobre su reconocimiento. Por encima del 85% el texto suele ser muy preciso. La confianza depende de la calidad de imagen, claridad de la fuente y resolución del escaneo. Escaneos limpios a 300 DPI de texto impreso en fuentes comunes alcanzan rutinariamente más del 95%.

Question 4

¿Puedo extraer solo el texto sin crear un PDF buscable?

Accepted Answer

Sí. Tras completar el OCR, puedes descargar un PDF buscable con la capa de texto invisible o un archivo de texto plano (.txt) con todo el texto reconocido. El archivo de texto preserva el orden de lectura detectado y separa las páginas con marcadores.

Question 5

¿Los modelos de idioma de Tesseract.js se descargan cada vez?

Accepted Answer

No. Los archivos de modelo se descargan desde un CDN la primera vez que seleccionas un idioma y se cachean en el almacenamiento del navegador. Las siguientes ejecuciones con el mismo idioma usan la versión cacheada sin nueva descarga, acelerando significativamente el procesamiento.

OCR de PDF Escaneados

Cómo usar

Acerca de esta herramienta

Por qué usar esta herramienta

Preguntas frecuentes