Es probable que sus siglas te resulten familiares, pero tienes dudas o no terminas de saber qué es el OCR. Para abrir boca, diremos que es una herramienta que apuesta por la digitalización de documentos e imágenes.
Índice
- Qué es el OCR: definición y aplicaciones
- Programas para convertir una foto en texto con OCR
- Así funciona un algoritmo OCR
qué es el ocr: Definición y aplicaciones
Las siglas OCR (del inglés Optical Character Recognition) -o ROC en español, Reconocimiento Óptico de Caracteres- se utilizan para describir la técnica que digitaliza cualquier documento (puede ser, por ejemplo, un conjunto de caracteres o varias imágenes) para su posterior reconocimiento. Este proceso se desarrolla de manera automática con la ayuda de las diferentes herramientas que existen.
El usuario debe tener en cuenta una serie de consideraciones. La primera debe responder a la siguiente pregunta: ¿cómo se puede introducir en el ordenador el fichero con el que luego se va a trabajar? Las opciones disponibles son varias y, entre ellas, se encuentran el teléfono móvil y el escáner. Además, otros aspectos son fundamentales para que la calidad del archivo resultante sea la mejor. Si solo se trata de textos, lo recomendable son las alineaciones en horizontal. También es aconsejable comprobar su legibilidad. Para las imágenes, el contraste, el brillo o la resolución que presentan son otros de los elementos que deben confirmarse.
Los programas de reconocimiento óptico de caracteres se usan principalmente en el ámbito empresarial para labores de gestión documental. En la práctica, esto se traduce en una serie de ventajas como las que a continuación se indican: las organizaciones ahorran espacio físico, disfrutan de un control pormenorizado de los documentos que manejan, simplifican tiempos de localización y recuperación de archivos, obtienen una mayor seguridad al determinar qué personas tienen acceso a ellos… Por otro lado, los OCR posibilitan el almacenamiento, la búsqueda, la edición y la extracción de información procedente de distintas fuentes como facturas, informes, órdenes de compra, registro de activos, contratos, lectura de códigos de barras…
Además, destaca el reconocimiento de las matrículas de los vehículos que circulan por carretera. En este caso, la tecnología identifica las letras y los números que la forman en detrimento de otros elementos visibles como las señales de tráfico. La clave es el reconocimiento automático de matrículas o ANPR (del inglés Automatic Number Plate Recognition) que incorporan algunos radares. Incluso las personas invidentes pueden interactuar con la tecnología gracias a la tecnología OCR.
programas para convertir una foto en texto con OCR
Junto a las aplicaciones apuntadas, el OCR se plantea también como una herramienta útil para aquellos que necesitan convertir una fotografía en texto. De este modo, es posible extraer texto de una imagen o transformar un PDF a otros formatos como Excel o Word. Estos son algunos de los programas gratuitos más interesantes:
- Online OCR: una alternativa disponible en línea que, a través de tres sencillos pasos, puede extraer textos y caracteres de documentos PDF gracias a la tecnología de los programas de reconocimiento óptico de caracteres. Es compatible con archivos PNG, BMP y JPG.
- Google Drive: el popular servicio de almacenamiento en la nube del Gigante de Redmond permite convertir archivos de imagen, PDFs también, en texto que posteriormente puede editarse y compartir. El usuario debe dirigirse a su Google Drive y pulsar en la pestaña ‘Nuevo’ de la parte izquierda de la pantalla. A continuación, escoge la opción ‘Subir archivo’ del menú desplegable para buscar en su ordenador el fichero de imagen o PDF que necesita. Cuando ya lo ha subido a Drive, pulsa sobre el archivo en cuestión y sigue la siguiente ruta: ‘Abrir con/ Documentos de Google‘.
- Photo Scan: compatible con el explorador de Windows, ofrece una función que lee -gracias a su soporte de texto a voz– ficheros y textos que pueden extraerse en varios idiomas. Como función complementaria escanea códigos QR. Se descarga desde el sitio Microsoft Store.
- Microsoft OneNote: la conocida aplicación web no solo permite realizar anotaciones, elaborar listas o tomar apuntes. Su tecnología OCR también hace posible convertir una imagen en texto editable. Con PDFs también, como muestra este tutorial disponible en la página web de soporte de Microsoft.
- Text Scanner- Imagen to Text: una aplicación para dispositivos móviles Android compatible con un amplio abanico de idiomas para que el usuario escanee y extraiga texto de imágenes utilizando la cámara de su teléfono móvil. Además, permite compartir el texto escaneado con otras aplicaciones.
Así funciona un algoritmo OCR
Para que un programa OCR pueda diferenciar un texto de una imagen, los algoritmos que aplica siguen distintos procesos. El primero está relacionado con el término binarización. Así, como los algoritmos OCR se basan en una imagen de dos colores o binaria, lo recomendable es transformar la imagen – puede ser en color o que incorpore una escala de grises- en una instantánea en blanco y negro. Esto le permitirá conservar sus propiedades. Para ello, se aplica la representación gráfica del histograma.
A partir de aquí, tiene lugar el proceso de fragmentación o segmentación de la imagen, útil no solo para detectar los contornos que la forman. También posibilita que el texto se ‘descomponga’ en distintas entidades. De esta manera, y tras aislar los componentes relacionados con la propia imagen, se inicia una nueva fase (la tercera) en la que la tecnología suprime los puntos de los contornos (mediante un sistema de barrido) de cada componente pero respetando su tipología. Mientras esto sucede, la imagen conservará las proporciones de la instantánea original. Finalmente, el programa compara los caracteres que ha obtenido con unos patrones que se encuentran en una base de datos. Esta fase es muy importante para que el reconocimiento óptico de los caracteres resulte lo mejor posible, y para ello es posible utilizar distintos métodos como los de tipo estructural, estadístico, geométrico…
En Nobbot | Cómo gestionar documentos en formato digital
Imágenes | Mikhail Nilov/Pexels, ashirova0/Pixabay y Ranjithsiji/Wikimedia Commons