OCR de OCR
En la actualidad, OCR se refiere principalmente a [1] software de reconocimiento de caracteres. Antes de que Ziguang comenzara a equipar software de reconocimiento chino en 1996, los escáneres y el software OCR en el mercado se vendían por separado. El software OCR profesional era más caro que los escáneres. A medida que aumenta la resolución de los escáneres, el software OCR también se actualiza constantemente. Ahora los fabricantes de escáneres tienen a la venta software OCR profesional con sus propios escáneres. El rápido desarrollo de la tecnología OCR está estrechamente relacionado con el uso generalizado de escáneres. En los últimos dos años, con la popularización gradual de los escáneres y la mejora de la tecnología OCR, el OCR se ha convertido en un poderoso asistente para la mayoría de los usuarios de escáneres. Desde la aparición de la primera generación de productos OCR a principios de la década de 1960, después de medio siglo de desarrollo y mejora continuos, la investigación sobre diversas tecnologías OCR, incluida la escritura a mano, ha logrado logros notables. Los requisitos funcionales de los productos OCR también han pasado de centrarse en la tasa de reconocimiento a imponer requisitos más altos en velocidad de reconocimiento, interfaz fácil de usar, simplicidad de operación, estabilidad del producto, adaptabilidad, confiabilidad y fácil actualización, y servicio de preventa y posventa. calidad.
El concepto de OCR fue propuesto por primera vez por el científico alemán Tauscheck en 1929. Posteriormente, el científico estadounidense Handel también propuso la idea de utilizar la tecnología para reconocer caracteres. Casey y Nagy fueron los primeros en estudiar el reconocimiento de caracteres chinos impresos. En 1966, publicaron el primer artículo sobre el reconocimiento de caracteres chinos, utilizando un método de comparación de plantillas para identificar 1.000 caracteres chinos impresos.
Ya en las décadas de 1960 y 1970, países de todo el mundo comenzaron a estudiar el OCR. Al comienzo de la investigación, la mayor parte de la investigación se centró en los métodos de reconocimiento de caracteres, y los caracteres reconocidos eran solo números del 0 al 9. Tomando como ejemplo Japón, que también tiene marcos, la teoría básica de reconocimiento de OCR comenzó a estudiarse alrededor de 1960. Inicialmente, los números se utilizaban como objetos, pero entre 1965 y 1970 comenzaron a aparecer algunos productos sencillos, como el sistema de reconocimiento de códigos postales para texto impreso, que reconocía el código postal en el correo y ayudaba a la oficina de correos a distribuir cartas regionales. Por tanto, los códigos postales siempre han sido la forma de escribir direcciones defendida por varios países.
A principios de la década de 1970, los académicos japoneses comenzaron a estudiar el reconocimiento de caracteres chinos e hicieron mucho trabajo. La investigación de mi país sobre la tecnología OCR comenzó relativamente tarde y comenzó a estudiar el reconocimiento de números, letras y símbolos en inglés en la década de 1970. A finales de la década de 1970, comenzó a estudiar el reconocimiento de caracteres chinos. En 1986, la investigación sobre el reconocimiento de caracteres chinos entró en una etapa sustancial y muchas instituciones de investigación lanzaron sucesivamente productos OCR chinos. Los primeros software de OCR no podían satisfacer las necesidades reales debido a varios factores, como la tasa de reconocimiento y la productización. Al mismo tiempo, debido al alto costo del equipo de hardware y la baja velocidad de funcionamiento, aún no ha alcanzado el nivel práctico. Sólo unos pocos departamentos, como el Ministerio de Información y las unidades de prensa y publicaciones, utilizan software OCR. Después de 1986, la investigación de OCR en mi país ha logrado grandes avances, con innovaciones en el modelado de caracteres chinos y métodos de reconocimiento, y resultados fructíferos en el desarrollo y aplicación de sistemas. Muchas unidades han lanzado productos OCR chinos uno tras otro. Desde la década de 1990, con la aplicación generalizada de escáneres de plataforma y la popularización de la automatización de la información y la ofimática en mi país, la tecnología OCR se ha promovido enormemente y la precisión y velocidad del reconocimiento del OCR han cumplido con los requisitos de los usuarios. Debido a la popularidad y la amplia aplicación de los escáneres, el software OCR solo necesita proporcionar una interfaz con el escáner, utilizando el software del controlador del escáner. Por lo tanto, el software OCR consta principalmente de cuatro partes: módulo de procesamiento de imágenes, módulo de segmentación de diseño, módulo de reconocimiento de texto y módulo de edición de texto.
1. Módulo de procesamiento de imágenes
El módulo de procesamiento de imágenes tiene principalmente las funciones de escaneo de documentos, escalado de imágenes y rotación de imágenes. Una vez que el escáner ingresa el original, se forma un archivo de imagen. El módulo de procesamiento de imágenes puede ampliar la imagen y eliminar manchas y rayones. Si la imagen se coloca incorrectamente, la imagen se puede girar manual o automáticamente para crear mejores condiciones para el reconocimiento de caracteres y lograr una mayor tasa de reconocimiento.
2. Módulo de división de diseño
El módulo de división de diseño incluye principalmente división de diseño y división de cambios, es decir, comprensión del diseño, segmentación de palabras, estandarización, etc. Puede elegir el método de división del diseño automático o manual. El propósito es indicarle al software OCR que separe artículos, tablas, etc. Para que puedan procesarse por separado e identificarse en qué orden.
3. Módulo de reconocimiento de caracteres
El módulo de reconocimiento de caracteres es la parte central del software OCR. El módulo de reconocimiento de caracteres lee principalmente caracteres chinos ingresados, pero un ojo no puede leer muchas líneas, por lo que debe cortarse línea por línea. Para los caracteres chinos, generalmente se reconoce carácter por carácter, es decir, reconocimiento de palabras, y luego se normaliza. El módulo de reconocimiento de caracteres completa el reconocimiento extrayendo las características de diferentes muestras de caracteres chinos, descubre automáticamente palabras sospechosas y tiene la función de asociación.
4. Módulo de edición de texto
El módulo de edición de texto modifica y edita principalmente el texto reconocido por OCR. Si el sistema reconoce un error, el texto se mostrará en un llamativo rojo o azul y se proporcionará un texto similar para elegir un editor para la salida.
El propósito de un sistema de reconocimiento OCR es muy simple: transformar la imagen para que los gráficos de la imagen sigan reteniéndose. Los datos de la tabla y los caracteres de la imagen se convierten en caracteres de computadora. almacenamiento de datos de imágenes e identificación de caracteres. Se puede reutilizar y analizar y, por supuesto, puede ahorrar mano de obra y tiempo de entrada del teclado.
Desde la imagen hasta la salida del resultado, es necesario pasar por la entrada de la imagen, el preprocesamiento de la imagen, la extracción, la comparación y el reconocimiento de características del texto y, finalmente, por la corrección manual para corregir los errores tipográficos y generar el resultado.
1 Entrada de imagen
El sujeto a procesar OCR debe transmitirse al ordenador a través de un instrumento óptico como un escáner de imágenes, un fax o cualquier equipo fotográfico. Con el avance de la tecnología, los dispositivos de entrada como los escáneres se han vuelto cada vez más sofisticados, livianos, cortos y de alta calidad, lo que resulta de gran ayuda para el OCR. La resolución del escáner hace que la imagen sea más clara y la velocidad de escaneo mejora la eficiencia del procesamiento OCR.
Descargar: Preprocesamiento de imágenes OCR óptico de Taibi Technology: El preprocesamiento de imágenes es el módulo que más necesita resolverse en el sistema OCR. El proceso desde la obtención de una imagen binaria que no es ni negra ni blanca ni una imagen en color en escala de grises hasta generar de forma independiente una imagen de texto pertenece al preprocesamiento de imágenes. Incluyendo procesamiento de imágenes como normalización de imágenes, eliminación de ruido y corrección de imágenes, así como preprocesamiento de archivos como análisis gráfico, línea de texto y separación de texto. En términos de procesamiento de imágenes, ha alcanzado una etapa madura en teoría y tecnología, por lo que existen muchas bibliotecas de enlaces en el mercado o en sitios web que se pueden utilizar en el preprocesamiento de documentos, dependiendo de varias habilidades para las imágenes; imágenes, tablas y Separe el área de texto, e incluso distinga la dirección de composición, el esquema y el texto principal del artículo. Solo el tamaño y la fuente del texto pueden considerarse como el documento original.
Extracción de características de caracteres: solo en términos de tasa de reconocimiento, se puede decir que la extracción de características es el núcleo del OCR. Qué características y cómo extraerlas afectan directamente la calidad del reconocimiento, por lo que en los primeros días de la investigación de OCR, hubo muchos informes de investigación sobre la extracción de características. Se puede decir que las características son los chips de reconocimiento, y las distinciones simples se pueden dividir en dos categorías: una son las características estadísticas, como la proporción de puntos blancos y negros de un área de texto. Cuando el texto se divide en varias regiones, la combinación de la relación de puntos blanco/negro de cada región se convierte en un vector numérico en el espacio, y la teoría matemática básica es suficiente para comparar. Otro tipo de características son las características estructurales, como el número y la posición de los puntos finales del trazo y las intersecciones de palabras obtenidas después del refinamiento de la imagen del texto, o la comparación con segmentos de trazo utilizando métodos de comparación especiales. La mayoría de los métodos de reconocimiento de software de entrada de escritura a mano en línea disponibles en el mercado se basan en este método estructural.
Base de datos de comparación: después de calcular las características de los caracteres de entrada, ya sea utilizando características estadísticas o características estructurales, debe haber una base de datos de comparación o una base de datos de características para comparar. El contenido de la base de datos debe incluir todos los conjuntos de caracteres que se van a reconocer, así como los grupos de características obtenidos mediante el mismo método de extracción de características que los caracteres de entrada.
2 Identificación comparativa
Este es un módulo que puede dar rienda suelta a la teoría de operaciones matemáticas. Según las diferentes características, elija diferentes funciones matemáticas de distancia. Los métodos más famosos incluyen el método de comparación del espacio euclidiano, el método de comparación relajada y el método de programación dinámica (DP). Así como el establecimiento y comparación de métodos famosos como bases de datos de redes neuronales y hmm (modelos ocultos de Markov). Para que los resultados del reconocimiento sean más estables, algunas personas también han propuesto los llamados sistemas expertos, que utilizan las diferencias y la complementariedad de varios métodos de comparación de características para hacer que los resultados del reconocimiento tengan un grado particularmente alto de confianza.
Postprocesamiento de texto: dado que la tasa de reconocimiento de OCR no puede alcanzar el 100%, o para mejorar la precisión y el valor de confianza de la comparación, algunas funciones de depuración e incluso corrección de errores se han vuelto indispensables en el sistema OCR. Pocos módulos. El posprocesamiento de palabras es un ejemplo, que utiliza las palabras reconocidas comparadas y sus posibles palabras candidatas similares para encontrar la palabra más lógica basándose en las palabras previamente reconocidas y realizar correcciones.
Tesauro: Tesauro establecido para el posprocesamiento de textos.
3 Corrección manual
Antes del último nivel de OCR, el usuario puede simplemente sostener el mouse, seguir el ritmo del diseño del software o simplemente mirar, lo que puede requerir la energía y la energía del usuario. Es hora de corregir o incluso encontrar posibles errores de OCR. Un buen software de OCR no sólo tiene un núcleo estable de procesamiento y reconocimiento de imágenes para reducir la tasa de error, sino que también el proceso de operación de corrección manual y las funciones afectan la eficiencia del procesamiento de OCR. Por lo tanto, la comparación de la imagen del texto con los caracteres reconocidos, la posición de su información en pantalla, las funciones de caracteres candidatos de cada carácter reconocido, la función de rechazar los caracteres reconocidos y el texto potencialmente problemático están especialmente marcados después del texto posterior. tratamiento. Todos ellos están pensados para que los usuarios utilicen el mínimo posible el teclado. Por supuesto, esto no significa que el texto que no muestra el sistema sea necesariamente correcto, al igual que la entrada del pentagrama que depende completamente del teclado también cometerá errores. En este momento todo depende de las necesidades del usuario.
4 Resultados de salida
Algunas personas solo quieren que el archivo de texto se reutilice como parte del texto, por lo que, siempre que sea un archivo de texto general, algunas personas quieren que sea exactamente igual que el archivo de entrada, por lo que hay reproducción. Algunas personas se centran en la función del texto original, por lo que necesitan combinarlo con software como Excel. Independientemente del cambio, es sólo un cambio en el formato del archivo de salida. Si es necesario restaurarlo al mismo formato que el texto original, es necesario componerlo manualmente después del reconocimiento, lo que requiere mucho tiempo y trabajo. 1 Entrada de datos
La entrada digital de materiales documentales generalmente se divide en:
1.
2. Texto de tabla de contenidos, modo imagen de texto.
3. Modo texto completo.
4. Método de indexación de texto completo. Una combinación de modo texto y modo imagen.
2 Proceso de reconocimiento
Nivel de libro: chino, inglés; simplificado, tradicional;
Nivel de diseño: vertical y horizontal;
Segmentación de líneas y segmentación de palabras
Reconocimiento: el proceso de reconocimiento OCR real, la información de la imagen se restaura a información de texto.
Postprocesamiento: intervención manual, concentrada principalmente en las cuatro primeras etapas.
3 Determinantes de los resultados de identificación
1. Generalmente se recomienda que la calidad de la imagen sea de 150 ppp o superior.
2. Generalmente, el reconocimiento del color es deficiente y las imágenes en blanco y negro se reconocen mucho. Por lo tanto, se recomienda que el OCR utilice el formato tif en blanco y negro.
3. Lo más importante es la fuente. Si es escritura a mano, la tasa de reconocimiento es muy baja.
La tasa de error del reconocimiento OCR simplificado chino es de 3 sobre 10.000. Si se requiere una mayor precisión, se requiere más intervención manual. La dificultad para reconocer los caracteres chinos tradicionales se debe a que las bibliotecas de fuentes tradicionales son inconsistentes (la biblioteca de fuentes en la República de China no es consistente con la biblioteca de fuentes tradicionales actual). Bajo intervención manual, la tasa de precisión puede alcanzar más del 90% (cuando los gráficos y el texto son claros). 1. La configuración de la resolución es un requisito previo importante para el reconocimiento de caracteres. En términos generales, los escáneres proporcionan más información de imagen y el software de reconocimiento puede obtener resultados de reconocimiento fácilmente. Pero eso no significa que cuanto mayor sea la resolución de escaneo, mayor será la precisión del reconocimiento. Elija una resolución de 300 ppp o 400 ppp, adecuada para escanear la mayoría de los documentos. Preste atención al escaneo y reconocimiento del texto original. Al configurar la resolución de escaneo, no exceda la resolución óptica del escáner; de lo contrario, la ganancia superará la pérdida. A continuación se muestran algunas configuraciones típicas solo como referencia.
(1)Se recomienda 1, 2, 3, 200 ppp.
(2)Se recomienda 300 dpl para los párrafos pequeños 4 y 5.
(3) Se recomienda 400 dpl para los segmentos 5 y 6 con números más pequeños.
(4) Se recomienda utilizar 600 ppp para los segmentos 7 y 8.
2. Al escanear, ajuste los valores de brillo y contraste de forma adecuada para que los documentos escaneados estén en blanco y negro. Ésta es la clave para la tasa de reconocimiento. La configuración de los valores de brillo y contraste del escaneo se basa en el principio de observar los finos trazos de los caracteres chinos en la imagen escaneada sin detenerse. Antes del reconocimiento, observe la calidad del texto en la imagen escaneada. Si hay puntos negros o puntos oscuros en la imagen o las líneas de los caracteres son gruesas y oscuras y los trazos no se pueden distinguir, significa que el valor de brillo es demasiado pequeño y debe aumentar el valor de brillo e intentarlo nuevamente. Si las líneas de texto en la imagen son desiguales, rotas o incluso el contorno de los caracteres chinos está muy incompleto, significa que el valor de brillo es demasiado alto y debe reducir el brillo e intentarlo nuevamente.
3. Seleccione el software de escaneo. Elegir un buen software de OCR que se adapte a sus necesidades es la base para un buen reconocimiento de caracteres. Generalmente, no se debe utilizar el software OEM que viene con el escáner. El software OEM OCR tiene pocas funciones y efectos deficientes, y algunos incluso no tienen reconocimiento chino.
Elija otro software de imágenes. Primero, el software OCR no puede reconocer todos los escáneres. El segundo punto, y el más importante, es que las imágenes escaneadas mediante la interfaz de escaneo del software de imágenes son fáciles de procesar.
4. Si es necesario formatear el texto, como negrita, cursiva, sangría en la primera línea, etc. , algunos programas de OCR no lo reconocerán y el formato se perderá o se distorsionará. Si debe escanear texto formateado, asegúrese de que el software de reconocimiento que utilice tenga soporte preexistente para el escaneo de formato de texto. También puede desactivar el sistema de reconocimiento de patrones para que el software pueda concentrarse en encontrar los caracteres correctos, independientemente de las fuentes y el formato de las fuentes.
5. Al escanear y reconocer periódicos u otros manuscritos translúcidos, los caracteres del reverso penetrarán en el papel y confundirán las fuentes, provocando grandes obstáculos para el reconocimiento. Para este tipo de escaneo, simplemente péguelo en la parte posterior del documento escaneado. Al escanear, cúbralo con una hoja de papel negro para aumentar el contraste del escaneo, lo que puede reducir el impacto de las fuentes borrosas en la parte posterior y mejorar la precisión del reconocimiento.
6. Generalmente, los escaneos de texto se realizan en blanco y negro, pero al configurar el escaneo, el modo de escaneo a menudo se configura en modo gris. Especialmente cuando la calidad del original es deficiente, escanear en modo de escala de grises y continuar con el reconocimiento después del procesamiento mediante el software de escaneo puede lograr una mayor precisión del reconocimiento. Vale la pena señalar que el software de reconocimiento OCR puede determinar el valor umbral por sí solo, y una diferencia de unos pocos puntos porcentuales en el valor umbral puede afectar el reconocimiento normal. Por supuesto, el tamaño del archivo de imagen resultante será mucho mayor que el del archivo en blanco y negro. Al escanear una gran cantidad de manuscritos, es necesario probarlos para encontrar el porcentaje umbral óptimo.
7. Cuando encuentre un manuscrito escaneado con imágenes y texto mezclados, primero debe determinar si el software de reconocimiento que utiliza admite la función de analizar imágenes y texto automáticamente. Si es compatible, el software OCR calculará automáticamente el contenido, la posición y el orden del texto durante este proceso de reconocimiento de escaneo. La parte del texto se puede reconocer normalmente según el orden de anotación.
8. Seleccionar manualmente el área de escaneo tendrá mejores resultados de reconocimiento. Después de configurar los parámetros, primero obtenga una vista previa y luego comience a seleccionar el área de escaneo. No elija utilizar el artículo en un área, porque para lograr mejores efectos visuales, el diseño actual del artículo utiliza más imágenes y textos. El escaneo en una imagen afectará el reconocimiento de OCR. Por lo tanto, el diseño debe dividirse en n áreas según la situación real. ¿Cómo se dividen las regiones? La fuente del texto y el tamaño de cada área deben ser consistentes, no debe haber gráficos ni imágenes y el ancho de cada línea debe ser consistente. Si las longitudes son diferentes, se deben subdividir. Generalmente, se pueden escanear hasta 10 selecciones a la vez. Según diferentes situaciones, establezca razonablemente el orden de las áreas de identificación. No creas que este proceso es demasiado molesto, es un medio eficaz para mejorar la tasa de reconocimiento.
Tenga en cuenta que no debe haber ningún cruce entre las áreas de reconocimiento y no reconozca hasta que todo se sienta intacto. De esta forma, la tasa de reconocimiento general será superior al 95%. Después de corregir las palabras reconocidas incorrectamente, puede ingresar al software de procesamiento de textos correspondiente para realizar el procesamiento requerido.
9. Al colocar el manuscrito escaneado, el material de texto escaneado debe colocarse en el centro de la línea de inicio del escaneo para minimizar la distorsión causada por la lente óptica. Al mismo tiempo, se debe proteger el cristal del escáner contra daños. Si el texto está inclinado en cierto ángulo o el diseño del texto original es irregular, debe utilizar la herramienta de rotación para corregirlo después del escaneo; de lo contrario, el software de reconocimiento OCR considerará los trazos horizontales como trazos oblicuos y la precisión del reconocimiento disminuirá; mucho. Se recomienda que los usuarios mantengan los originales escaneados lo más rectos posible. El uso de herramientas para rotarlos y corregirlos reducirá la calidad de la imagen y aumentará la dificultad del reconocimiento de caracteres.
10. Primero obtenga una vista previa del diseño completo, seleccione el área a escanear y luego use la herramienta de vista previa de zoom para seleccionar un área pequeña para ampliarla y mostrarla en pantalla completa, observe el contraste y la profundidad del diseño. texto y ajuste el tamaño del umbral según la situación. Finalmente, se requiere que el texto sea claro, no grueso (grupos de palabras) ni liviano (cortes de palabras), generalmente en un umbral de alrededor de 80, y luego se escanea.
11. Utilice herramientas para borrar manchas de la imagen, incluidas ilustraciones y líneas divisorias que no necesitan ser reconocidas en la página original, de modo que no haya nada superfluo excepto texto en la imagen del texto, esto puede mejorar enormemente; la tasa de reconocimiento y reducir el número de imágenes después del trabajo de modificación.
12. Si desea escanear un artículo con mala calidad de impresión, como un periódico, el resultado del escaneo no será blanco y negro, habrá muchos puntos negros y habrá adherencia en el papel. trazos de la fuente. Estos dos elementos son tabúes en el reconocimiento de caracteres chinos y afectarán seriamente la precisión del reconocimiento de caracteres chinos. Para obtener mejores resultados de reconocimiento, es necesario ajustar cuidadosamente el tono del color y escanear repetidamente para obtener los resultados ideales. Además, debido a que los periódicos son muy delgados y la mayor parte del papel es de baja calidad, la cubierta del escáner no puede presionar completamente el periódico (hay espacios), por lo que el efecto de reconocimiento de escaneo de los periódicos generalmente no es tan bueno como el de las revistas. . La solución es imprimir una o dos revistas de 16K en periódicos y el efecto es bueno.