¿Qué es la tecnología OCR?
OCR es la abreviatura de Optical Character Recognition en inglés y se refiere a un dispositivo electrónico (como un escáner o una cámara digital) que comprueba los caracteres impresos en el papel, determinando su forma detectando patrones oscuros y claros. y luego usar el método de reconocimiento de caracteres: el proceso de traducir formas a texto de computadora, es decir, el proceso de escanear datos de texto y luego analizar y procesar archivos de imágenes para obtener texto e información de diseño. Descripción general del desarrollo de OCR El concepto de OCR fue propuesto por primera vez por el científico alemán Tauscheck en 1929. Más tarde, el científico estadounidense Handel también propuso la idea de utilizar tecnología para reconocer texto. Los primeros investigadores que estudiaron el reconocimiento de caracteres chinos impresos fueron Casey y Nagy de IBM. En 1966, publicaron el primer artículo sobre el reconocimiento de caracteres chinos, utilizando un método de comparación de plantillas para identificar 1.000 caracteres chinos impresos. A principios de la década de 1970, los académicos japoneses comenzaron a estudiar el reconocimiento de caracteres chinos y trabajaron mucho. La investigación de nuestro país sobre el reconocimiento de caracteres chinos comenzó relativamente tarde, y el trabajo de investigación del OCR no comenzó hasta finales de la década de 1970. Los primeros software de OCR no cumplieron con los requisitos reales debido a varios factores, como la tasa de reconocimiento y la productización. Al mismo tiempo, debido al alto costo del equipo de hardware y la baja velocidad de funcionamiento, no ha alcanzado el nivel práctico. Sólo determinados departamentos, como los departamentos de información, las unidades de prensa y publicaciones, etc., utilizan software OCR. Después de 1986, la investigación de OCR en China ha logrado grandes avances. Ha habido innovaciones en los métodos de reconocimiento y modelado de caracteres chinos, y se han logrado resultados fructíferos en el desarrollo y aplicación de sistemas. Después de entrar en la década de 1990, con la aplicación generalizada de los escáneres de superficie plana y la popularización de la automatización de la información y la ofimática en nuestro país, se promovió en gran medida el mayor desarrollo de la tecnología OCR, haciendo que la precisión y la velocidad del reconocimiento del OCR satisfagan las necesidades de la mayoría. de usuarios. En la actualidad, existen muchos software de OCR populares. El principal software de OCR en inglés es OmniPage. El principal software de OCR en chino es Tsinghua Unisplendour OCR, Tsinghua Wentong OCR, Hanwang OCR, Zhongjing Shangshu OCR, Danqing OCR, Mengtian OCR, etc. Aunque los caracteres chinos son grandes y de forma compleja, la tecnología OCR ha madurado. Muchos software de OCR no solo pueden reconocer caracteres chinos impresos en blanco y negro, sino también caracteres chinos impresos en escala de grises y en color. La velocidad de reconocimiento es muy rápida y la tasa de precisión del reconocimiento alcanza más del 99%; reconocer la disposición mixta de múltiples fuentes y diferentes tamaños de fuente; algunos programas de OCR también pueden reconocer imágenes y tablas. Al mismo tiempo, la investigación sobre el reconocimiento de caracteres chinos escritos a mano también ha logrado grandes avances y la tasa de reconocimiento correcto ha alcanzado más del 70%. Aplicación del software OCR En el mercado de los escáneres, muchos tipos de escáneres domésticos y de oficina están equipados con software OCR, como el escáner de Ziguang está equipado con Ziguang OCR, el escáner de Zhongjing está equipado con Shangshu OCR y el escáner de Mustek está equipado con Danqing OCR, etc. . El escáner y el software OCR realizan conjuntamente todo el proceso, desde la entrada de documentos hasta el reconocimiento de texto. El escaneo de documentos se usa a menudo en el campo de la oficina. Los documentos relevantes publicados en periódicos, revistas y otros medios se escanean a través de un escáner y luego se realiza el reconocimiento OCR, o se almacenan como archivos de imagen para su posterior reconocimiento OCR y los archivos de imagen se convierten. en un archivo de texto o de Word para almacenar. Además, el almacenamiento y la transmisión de información digital no solo son de bajo costo y alta eficiencia, sino que también pueden adaptarse a las necesidades de desarrollo continuo de tipografía, transmisión de red, etc. En la actualidad, nuestro país cuenta con una gran cantidad de tesoros en papel como libros, periódicos, revistas, etc. restos de la historia, y urge convertirlos en información electrónica. Por ejemplo, el establecimiento de una biblioteca electrónica requiere escanear libros página por página, junto con el reconocimiento mediante software OCR, que reemplaza el trabajo de escribir texto manualmente, acortando en gran medida el tiempo de entrada, reduciendo la intensidad de mano de obra, ahorrando mano de obra y reduciendo los costos. precisión, eficiencia en el trabajo y moderna automatización de oficinas. En la actualidad, la combinación de software OCR y escáneres se ha aplicado a muchos campos de la era de la información, como bibliotecas digitales, identificación de diversos informes e identificación de facturas bancarias y del sistema tributario.
Con el desarrollo y la popularización de las redes y la informatización, su alcance de aplicación será cada vez más amplio. La composición del sistema OCR La función del software de reconocimiento de caracteres chinos OCR es utilizar la computadora para reconocer los gráficos o imágenes de cada carácter chino en varios caracteres chinos ingresados, caracteres impresos o escritos a mano, y marcar el código de categoría de caracteres chinos. Por lo tanto, el reconocimiento de caracteres chinos es, en última instancia, un problema de reconocimiento de imágenes. Debido a que los caracteres chinos contienen una gran cantidad de información, tienen diferentes glifos, fuentes y estructuras complejas, el proceso de reconocimiento de caracteres chinos es extremadamente complicado. Debido a la popularidad y la amplia aplicación de los escáneres, el software OCR solo necesita proporcionar una interfaz con el escáner y utilizar el software del controlador del escáner. Por lo tanto, el software OCR consta principalmente de cuatro partes: módulo de procesamiento de imágenes, módulo de división de diseño, módulo de reconocimiento de texto y módulo de edición de texto. 1. Módulo de procesamiento de imágenes El módulo de procesamiento de imágenes tiene principalmente funciones como escaneo de documentos, escalado de imágenes y rotación de imágenes. Después de ingresar a través del escáner, el documento forma un archivo de imagen. El módulo de procesamiento de imágenes puede ampliar la imagen y eliminar manchas y rayones. Si la imagen no se coloca correctamente, la imagen se puede rotar de forma manual o automática. mejores condiciones para el reconocimiento de texto, de modo que la tasa de reconocimiento sea mayor. 2. Módulo de división de diseño El módulo de división de diseño incluye principalmente división de diseño y división de cambios, es decir, comprensión del diseño, segmentación de palabras, normalización, etc. Hay dos métodos de división de diseño, automático o manual. El propósito es indicarle al software OCR que separe artículos, tablas, etc. en la misma página para que puedan procesarse por separado e identificarse en qué orden. 3. Módulo de reconocimiento de texto El módulo de reconocimiento de texto es la parte central del software OCR. El módulo de reconocimiento de texto "lee" principalmente los caracteres chinos ingresados, pero no se puede usar para varias líneas a la vez y se debe cortar línea por línea. Los caracteres chinos generalmente se reconocen uno por uno, es decir, se reconoce una sola palabra y luego se normaliza. El módulo de reconocimiento de caracteres completa el reconocimiento extrayendo las características de diferentes caracteres chinos de muestra, busca automáticamente caracteres sospechosos y tiene funciones como asociación hacia adelante y hacia atrás. 4. Módulo de edición de texto El módulo de edición de texto modifica y edita principalmente el texto después del reconocimiento OCR. Si el sistema reconoce que está incorrecto, el texto se mostrará en rojo o azul llamativo y se proporcionará un texto similar para su selección. Seleccione el editor para salida, etc. Cómo utilizar el software OCR Aunque existen muchos tipos de software OCR, sus métodos de uso son similares. Primero, escanee el documento y luego realice el reconocimiento OCR. El modo de utilizar el software OCR es el siguiente: 1. Escaneo de documentos Para utilizar el software OCR para el reconocimiento de texto, puede escanear el documento directamente en el software OCR. Después de ejecutar el software OCR, aparecerá la interfaz del software OCR. Coloque el documento a escanear en la superficie de vidrio del escáner, con el lado a escanear hacia la superficie de vidrio del escáner y el extremo superior del documento hacia abajo, alineado con el borde de la regla, luego cubra el escáner y ya está listo para escanear. Haga clic en el botón "Escanear" en la ventana para ingresar al software del controlador de escaneo para escanear. El método de escaneo no se describirá aquí. Pero cabe señalar que la resolución se puede configurar entre 200 y 400 ppp. Para documentos de texto, es fundamental ajustar el brillo a un nivel moderado. La imagen del documento escaneado aparece en la ventana del software OCR. 2. Reconocimiento OCR Para una fácil operación, puede seleccionar opciones del menú y aparecerán varios íconos en el lado izquierdo de la ventana. Para un mejor uso, primero introduzca los íconos en el lado izquierdo de la pantalla de arriba a abajo: herramienta "Acercar": se usa para ampliar la imagen; herramienta "Alejar": se usa para reducir la imagen; herramienta "Establecer área de reconocimiento"; : se usa para configurar el área de reconocimiento; herramienta "Establecer orden de reconocimiento": se usa para configurar el orden de reconocimiento; herramienta "Eliminar área de reconocimiento": se usa para eliminar áreas de reconocimiento; herramienta "Borrar ruido de imagen": se usa para borrar el ruido en la imagen; Herramienta "Limpiar" Bloque de imagen: para borrar un área de una imagen. Herramienta Girar imagen: para rotar una imagen 90°, 180° o 270°. Herramienta de corrección de inclinación: para corregir la inclinación de la imagen manualmente. Pasos generales para el reconocimiento OCR: (1) Después de escanear el documento, el texto a reconocer que aparece por primera vez en la ventana es muy pequeño. Primero, seleccione la herramienta "acercar" para ampliar adecuadamente la pantalla y verlo con mayor claridad. Si es necesario, también puede seleccionar la herramienta "alejar" para reducir adecuadamente el tamaño de la pantalla. (2) Si es necesario girar la imagen 90°, 180° o 270°, puede utilizar la herramienta "Rotar imagen" para rotar la imagen. Si la pantalla de texto está inclinada, puede seleccionar la herramienta "corrección de inclinación" para enderezar la pantalla.
(3) Durante el reconocimiento, seleccione la herramienta "Establecer área de reconocimiento" y enmarque el área a reconocer en la pantalla de texto. En este momento, también puede enmarcar múltiples áreas de acuerdo con las condiciones de la pantalla. Si el área enmarcada es incorrecta, puede utilizar la herramienta "Eliminar área de reconocimiento" para eliminar el área de reconocimiento seleccionada. (4) Para mejorar la tasa de reconocimiento, si hay puntos de ruido en el área de reconocimiento seleccionada o hay imágenes que no se pueden reconocer, puede elegir la herramienta "Borrar puntos de ruido de imagen" para borrar los puntos de ruido poco a poco. Si necesita borrar en parches, puede seleccionar la herramienta Borrar bloques de imagen. (5) Haga clic en el icono "Reconocimiento" y el OCR mostrará que el texto se está segmentando y luego cambiará a la pantalla "Reconocimiento" y el texto reconocido se mostrará gradualmente en la ventana "Corrección del manuscrito". Muchos programas de OCR tienen funciones de modificación de texto. El texto que se pueda identificar con errores se mostrará en un color más brillante y se podrá modificar. (6) Almacene los archivos reconocidos como archivos de texto (TXT) o archivos Word RTF.