Red de conocimientos turísticos - Conocimientos sobre calendario chino - Código fuente de búsqueda de texto completo

Código fuente de búsqueda de texto completo

Es una tecnología de recuperación que utiliza texto, sonido, imágenes y otros datos. Recupere el contenido del documento en lugar de las características de apariencia como contenido principal.

Los sistemas principales incluyen el sistema TRS, el sistema Tianyu, etc.

En comparación con otros motores de búsqueda, la característica distintiva del motor de búsqueda de texto completo es que puede utilizar cualquier palabra significativa en el texto como término de búsqueda y los resultados de la búsqueda son los documentos originales en lugar de pistas de documentos. .

Con el desarrollo de la industria informática, cada vez más información electrónica se basa en dispositivos de almacenamiento informático. Esta información se puede dividir aproximadamente en dos categorías: datos estructurados y datos no estructurados. Los datos estructurados se refieren a cuentas financieras corporativas y datos de producción, datos de desempeño de los estudiantes, etc. , los datos no estructurados se refieren a datos multimedia como datos de texto, imágenes y sonidos. Según las estadísticas, los datos no estructurados representan más del 80% de la cantidad total de información. Para datos estructurados, la tecnología RDBMS (sistema de gestión de bases de datos relacionales) es actualmente el mejor método de gestión. Sin embargo, debido a la estructura subyacente del propio RDBMS, existen algunas deficiencias en la gestión de grandes cantidades de datos no estructurados, especialmente la baja velocidad de consulta de estos datos no estructurados masivos. Y mediante la tecnología de búsqueda de texto completo, estos datos no estructurados se pueden gestionar de manera eficiente.

Después de varios años de desarrollo, la recuperación de texto completo ha pasado de ser un programa inicial de coincidencia de cadenas a un software a gran escala que puede gestionar de manera integral datos no estructurados, como texto de gran tamaño, voz, imágenes e imágenes en movimiento. Debido a cambios profundos en la connotación y denotación, los sistemas de recuperación de texto completo se han convertido en sinónimo de una nueva generación de sistemas de información de gestión, y los indicadores básicos para medir los sistemas de recuperación de texto completo se han estandarizado gradualmente.

En primer lugar, nos centramos en la tasa de recuperación, que es la relación entre la cantidad de información relevante recuperada por el sistema y la cantidad total de información relevante en la base de datos del sistema durante una determinada búsqueda. La precisión es clave para garantizar que encontremos los materiales más útiles. Es la relación entre la cantidad de materiales útiles recuperados por el sistema y la cantidad total de materiales recuperados. La velocidad de recuperación o tiempo de respuesta es una garantía para mejorar la eficiencia del trabajo. Se refiere al tiempo requerido desde el envío de un tema de recuperación hasta la búsqueda de los resultados de los datos. La velocidad de recuperación más básica debería ser "decenas de millones de caracteres chinos, respuesta de segundo nivel". También hay indicadores como el alcance de inclusión (el alcance de la búsqueda), la carga del usuario (la suma de los esfuerzos del usuario durante el proceso de recuperación) y la forma de salida (la forma de expresión de la información de salida), que también son factores que miden la calidad del sistema de recuperación de texto completo.

Los motores de búsqueda deberían ser la aplicación más importante de la tecnología de recuperación de texto completo. En la actualidad, el uso de buscadores se ha convertido en la segunda tecnología de aplicación en Internet después del envío y recepción de correos electrónicos. Los motores de búsqueda se originaron a partir de la teoría tradicional de recuperación de información de texto completo, es decir, un programa de computadora escanea cada palabra de cada artículo para crear un documento palabra por palabra. El programa de búsqueda los contiene en función de la frecuencia y probabilidad de cada palabra de búsqueda. Los artículos de los términos de búsqueda que aparecen en cada artículo se ordenan y finalmente se generan los resultados ordenados. La tecnología de recuperación de texto completo es la tecnología de soporte central de los motores de búsqueda.

Un buen motor de búsqueda es la clave para un sitio web ideal. A muchas personas les gusta utilizar el rastreo de sitios web cuando visitan sitios web. La recuperación de sitios web debe ser una combinación perfecta de navegación por categorías y recuperación de texto completo, incluidos los siguientes aspectos:

La clave para la navegación por categorías es el alcance de la búsqueda. La limitación del alcance de la búsqueda puede impedir que se muestren los resultados de la búsqueda. ser demasiadas y excesivas;

La búsqueda de texto completo es esencial para la recuperación del sitio y, en circunstancias normales, puede ayudar a las personas a encontrar rápidamente las páginas web que desean.

A veces es difícil localizar la información deseada utilizando la navegación del directorio de categorías y la búsqueda de texto completo, y es necesario combinar la asistencia de búsqueda.

Las funciones de clasificación relacionadas son necesarias porque cuando existen; Hay demasiados resultados de búsqueda, los usuarios no pueden navegar uno por uno. La mayoría de los usuarios sólo exploran los primeros elementos sin ninguna clasificación relevante. Puede ser que los resultados de búsqueda precisos estén clasificados en la parte posterior y los usuarios no puedan explorarlos, pero los resultados de búsqueda clasificados al principio no sean muy relevantes, lo que provoca que los usuarios los malinterpreten.

Además, también debemos considerar la particularidad de HTML/XML, la compatibilidad con el acceso repentino de una gran cantidad de usuarios simultáneos, las características dinámicas del sitio web y la eficiencia del mantenimiento del índice.

Actualmente existen Lucene, Solr, ElasticSearch, etc. El proceso de recuperación de texto completo se divide en dos procesos: indexación y búsqueda:

Indexación

Recopila datos de origen (información de destino que se buscará) de bases de datos relacionales, Internet y archivos. sistemas. Los datos fuente provienen de una amplia gama de fuentes.

Recopila datos de origen en una ubicación unificada, como un sistema de almacenamiento.

Para crear un índice, cree el índice en la biblioteca de índices (sistema de archivos), extraiga información clave de la base de datos de origen y extraiga una palabra de la información clave. Las palabras están relacionadas con los datos de origen. Es decir, cuando se crea un índice, las palabras se asocian con los datos de origen y esta asociación se registra en la base de datos del índice. Si se encuentra una palabra, significa que se han encontrado los datos de origen (páginas web http, libros electrónicos, noticias, etc.).

Buscar (Buscar)

Los usuarios realizan búsquedas (recuperación de texto completo) y escriben palabras clave de consulta.

Busque el índice en la base de datos del índice y busque en la base de datos del índice palabra por palabra de acuerdo con la palabra clave de consulta.

Mostrar resultados de búsqueda.