Algoritmo de búsqueda de texto completo, ¿alguien puede darme algunas pistas que no entiendo?
Existen principalmente sistemas TRS, sistemas Tianyu, etc.
En comparación con otros motores de búsqueda, por ejemplo, la característica distintiva del motor de búsqueda de texto completo es que puede utilizar cualquier palabra con significado de búsqueda en el texto como término de búsqueda, y los resultados de la búsqueda obtenidos son documentos originales en lugar de pistas bibliográficas
Con el desarrollo de la industria informática Con el desarrollo de la información electrónica, hay cada vez más dispositivos de almacenamiento informático como portadores de información electrónica. Esta información se puede dividir aproximadamente en dos categorías: datos estructurados y datos no estructurados. Los datos estructurados se refieren a cosas como las finanzas corporativas. cuentas y datos de producción, y datos de puntuación de los estudiantes. Los datos no estructurados se refieren a algunos datos de texto, sonidos gráficos y otros datos multimedia. Los datos estructurados se refieren a cuentas financieras corporativas y datos de producción, datos de calificaciones de los estudiantes, etc. Los datos no estructurados se refieren a datos multimedia como datos de texto, imágenes y sonidos. Según las estadísticas, los datos no estructurados representan más del 80% de todo el volumen de información. Para los datos estructurados, gestionarlos utilizando la tecnología RDBMS (sistema de gestión de bases de datos relacionales) es actualmente el mejor enfoque. Sin embargo, debido a la estructura subyacente del propio RDBMS, parece tener algunas deficiencias inherentes al administrar grandes cantidades de datos no estructurados, especialmente la lenta velocidad de consulta de estos datos masivos no estructurados. La tecnología de búsqueda de texto completo puede gestionar eficazmente estos datos no estructurados.
Después de varios años de desarrollo, la recuperación de texto completo ha pasado de ser un programa inicial de coincidencia de cadenas a un software a gran escala que puede gestionar de manera integral datos no estructurados, como textos grandes, voz, imágenes e imágenes dinámicas. Debido a cambios profundos en connotaciones y denotaciones, los sistemas de recuperación de texto completo se han convertido en sinónimo de una nueva generación de sistemas de información de gestión, y los indicadores básicos para medir los sistemas de recuperación de texto completo se han ido formando especificaciones gradualmente.
En primer lugar, nos centramos en la tasa de recuperación, que es la relación entre la cantidad de información relevante recuperada por el sistema y la cantidad total de información relevante en la base de datos del sistema bajo un cierto volumen de recuperación. La tasa de precisión es la clave para garantizar que encontremos la información más útil. Se refiere a la relación entre la cantidad de información útil recuperada por el sistema y la cantidad total de información recuperada por el sistema al realizar una determinada recuperación. La velocidad de búsqueda o tiempo de respuesta es una garantía de eficiencia y se refiere al tiempo necesario desde que se envía un tema de búsqueda hasta que se obtienen los resultados. La velocidad de búsqueda más básica es "10 millones de caracteres, segunda respuesta". Además, existen indicadores como el alcance de inclusión (alcance de recuperación), la carga del usuario (el esfuerzo total ejercido por los usuarios en el proceso de recuperación) y el formulario de salida (forma de salida de información) para medir la calidad de los elementos del sistema de recuperación de texto completo. .
Los motores de búsqueda deben ser la máxima prioridad en la aplicación de tecnología de recuperación de texto completo. Actualmente, el uso de motores de búsqueda se ha convertido en la segunda tecnología de aplicación en Internet después del envío y recepción de correos electrónicos. El motor de búsqueda se originó a partir de la teoría tradicional de recuperación de información de texto completo, es decir, el programa de computadora escanea cada palabra en cada artículo y crea un archivo de línea en unidades de palabras. El programa de recuperación se basa en la frecuencia del término de búsqueda que aparece en cada uno. artículo y cada Según la probabilidad de que los términos de búsqueda aparezcan en un artículo, los artículos que contienen estos términos de búsqueda se clasifican y finalmente se generan los resultados ordenados. La tecnología de recuperación de texto completo es la tecnología de soporte central de los motores de búsqueda.
Un buen motor de búsqueda es la clave para un sitio web ideal. A muchas personas les gusta utilizar la búsqueda de sitios web cuando visitan sitios web. La búsqueda de sitios web debe ser una combinación perfecta de navegación por categorías y búsqueda de texto completo, incluidos los siguientes aspectos:
La clave para la navegación por categorías radica en el alcance de la recuperación. La limitación del alcance de la búsqueda evita que haya demasiados resultados de búsqueda;
La búsqueda de texto completo es crucial para la búsqueda de sitios web y, en general, puede ayudar a las personas a encontrar rápidamente las páginas que desean;
A veces. Todavía es difícil localizar la información que desea mediante la navegación por categorías y la búsqueda de texto completo, lo que requiere una combinación de asistencia de búsqueda;
Se deben proporcionar funciones de clasificación relevantes, porque cuando hay demasiados resultados de búsqueda, los usuarios no se puede explorar uno por uno. La mayoría de los usuarios solo exploran los primeros elementos sin una clasificación relevante. Los resultados de búsqueda con resultados de búsqueda precisos pueden clasificarse en la parte posterior y los usuarios no pueden explorarlos ni explorarlos.
Es posible que los usuarios no puedan navegar hasta los resultados de búsqueda que se clasifican más tarde, mientras que los resultados de búsqueda que se clasifican antes son menos relevantes, creando así una ilusión para el usuario.
Además, también debemos considerar la particularidad de HTML/XML, la compatibilidad con el acceso repentino de una gran cantidad de usuarios simultáneos, la naturaleza dinámica del sitio web y los requisitos para la eficiencia del mantenimiento del índice.
Las implementaciones tecnológicas actuales incluyen Lucene, Solr, ElasticSearch, etc. El proceso de búsqueda de texto completo se divide en dos procesos: indexación y búsqueda:
Indexación
Recopila datos de origen (información de destino de búsqueda) de bases de datos relacionales, Internet y sistemas de archivos. Las fuentes son muy amplias.
Recopile datos de origen en un lugar unificado, como un sistema de almacenamiento, cree un índice, cree el índice en la biblioteca de índices (sistema de archivos), extraiga información clave de la base de datos de origen y extraiga información clave una por uno Las palabras, las palabras y los datos de origen están relacionados. Es decir, al crear un índice, se asocian palabras y datos fuente, y esta asociación se registra en el repositorio del índice. Si se encuentra la palabra, significa que los datos fuente (páginas web http, libros electrónicos, noticias esperan). ......).
Buscar
El usuario realiza una búsqueda (búsqueda de texto completo) y escribe palabras clave de consulta.
Busque el índice en la base de datos del índice y busque en la base de datos del índice palabra por palabra según las palabras clave de la consulta.
Mostrar resultados de búsqueda.