¿Qué es una araña web?
Palabras clave: web spider, origen, principio, optimización
Índice de contenidos
Qué es web spider
El origen de web spider
p>Cómo funcionan las arañas web
El comienzo de las arañas web de texto
1. ¿Qué son las arañas web?
---- ¿Qué son las arañas web? Web Spider es un nombre muy vívido. Si se compara Internet con una telaraña, entonces Spider es una araña que se arrastra por la red. Las arañas web buscan páginas web a través de las direcciones de enlaces de las páginas web. A partir de una determinada página web (generalmente la página de inicio), leen el contenido de la página web, encuentran otras direcciones de enlaces en la página web y luego buscan la página web. siguiente página web a través de estas direcciones de enlace, y así sucesivamente hasta que se rastreen todas las páginas del sitio web. Si consideramos todo Internet como un sitio web, las arañas web pueden utilizar este principio para rastrear todas las páginas web de Internet.
---- De este modo, una araña web es un rastreador, un programa que rastrea páginas web.
2. El origen de las arañas web
---- Para hablar del origen de las arañas web, tenemos que empezar por los motores de búsqueda ¿Qué es un motor de búsqueda? El origen de los motores de búsqueda está estrechamente relacionado con el origen de las arañas web.
---- Un motor de búsqueda se refiere a un sistema que recopila automáticamente información de Internet, la organiza hasta cierto punto y proporciona consultas a los usuarios. La información en Internet es enorme y no hay orden. Toda la información es como pequeñas islas en el vasto océano. Los enlaces web son puentes entrecruzados entre estas pequeñas islas y el motor de búsqueda le muestra una imagen clara. Mapa informativo para que puedas consultarlo en cualquier momento.
---- Desde sus inicios en 1990, los motores de búsqueda se han convertido en una parte indispensable de la vida de las personas y ha experimentado muchos cambios tecnológicos y conceptuales.
---- Hace 14 años, en enero de 1994, se lanzó oficialmente el primer directorio de categorías con capacidad de búsqueda y navegación, EINetGalaxy. Después apareció Yahoo, hasta que ahora conocemos a Google y Baidu. Pero no son los primeros en aprovechar los motores de búsqueda. A partir de la búsqueda de archivos en FTP, apareció el prototipo del motor de búsqueda. En ese momento, no existía la World Wide Web. En ese momento, la gente primero buscaba en las páginas web manualmente y luego usaba programas spider. En Internet, ¿cómo podemos recopilar más datos? Las páginas web con más páginas y en menos tiempo se convirtieron en la dificultad y el enfoque en ese momento, y se convirtieron en el foco de la investigación de las personas.
----Aparece el prototipo del motor de búsqueda
----Si quieres rastrearlo, la historia de los motores de búsqueda es incluso más larga que la historia del World Wide Web. Mucho antes de la llegada de la World Wide Web, había muchos recursos de información en Internet diseñados para que la gente pudiera navegar. Estos recursos existen principalmente en sitios FTP que permiten el acceso anónimo. Para que a las personas les resulte más fácil encontrar lo que necesitan en recursos FTP dispersos, en 1990, varios estudiantes universitarios de la Universidad McGill en Canadá desarrollaron Archie, una lista de búsqueda de nombres de archivos FTP en la que los usuarios sólo necesitan ingresar el archivo exacto. El archivo se puede buscar por nombre y Archie le dirá al usuario desde qué dirección FTP se puede descargar el archivo. Archie es en realidad una gran base de datos más un conjunto de métodos de búsqueda asociados con esta gran base de datos. Archie aún no es un motor de búsqueda, pero según su funcionamiento, es el abuelo de todos los motores de búsqueda.
----Cuando apareció la World Wide Web (WorldWideWeb), la gente podía difundir información de la red a través de html y la información en la red comenzó a crecer exponencialmente. La gente utiliza varios métodos para recopilar información de la red, clasificarla y organizarla para facilitar la búsqueda. El sitio web de Yahoo que ahora conocemos nació en este entorno. Jerry Yang, un chino-estadounidense que todavía estudiaba en la Universidad de Stanford, y sus compañeros se obsesionaron con Internet. Recopilan páginas web interesantes en Internet y las comparten con sus compañeros. Más tarde, en abril de 1994, los dos coorganizaron Yahoo on ****. A medida que aumentaron las visitas y los enlaces indexados, el Directorio de Yahoo comenzó a admitir búsquedas simples en bases de datos. Sin embargo, dado que todos los datos de Yahoo se ingresan manualmente, en realidad no se puede clasificar como un motor de búsqueda y en realidad es solo un directorio en el que se pueden realizar búsquedas.
----El primer motor de búsqueda moderno apareció con la aparición de los programas "araña". En realidad, se trata de un "robot" informático (Computer Robot), un programa de software que puede realizar tareas sin interrupción a una velocidad que los humanos no pueden alcanzar. Porque los programas "robots" diseñados específicamente para recuperar información se arrastran por la red como arañas, una y otra vez, incansablemente. Por lo tanto, los motores de búsqueda se refieren a los programas "robots" como programas "araña".
----, este tipo de programa en realidad utiliza la relación de enlace entre documentos html para rastrear páginas web una tras otra en Internet (rastreo) y rastrear estas páginas web en el sistema para procesarlas, analizarlas y poner en la base de datos. La primera persona en desarrollar un programa "Spider" fue Matthew Gray. Desarrolló el World Wide Web Wanderer en 1993, originalmente para contar el número de servidores en Internet, y luego se desarrolló para poder contar el número de servidores en Internet. Capturar URL. La idea del motor de búsqueda moderno surgió de Wanderer y desde entonces muchas personas han mejorado la araña.
El sitio web Lycos ----1, lanzado el 20 de julio de 1994, fue el primer sitio web en incluir un programa "araña" en el proceso de indexación. La mayor ventaja que aporta la introducción del programa "araña" es que la cantidad de datos supera con creces la de otros motores de búsqueda. Desde entonces, casi todos los principales motores de búsqueda se han basado en "arañas" para recopilar información de las páginas web, y otro importante motor de búsqueda, Infoseek, también se hizo público a finales de 1994. Al principio, Infoseek era sólo un motor de búsqueda mediocre. Seguía los conceptos de Yahoo y Lycos sin ninguna innovación única. En diciembre de 1995, Infoseek firmó un acuerdo estratégico con Netscape para convertirlo en un potente motor de búsqueda: cuando un usuario hace clic en el botón de búsqueda en el navegador Netscape, aparecerá el servicio de búsqueda de Infoseek. Antes de eso, se proporcionan motores de búsqueda Yahoo, Lycos, etc. por Infoseek. El 15 de diciembre de 1995, Alta Vista entró oficialmente en línea. Es el primer motor de búsqueda que admite la sintaxis de búsqueda avanzada, integra con éxito todas las tecnologías anteriores de recuperación de información humana y resuelve problemas clave que incluyen el procesamiento de raíz, la recuperación de palabras clave, la lógica booleana y la clasificación de consultas a través del modelado de espacio vectorial. Alta Vista ya tenía 200.000 visitantes antes de que se anunciara oficialmente, y en sólo tres semanas, el tráfico aumentó de 300.000 a 2 millones de visitantes por día. Su éxito radica en satisfacer tres necesidades de sus usuarios: indexar más de la web que cualquier otro motor de búsqueda anterior para devolver resultados de búsqueda a los usuarios desde una amplia base de datos en segundos y el equipo de Alta Vista ha utilizado tecnología de diseño modular para; ampliar continuamente las capacidades de procesamiento mientras rastrea las tendencias del sitio web.
Entre los muchos motores de búsqueda de la época, Alta Vista se destacó y se convirtió en sinónimo de búsqueda en Internet, y Google se apoyó en estos gigantes para subvertir y crear. "Google no fue el inventor del motor de búsqueda, e incluso se quedó un poco atrás, pero hizo que la gente se enamorara de la búsqueda.
----1 En septiembre de 1998, cuando Page y Brin fundaron Google , la industria era La comprensión de la función de búsqueda de Internet es que cuanto más frecuentemente aparece una palabra clave en un documento, mayor será la clasificación del documento en los resultados de búsqueda. Esto crea un problema: si una página está llena de un determinado. palabra clave, su clasificación será más alta, pero dicha página no tiene sentido para los usuarios. Page y Brin inventaron la tecnología "PageRank" para clasificar los resultados de búsqueda, es decir, para examinar la frecuencia y la importancia de las páginas. vinculados en Internet Para fines de clasificación, cuanto más importantes sean los sitios web en Internet que apunten a esta página, mayor será la clasificación de la página. Al vincular de la página A a la página B, Google considera que "la página A votó por la página B" según el. número de votos que recibió la página, sin embargo, para calificar la importancia de una página, además de considerar el número puro de votos que recibe una página, Google también analizará los votos de las páginas votadas como "importantes" y se le dará un mayor peso y ayuda a mejorar la clasificación de otras páginas. "Importancia". El método de búsqueda avanzado y totalmente automático de Google elimina la influencia de los factores humanos en los resultados de búsqueda, lo que garantiza la objetividad y la equidad de las clasificaciones de las páginas web. Resúmenes, instantáneas de páginas web y compatibilidad con múltiples formatos de documentos. mapas, diccionarios de valores, búsquedas de personas y otras búsquedas integrales también son populares entre los internautas. Muchos otros motores de búsqueda han seguido a Google y han lanzado estos servicios. El motor AllTheWeb tiene su sede en Noruega y su popularidad en el extranjero está directamente relacionada con la búsqueda web de Alltheweb. admite búsqueda en Flash y PDF, admite búsqueda en varios idiomas y también ofrece búsqueda de noticias, búsqueda de imágenes, búsqueda de videos, MP3 y FTP. Baidu de China se basa en su ventaja de "conocer mejor el chino" para atraer audiencias chinas en línea. de más de mil millones de páginas web chinas, y el número de estas páginas web está creciendo a un ritmo de decenas de millones cada día p>
----Los motores de búsqueda se han convertido en una parte importante de la vida de las personas. Buscar información, buscar mapas y escuchar música puede ser cualquier cosa que desees
----Los motores de búsqueda no pueden encontrar nada que no puedas encontrar
<. p>----1. Utilice programas del sistema araña para acceder automáticamente a Internet, rastrear todas las URL de cualquier página web hasta otras páginas web, repetir este proceso y rastrear Se recopilan todas las páginas web. ----2. El programa del sistema de indexación de análisis analiza las páginas web recopiladas, extrae información relevante de la página web y realiza una gran cantidad de cálculos complejos de acuerdo con un determinado algoritmo de correlación. Descubra la relevancia (o importancia) de cada palabra clave en. el contenido de cada página web y el hipervínculo a cada página web, y luego cree una base de datos de índice de páginas web basada en esta información relevante.
----3. Cuando un usuario ingresa una palabra clave en la búsqueda, el programa del sistema de búsqueda encontrará todas las páginas web relevantes que coincidan con la palabra clave en la base de datos del índice web. Los valores de correlación están ordenados: cuanto mayor es la correlación, mayor es la clasificación. Finalmente, el sistema de generación de páginas clasifica la dirección del enlace y el resumen del contenido de la página de los resultados de la búsqueda y los devuelve al usuario.
---- ¡En este punto, probablemente tengas un conocimiento preliminar de los motores de búsqueda y las arañas web!
3. Cómo funcionan las arañas web
----, para los motores de búsqueda, es casi imposible rastrear todas las páginas web en Internet según las publicaciones actuales. , la capacidad del motor de búsqueda más grande representa solo alrededor del 40% del número total de páginas web rastreadas. Las razones son, por un lado, el cuello de botella de la tecnología de rastreo que no puede atravesar todas las páginas web y muchas páginas web no se pueden encontrar a través de enlaces a otras páginas web, por otro lado, hay problemas con la tecnología de almacenamiento y la tecnología de procesamiento;
Si el tamaño promedio de cada página web es de 20K (incluidas las imágenes), la capacidad de 10 mil millones de páginas web es de 100 × 2000G bytes. Incluso si se puede almacenar, la descarga será problemática (consulte la figura a continuación). Incluso si se puede almacenar, todavía hay un problema de descarga (calculado a 20K por segundo en una máquina, se necesitarían 340 máquinas para descargar continuamente durante un año para descargar todas las páginas web). Al mismo tiempo, debido a la gran cantidad de datos, la eficiencia de la búsqueda se ve afectada. Por lo tanto, muchas arañas web de motores de búsqueda solo rastrean aquellas páginas web importantes y, al rastrear, evalúan principalmente la importancia de una página web en función de la profundidad de los enlaces que apuntan a la página web.
---- Las arañas web tienen dos estrategias generales para rastrear páginas web: primero la amplitud y primero la profundidad (como se muestra en la siguiente figura).
----Amplitud primero significa que la araña web rastreará todas las páginas web vinculadas en la página web inicial y luego seleccionará una de las páginas web vinculadas para continuar rastreando todas las páginas web vinculadas en la página web. . Este es el método más común porque permite que las arañas web procesen en paralelo, aumentando la velocidad de rastreo. Profundidad primero significa que la araña web comenzará desde la página de inicio y seguirá los enlaces uno por uno. Después de procesar esta línea, pasará a la siguiente página de inicio y continuará siguiendo los enlaces. Una ventaja de este enfoque es que las arañas web son más fáciles de diseñar. La siguiente imagen ilustra más claramente la diferencia entre las dos estrategias.
---- Dado que es imposible rastrear todas las páginas web, algunas arañas web establecerán niveles de acceso para algunos sitios web menos importantes. Por ejemplo, en la figura anterior, A es la página de inicio y pertenece a la capa 0, B, C, D, E y F pertenecen a la capa 1, G y H pertenecen a la capa 2 e I pertenece a la capa 3. Si la araña establece el nivel de acceso en 2, no se accederá a la página I. De esta forma, algunas páginas del sitio web se pueden buscar en los motores de búsqueda, mientras que otras no. Para los diseñadores de sitios web, una estructura de sitio web plana ayuda a los motores de búsqueda a rastrear más páginas.
---- Cuando los arañas web visitan páginas web en el sitio web, a menudo encuentran problemas con los datos cifrados y los permisos de la página. Algunas páginas web requieren que los miembros accedan. Por supuesto, los propietarios de sitios web pueden evitar que las arañas web rastreen los acuerdos (como se describe en la siguiente sección), pero algunos sitios web que venden informes esperan que los motores de búsqueda puedan buscar en sus informes, pero no pueden hacerlos completamente gratuitos para la búsqueda. para ser visto por los usuarios, por lo que deben proporcionar el nombre de usuario y contraseña correspondientes a la araña web. Las arañas web pueden rastrear estas páginas web en función de los permisos que se les otorgan para realizar búsquedas. Cuando un buscador hace clic en una página, también debe proporcionar los permisos correspondientes.
----Cada araña web tiene su propio nombre y se identifica ante el sitio web cuando rastrea páginas web. Cuando una araña web rastrea una página web, envía una solicitud que contiene un campo de agente de usuario que identifica a la araña web. Por ejemplo, la identidad de la araña web de Google es GoogleBot, la identidad de la araña web de Baidu es BaiDuSpider y la identidad de la araña web de Yahoo es Inktomi Slurp. Si hay registros de acceso al sitio web, el webmaster puede saber qué arañas de los motores de búsqueda han visitado, cuándo lo han visitado, cuántos datos se han leído, etc. Si el administrador de un sitio web descubre un problema con una araña, la identificación de la araña se puede utilizar para contactar al propietario de la araña.
---- Cuando una araña web ingresa a un sitio web, generalmente accede a un archivo de texto especial Robots.txt, que generalmente se coloca en el directorio raíz del servidor del sitio web, como [url]/robots. .txt[/url]. Los webmasters pueden utilizar robots.txt para definir qué directorios están fuera del alcance de las arañas o qué directorios están fuera del alcance de arañas específicas. Por ejemplo, si un sitio web tiene un directorio de archivos ejecutables y un directorio de archivos temporales pero no desea que los motores de búsqueda puedan buscarlos, el administrador del sitio web puede definir estos directorios como directorios de acceso denegado. La sintaxis de robots.txt es muy simple. Por ejemplo, si no hay restricciones en el directorio, se puede describir con las dos líneas siguientes: User-agent: *
Disallow:
.