Red de conocimientos turísticos - Información de alquiler - Los nombres de varias arañas de motores de búsqueda convencionales

Los nombres de varias arañas de motores de búsqueda convencionales

1. Nombre de la araña de Google

1) Googlebot: rastrea páginas web desde el índice de sitios web y el índice de noticias de Google

2) Googlebot-Mobile para rastreos del índice móvil de Google páginas web

3) Googlebot-Image: rastrea páginas web para el índice de imágenes de Google

4) Mediapartners-Google: rastrea páginas web para determinar el contenido de AdSense. Google utilizará este robot para rastrear su sitio solo si se muestran anuncios de AdSense en su sitio.

5) Adsbot-Google: Rastrea páginas web para medir la calidad de las páginas de destino de AdWords. Google sólo utiliza este bot si utiliza Google AdWords para anunciar su sitio web.

2. Nombre de la araña Baidu:

La primera letra B de Baiduspider está en mayúscula y el resto en minúsculas

3. Nombre de la araña Yahoo (Yahoo!) :

1) Nombre de la araña de búsqueda de Yahoo!: Yahoo!Slurp.

2) Araña de publicidad del motor de búsqueda de Yahoo!: Yahoo!-AdCrawler. páginas de páginas

p>

4. Nombre de la araña Youdao:

YodaoBot

5. Nombre de la araña Tencent Soso:

La primera letra de Sosospider está en mayúscula y el resto son letras mayúsculas en minúsculas

6. Nombre de la araña Sogou (sogou):

sogousspider

7. Nombre de la araña viva

p>

1) MSNBot: Mainwebcrawler (www.live.com)

2) MSNBot-Media: Imágenes y todos los demás medios (images.live.com)

3 ) MSNBot-NewsBlogs: Newsandblogs (search.live.com /news)

4) MSNBot-Products: Productos y compras (products.live.com)

5) MSNBot-Academic : Academicsearch (academic.live.com)

Lectura ampliada: Análisis de reglas para el rastreo de páginas web por parte de las arañas de los motores de búsqueda

1. Marco del rastreador

Podemos Piense en las páginas web como la cena de las arañas, que incluye:

Páginas web descargadas. El contenido de la página web que ha rastreado la araña se coloca en el estómago.

Página web caducada. Las arañas rastrean muchas páginas web cada vez y algunas de ellas ya están corruptas en sus estómagos.

Página web para descargar. Cuando la araña ve comida, la agarrará.

Página web conocida. Aún no se ha descargado ni descubierto, pero las arañas pueden sentirlo y lo atraparán tarde o temprano.

Página web agnóstica. Internet es demasiado grande y muchas arañas de páginas no pueden encontrarla y es posible que nunca la encuentren. Esta parte representa una alta proporción.

A través de las divisiones anteriores, podemos comprender claramente el trabajo de las arañas de los motores de búsqueda y los desafíos que enfrentan. La mayoría de las arañas se arrastran según este marco. Pero no es del todo seguro: todo es especial. Existen algunas diferencias en el sistema de araña según las diferentes funciones.

2. Tipos de rastreadores

1. Arañas tipo lote.

Este tipo de araña tiene un alcance y un objetivo de rastreo claros. Cuando la araña completa su objetivo y tarea, deja de gatear. ¿Cuál es el objetivo específico? Puede ser la cantidad de páginas web rastreadas, el tamaño de las páginas web, el tiempo de rastreo, etc.

2. Arañas incrementales

Este tipo de araña es diferente de las arañas por lotes. Continuarán rastreando y actualizando periódicamente las páginas web rastreadas. Debido a que las páginas web en Internet se actualizan en cualquier momento, las arañas incrementales deben poder reflejar esta actualización.

3. Arañas verticales

Este tipo de araña solo se centra en temas específicos o páginas web de industrias específicas. Tomando como ejemplo los sitios web de salud, este tipo de araña especializada solo rastreará temas relacionados con la salud, pero no rastreará páginas web con otros temas. La dificultad al probar esta araña es cómo identificar con mayor precisión la industria a la que pertenece el contenido. En la actualidad, muchos sitios web de la industria vertical requieren este tipo de araña para rastrear.

3. Estrategia de rastreo

La araña rastrea y se expande a través de URL semilla y enumera una gran cantidad de URL para rastrear. Sin embargo, hay una gran cantidad de URL que se pueden rastrear. ¿Cómo determina la araña el orden de rastreo? Hay muchas estrategias para el rastreo de arañas, pero el objetivo final es uno: rastrear primero las páginas web importantes. Para evaluar si una página es importante, las arañas la calcularán basándose en la originalidad del contenido de la página, el análisis del peso de los enlaces y muchos otros métodos. Las estrategias de rastreo más representativas son las siguientes:

1. Estrategia de amplitud primero

La amplitud primero significa: después de que la araña rastrea una página web, continúa rastreando otras páginas contenidas en ella. la página web. Las páginas se secuencian para su posterior rastreo. Esta idea parece sencilla, pero en realidad es muy práctica. Debido a que la mayoría de las páginas web están ordenadas por prioridad, las páginas importantes se recomendarán primero en la página.

2. Estrategia de PageRank

PageRank es un método de análisis de enlaces muy famoso, utilizado principalmente para medir el peso de las páginas web. Por ejemplo, las relaciones públicas de Google son un algoritmo típico de PageRank. A través del algoritmo PageRank podemos descubrir qué páginas son más importantes y luego las arañas darán prioridad al rastreo de estas páginas importantes.

3. Estrategia de prioridad de sitios web grandes

Esto es fácil de entender. Los sitios web grandes suelen tener más páginas de contenido y la calidad será mayor. La araña primero analizará la clasificación y los atributos del sitio web. Si esta web ha sido incluida mucho, o tiene un peso elevado en el sistema de buscadores, se dará prioridad a su inclusión.

4. Actualizaciones de páginas web

La mayoría de las páginas de Internet se mantendrán actualizadas, lo que requiere que las páginas almacenadas por la araña también puedan actualizarse a tiempo para mantener la coherencia. Para usar una analogía: una página web tenía una buena clasificación antes. Si la página ha sido eliminada pero aún clasifica, la experiencia será muy mala. Por lo tanto, los motores de búsqueda necesitan conocerlos y actualizar las páginas en cualquier momento para ofrecer las últimas páginas a los usuarios. Hay tres estrategias de actualización de páginas web de uso común: estrategia de referencia histórica y estrategia de experiencia del usuario. Estrategia de muestreo por conglomerados.

1. Estrategia de referencia histórica

Esta es una estrategia de actualización basada en una suposición. Por ejemplo, si su página web se ha actualizado periódicamente en el pasado, los motores de búsqueda también creerán que su página se actualizará con frecuencia en el futuro, y las arañas también visitarán el sitio web con regularidad para rastrear páginas web de acuerdo con este patrón. Es por eso que Dianshui siempre ha enfatizado que el contenido del sitio web debe actualizarse periódicamente.

2. Estrategia de experiencia del usuario

En términos generales, los usuarios solo verán el contenido de las tres primeras páginas de los resultados de búsqueda y pocas personas leerán las páginas siguientes. La estrategia de experiencia de usuario es que el buscador actualice en función de esta característica del usuario. Por ejemplo, una página web puede publicarse antes y no actualizarse durante un tiempo, pero los usuarios aún la encuentran útil y hacen clic para explorarla, por lo que está bien que los motores de búsqueda no actualicen estas páginas web obsoletas. Es por eso que en los resultados de búsqueda, la página más reciente no necesariamente ocupa una posición más alta. La clasificación depende más de la calidad de esta página que del momento de actualización.

3. Estrategia de muestreo por conglomerados

Las dos estrategias de actualización anteriores se refieren principalmente a la información histórica de la página web. Pero almacenar una gran cantidad de información histórica es una carga para los motores de búsqueda. Además, si se incluye una nueva página web, no hay información histórica como referencia. ¿A qué se refiere la estrategia de muestreo por conglomerados? mostrado por la página web, para clasificar muchas páginas web similares, y las páginas clasificadas se actualizarán de acuerdo con las mismas reglas.

A partir del proceso de comprensión del principio de funcionamiento de las arañas de los motores de búsqueda, sabremos: la correlación entre el contenido del sitio web, las reglas de actualización del contenido del sitio web y de la página web, la distribución de enlaces en la página web y el peso del sitio web afectará la eficiencia del rastreo de Spider. Conociendo al enemigo, ¡que la araña venga con más violencia!