Red de conocimientos turísticos - Guía para elegir días propicios según el calendario chino - Ayúdenme a descubrir por qué un pequeño rastreador como yo no puede obtener los datos. ¡Urgente! ! !

Ayúdenme a descubrir por qué un pequeño rastreador como yo no puede obtener los datos. ¡Urgente! ! !

Desactive la función ROBOTSTXT_OBEY que viene con scrapy, busque esta variable en la configuración y configúrela en False para resolver el problema.

Cuando observamos el resultado de scrapy al tomar el paquete, podemos encontrar que primero solicitará un archivo txt del directorio raíz del servidor y luego solicitará la URL que configuramos:

El archivo especifica el alcance del sitio que las máquinas rastreadoras pueden rastrear (por ejemplo, si no desea que Baidu rastree su página, puede limitarlo mediante un robot). Debido a que scrapy sigue de forma predeterminada el protocolo del robot, primero solicitará este archivo para ver sus permisos.

Cambiamos ROBOTSTXT_observe a False en la configuración, para que scrapy no siga el protocolo del robot y luego pueda rastrear normalmente.