Red de conocimientos turísticos - Lugares de interés turístico - ¿Cómo rastrea Python el contenido web?
¿Cómo rastrea Python el contenido web?
Si usa Python para rastrear información web, necesita aprender varios módulos, como urllib, urllib2, urllib3, solicitudes, httplib, etc. y también aprender el módulo re (es decir, expresiones regulares). Utilice diferentes módulos según diferentes escenarios para resolver problemas de manera eficiente y rápida.
Al principio, le sugiero que comience con el módulo urllib más simple, como rastrear la página de inicio de Sina (descargo de responsabilidad: este código es solo para investigación académica y no tiene intención de ataque):
Esto es. Se rastrea el código fuente de la página de inicio de Sina, que es la información de toda la página web. Si desea extraer información que le resulte útil, debe aprender a utilizar métodos de cadenas o expresiones regulares.
Si sueles leer más artículos y tutoriales en Internet, lo aprenderás rápidamente.
Una cosa más: el entorno utilizado anteriormente es python2. En python3, urllib, urllib2 y urllib3 se han integrado en un solo paquete y ya no hay módulos nombrados con estas palabras.