Red de conocimientos turísticos - Conocimientos sobre calendario chino - ¿Por qué uso Python para rastrear las páginas web de JD.com y capturar etiquetas vacías?
¿Por qué uso Python para rastrear las páginas web de JD.com y capturar etiquetas vacías?
Hoy en día, casi todas las columnas principales de los sitios web grandes son anti-rastreo. Es bastante simple así. El gran problema es analizar JS. Si no quieres analizar JS, es más complicado.
Tiene instalado pyqt, que tiene un navegador qt que puede controlar para rastrear. Esto requiere varios cientos de líneas de código.
Abra el sitio web en un navegador y utilice una de las funciones del navegador para obtener la página HTML renderizada. Esto resuelve el problema de JS. Pero la velocidad de avance es muy limitada. Porque el navegador abre las páginas web muy lentamente.