Diez consejos que pueden ayudarle a realizar rápidamente análisis de datos con Python
Algunos consejos y trucos pueden resultar muy útiles, especialmente en el campo de la programación. A veces, un poco de piratería puede ahorrar tiempo y posiblemente "vida".
Un pequeño atajo o complemento a veces puede ser una bendición y puede suponer un verdadero impulso a la productividad. Entonces, aquí hay algunos pequeños consejos y trucos, algunos de los cuales pueden ser nuevos pero que creo que le resultarán muy útiles en su próximo proyecto de análisis de datos.
Proceso de creación de perfiles de datos del marco de datos en Pandas
La creación de perfiles (analizador) es un proceso que nos ayuda a comprender los datos, y Pandas Profiling es un paquete de Python que puede explorar datos fácil y rápidamente. análisis utilizando datos del marco de datos de Pandas.
Las funciones df.describe() y df.info() en Pandas pueden implementar el primer paso del proceso EDA. Sin embargo, sólo proporcionan una descripción general muy básica de los datos y no son muy útiles para conjuntos de datos grandes. La función de creación de perfiles en Pandas puede mostrar una gran cantidad de información con una sola línea de código, y lo mismo ocurre con los informes HTML interactivos.
Para un conjunto de datos determinado, el paquete de creación de perfiles en Pandas calcula la siguiente información estadística:
La información estadística calculada por el paquete Pandas Profiling incluye histogramas, modos y coeficientes de correlación. cuantiles, estadísticas descriptivas, otra información: tipos, valores de una sola variable, valores faltantes, etc.
Instalación
Instalar con pip o instalar con conda
pip install pandas-profiling
conda install -c anaconda pandas-profiling
Uso
El siguiente código utiliza el conjunto de datos del Titanic de hace mucho tiempo para demostrar los resultados del versátil analizador Python.
#importar los paquetes necesarios
importar pandas como pd
importar pandas_profiling
df = pd.read_csv('titanic/train. csv')
pandas_profiling.ProfileReport(df)
Una línea de código puede mostrar un informe de análisis de datos completo en Jupyter Notebook. El informe es muy detallado y contiene los gráficos necesarios.
También puede utilizar el siguiente código para exportar el informe a un archivo HTML interactivo.
perfil = pandas_profiling.ProfileReport(df)
perfil.to_file(outputfile="Titanic data profiling.html")
Pandas implementa mapeo interactivo
Pandas tiene una función .plot() incorporada como parte de la clase DataFrame. Sin embargo, la visualización presentada mediante esta función no es interactiva, lo que la hace menos atractiva. De manera similar, usar la función pandas.DataFrame.plot() para dibujar gráficos no es interactivo. ¿Qué pasa si necesitamos dibujar gráficos interactivos con Pandas sin realizar cambios importantes en el código? En este momento, puede utilizar la biblioteca Cufflinks para lograrlo.
La biblioteca Cufflinks puede combinar las poderosas funciones de plotly y la flexibilidad de pandas, lo cual es muy conveniente para dibujar.
Echemos un vistazo a cómo instalar y usar la biblioteca Cufflinks en pandas.
Instalación
pip install plotly
# Plotly es un requisito previo antes de instalar gemelos
pip install cufflinks
Uso
#importar pandas
importar pandas como pd
#importar tramas y gemelos en modo fuera de línea
importar gemelos como cf
importar plotly.offline
cf.go_offline()
cf.set_config_file(offline=False, world_readable=True)
Sí Es hora de mostrar la magia del conjunto de datos del Titanic.
df.iplot()
df.iplot() vs df.plot()
La visualización de la derecha muestra un gráfico estático, mientras que el gráfico a la izquierda es interactivo, más detallado y todo sin ningún cambio importante en la sintaxis.
Comando mágico
El comando mágico es un conjunto de funciones convenientes en el portátil Jupyter diseñado para resolver algunos problemas comunes en el análisis de datos estándar. Utilice el comando %lsmagic para ver todos los comandos disponibles.
Lista de todos los comandos Magic disponibles
Hay dos tipos de comandos Magic: comandos de línea mágica (line magics), con el prefijo de un solo carácter %, operaciones de entrada en una sola línea; Los comandos de magia unitaria (magia de celda), con el prefijo doble %% caracteres, y las operaciones se pueden ingresar en varias líneas. Si se establece en 1, se puede llamar a la función Magic sin escribir %.
A continuación, veamos algunos comandos que pueden usarse en tareas comunes de análisis de datos:
% pastebin
%pastebin carga el código en Pastebin y devuelve el URL. Pastebin es un servicio de alojamiento de contenido en línea que puede almacenar texto sin formato, como fragmentos de código fuente, y luego compartirlo con otros a través de URL. De hecho, Github gist es similar a Pastebin, pero con control de versiones.
Escriba un script de Python que contenga el siguiente contenido en el archivo file.py e intente ejecutarlo para ver los resultados.
#file.py
def foo(x):
return x
Utilice %pastebin para generar un pastebin en Jupyter Notebook URL.
%matplotlib notebook
La función se utiliza para representar figuras matplotlib estáticas en el cuaderno Jupyter. Reemplace en línea con un cuaderno para obtener fácilmente dibujos escalables y redimensionables. Pero recuerde que se debe llamar a esta función antes de importar la biblioteca matplotlib.
%run
Intente usar la función %run para ejecutar un script de Python en el cuaderno.
%run file.py
%%writefile
%% writefile escribe el contenido de la celda en el archivo.
El siguiente código escribe un script en un archivo llamado foo.py y lo guarda en el directorio actual.
%%latex
La función %%latex representa el contenido de la celda en formato LaTeX. Esta función es útil para escribir fórmulas y ecuaciones matemáticas en celdas.
Buscar y resolver errores
El depurador interactivo también es una característica mágica y la definí como una categoría separada. Si se produce una excepción al ejecutar la unidad de código, escriba %debug en una nueva línea y ejecútela. Esto abrirá un entorno de depuración interactivo que puede navegar directamente a la ubicación donde ocurrió la excepción. También puedes consultar los valores de las variables asignadas en el programa y realizar operaciones allí. Simplemente haga clic en q para salir del depurador.
La impresión también tiene consejos.
Si desea generar hermosas estructuras de datos, pprint es su primera opción. Es especialmente útil al imprimir datos de diccionario o datos JSON. A continuación, observe un ejemplo del uso de print y pprint para mostrar la salida.
Haga que sus notas se destaquen
Podemos usar cuadros de alerta/cuadros de comentarios en su cuaderno Jupyter para resaltar contenido importante u otro contenido que deba resaltarse. El color de la anotación depende del tipo de alerta especificado. Simplemente agregue cualquiera o todos los siguientes códigos a las celdas que desea resaltar.
Cuadro de alerta azul: mensaje de información
Consejo: Utilice cuadros azules (alerta-información) para consejos y notas
Si es una nota, no es necesario incluir la palabra "Nota". /p>
Cuadro de alerta amarillo: advertencia
Ejemplo: Cuadros amarillos se utilizan generalmente para incluir ejemplos adicionales o fórmulas matemáticas
Cuadro de alerta verde: Éxito
Utilice el cuadro verde solo cuando sea necesario, como para mostrar enlaces a contenido relacionado.
Cuadro de advertencia rojo: alto riesgo
Es bueno evitar los cuadros rojos, pero puede usarse para alertar a los usuarios para que no eliminen alguna parte importante del código. etc.
Imprime los resultados de salida de todos los códigos en la celda
Supongamos que hay una celda en Jupyter Notebook que contiene las siguientes líneas de código:
En [1]: 15
11+6
Salida [1]: 17
Propiedades normales de la celda Solo se imprime la última salida y, para otras salidas, necesitamos agregar la función print(). Sin embargo, es posible imprimir todo el resultado a la vez agregando el siguiente fragmento de código en la parte superior del cuaderno.
Después de agregar el código, todos los resultados de salida se imprimirán uno tras otro.
Entrada [1]: 15
11+6
12+7
Salida [1]: 15 p>
p>
Salida [1]: 17
Salida [1]: 19
Restaurar configuración original:
InteractiveShell.ast_node_interactivity = "last_expr"
Ejecutar un script de Python usando la opción 'i'
La forma típica de ejecutar un script de Python desde la línea de comandos es: python hello.py. Sin embargo, si agrega -i cuando ejecuta el mismo script, como python -i hello.py, proporciona más ventajas. Veamos qué pasa a continuación.
En primer lugar, Python no saldrá del intérprete incluso si el programa finaliza.
Por tanto, podemos comprobar la exactitud de los valores de variables y funciones definidas en el programa.
En segundo lugar, podemos invocar fácilmente el depurador de Python ya que todavía estamos dentro del intérprete:
import pdb
pdb.pm()
Esto localiza dónde ocurrió la excepción y luego podemos manejar el código de excepción.
Comentar código automáticamente
Ctrl/Cmd +/comenta automáticamente las líneas seleccionadas en las celdas, presionar la combinación nuevamente descomentará las mismas líneas de código.
Eliminar es fácil pero recuperar es difícil.
¿Alguna vez has borrado accidentalmente una celda en un cuaderno Jupyter? Si la respuesta es sí, entonces puedes dominar este atajo para deshacer una operación de eliminación.
Si eliminas el contenido de una celda, puedes restaurarlo fácilmente presionando CTRL/CMD + Z.
Si necesita recuperar todas las celdas eliminadas, presione ESC + Z o EDITAR > para deshacer la eliminación de la celda.
Conclusión
En este artículo, he enumerado algunos consejos recopilados al usar Python y Jupyter Notebook. Creo que serán útiles e informativos para usted, ¡facilitando la codificación!