Estadísticas Descriptivas con Python (Parte I)


Ahora dicen por allí que Python se encamina a ser un mejorado R pero también que Julia será un veloz Python. Pero antes decían que Python sería un mejor Matlab. Ahora que Julia tiene que ser un mejor Matlab obligadamente. La verdad es que no tiene que importar el lenguaje utilizado pues todos llegarán al mismo resultado de una manera fácil o demasiado complicada para el usuario.

La diferencia que considero importante entre Python y R es que, R no es un lenguaje de programación en si pero Python si lo es en todo sentido y para todo lo que quieras hacer. Si buscas programar en R te será super difícil pero en Python todavía más fácil que otros lenguajes populares. R es fácil para cualquier estadístico, economísta, financiero, matemático, etc, que no sepa de programación y no quiera crear funciones, que ya ni es necesario porque R tiene casi 12 mil bibliotecas para hacer todo lo que quieras sin necesidad de picar código.

Esta es la lucha interna entre todo cuantitativo que desee involucrarse por primera vez en el mundo de los datos. ¿Python o R?.  Para que Python venza a R, Python tiene que facilitarle la vida a los profesionales que no saben de programación. Los fans de R tememos que eso esté más cerca que nunca porque la creación de bibliotecas cuantitativas para Python aumenta a una velocidad destacable.

Aquí veremos unas bibliotecas que facilitan los estadísticos descriptivos en Python sin tener que programarlos. Son Pandas y Numpy. Por lo tanto se tienen que instalar en Python antes de aplicar las lineas que pongo a continuación.  Esta es una limitante no tan importante, existen varios caminos para instalar nuevas bibliotecas en Python pero ninguna instalación se puede hacer desde la consola de Python así como se puede hacer fácilmente en R. Recomiendo instalar el Python de Anaconda para facilitar las instalaciones de bibliotecas para análisis de datos y gráficas.

También tengamos claro que en este post utilizaremos el Python 2.7. Existe un Python 3 para este ejemplo la diferencia será en la aplicación de print.  Para Python 3, en vez de "print " será "print()"

Vamos a hacer un ejemplo que se encuentra en el libro Estadísticas para Ingeniería y Ciencias de los autores Quevedo y Pérez.


Datos de Ejemplo:

da69f062b817367c714b0afc1859e64a


Activando las bibliotecas Pandas y Numpy:

>>>import pandas as pd
>>>import numpy as np



Introduciendo en Python como vector:

>>>datos = [23, 24, 53, 43, 23, 43, 65, 34, 23, 43, 25, 46, 34, 32]



Verificando:

>>>print datos
[23, 24, 53, 43, 23, 43, 65, 34, 23, 43, 25, 46, 34, 32]



Obteniendo tabla resumen estadístico:

>>>datos_ = pd.DataFrame(datos)
>>>print datos_.describe()

               0
count  14.000000
mean   36.500000
std    12.918383
min    23.000000
25%    24.250000
50%    34.000000
75%    43.000000
max    65.000000


Hemos obtenido lo siguiente en el orden:
Observaciones = 14
Media = 36.50
Desviación estándar = 12.918383
Mínimo = 23
Primer quartil = 24.25
Segundo quartil = 34
Tercer quartil = 43
Máximo = 65

Para obtener solo el valor que necesitamos podemos aplicar las siguientes lineas. Por ejemplo obtener la media.

>>>print datos_.mean()
0    36.5
dtype: float64


Desviación Estándar:  Valor promedio que nos dice que tan dispersos están los datos de la media.

>>>print datos_.std()
0    12.918383
dtype: float64


Obtener la mínimo:

>>>print datos_.min()
0    23
dtype: int64



Obtener el máximo:

>>>print datos_.max()
0    65
dtype: int64


Mediana: El dato que se ubica en el centro de los datos cuando estos están ordenados de menor a mayor valor o viceversa.

>>>print datos_.median()
0    34.0
dtype: float64


Varianza: Es la desviación estándar al cuadrado

>>>print datos_.var()
0    166.884615
dtype: float64


Valores Únicos:

>>>print pd.unique(datos)
[23 24 53 43 65 34 25 46 32]



Próximamente: Estadísticas Descriptivas en Python  (parte II)  

Lic. Deybi Morales
morales.economia@gmail.com


¿Quieres utilizar el gratuito Python para sustituir Stata o Eviews? Recomendamos este libro para empezar. Hay también en versión electrónica, más barato.

Comentarios

  1. Superbly written article, if only all bloggers offered the same content as you, the internet would be a far better place.. 金融作业代写

    ResponderEliminar
  2. Busquemos la forma de encontrar temas relevantes como el de Mind Capital que es uno de los mejores y mas buenos que existe.

    ResponderEliminar

Publicar un comentario

Envíanos un mensaje

Nombre

Correo electrónico *

Mensaje *