Ahora dicen por allí que Python se encamina a ser un mejorado R pero también que Julia será un veloz Python. Pero antes decían que Python sería un mejor Matlab. Ahora que Julia tiene que ser un mejor Matlab obligadamente. La verdad es que no tiene que importar el lenguaje utilizado pues todos llegarán al mismo resultado de una manera fácil o demasiado complicada para el usuario.
La diferencia que considero importante entre Python y R es que, R no es un lenguaje de programación en si pero Python si lo es en todo sentido y para todo lo que quieras hacer. Si buscas programar en R te será super difícil pero en Python todavía más fácil que otros lenguajes populares. R es fácil para cualquier estadístico, economísta, financiero, matemático, etc, que no sepa de programación y no quiera crear funciones, que ya ni es necesario porque R tiene casi 12 mil bibliotecas para hacer todo lo que quieras sin necesidad de picar código.
Esta es la lucha interna entre todo cuantitativo que desee involucrarse por primera vez en el mundo de los datos. ¿Python o R?. Para que Python venza a R, Python tiene que facilitarle la vida a los profesionales que no saben de programación. Los fans de R tememos que eso esté más cerca que nunca porque la creación de bibliotecas cuantitativas para Python aumenta a una velocidad destacable.
Aquí veremos unas bibliotecas que facilitan los estadísticos descriptivos en Python sin tener que programarlos. Son Pandas y Numpy. Por lo tanto se tienen que instalar en Python antes de aplicar las lineas que pongo a continuación. Esta es una limitante no tan importante, existen varios caminos para instalar nuevas bibliotecas en Python pero ninguna instalación se puede hacer desde la consola de Python así como se puede hacer fácilmente en R. Recomiendo instalar el Python de Anaconda para facilitar las instalaciones de bibliotecas para análisis de datos y gráficas.
También tengamos claro que en este post utilizaremos el Python 2.7. Existe un Python 3 para este ejemplo la diferencia será en la aplicación de print. Para Python 3, en vez de "print " será "print()"
Vamos a hacer un ejemplo que se encuentra en el libro Estadísticas para Ingeniería y Ciencias de los autores Quevedo y Pérez.
Datos de Ejemplo:
Activando las bibliotecas Pandas y Numpy:
>>>import pandas as pd >>>import numpy as np
Introduciendo en Python como vector:
>>>datos = [23, 24, 53, 43, 23, 43, 65, 34, 23, 43, 25, 46, 34, 32]
Verificando:
>>>print datos
[23, 24, 53, 43, 23, 43, 65, 34, 23, 43, 25, 46, 34, 32]
Obteniendo tabla resumen estadístico:
>>>datos_ = pd.DataFrame(datos)
>>>print datos_.describe()
0 count 14.000000 mean 36.500000 std 12.918383 min 23.000000 25% 24.250000 50% 34.000000 75% 43.000000 max 65.000000
Hemos obtenido lo siguiente en el orden:
Observaciones = 14
Media = 36.50
Desviación estándar = 12.918383
Mínimo = 23
Primer quartil = 24.25
Segundo quartil = 34
Tercer quartil = 43
Máximo = 65
Para obtener solo el valor que necesitamos podemos aplicar las siguientes lineas. Por ejemplo obtener la media.
Desviación Estándar: Valor promedio que nos dice que tan dispersos están los datos de la media.
Media = 36.50
Desviación estándar = 12.918383
Mínimo = 23
Primer quartil = 24.25
Segundo quartil = 34
Tercer quartil = 43
Máximo = 65
Para obtener solo el valor que necesitamos podemos aplicar las siguientes lineas. Por ejemplo obtener la media.
>>>print datos_.mean()
0 36.5 dtype: float64
Desviación Estándar: Valor promedio que nos dice que tan dispersos están los datos de la media.
>>>print datos_.std()
0 12.918383 dtype: float64
Obtener la mínimo:
>>>print datos_.min()
0 23 dtype: int64
Obtener el máximo:
>>>print datos_.max()
0 65 dtype: int64
Mediana: El dato que se ubica en el centro de los datos cuando estos están ordenados de menor a mayor valor o viceversa.
>>>print datos_.median()
0 34.0 dtype: float64
Varianza: Es la desviación estándar al cuadrado
>>>print datos_.var()
0 166.884615 dtype: float64
Valores Únicos:
>>>print pd.unique(datos)
[23 24 53 43 65 34 25 46 32]
Próximamente: Estadísticas Descriptivas en Python (parte II)
Lic. Deybi Morales
morales.economia@gmail.com
¿Quieres utilizar el gratuito Python para sustituir Stata o Eviews? Recomendamos este libro para empezar. Hay también en versión electrónica, más barato.
¿Quieres utilizar el gratuito Python para sustituir Stata o Eviews? Recomendamos este libro para empezar. Hay también en versión electrónica, más barato.
Superbly written article, if only all bloggers offered the same content as you, the internet would be a far better place.. 金融作业代写
ResponderEliminarBusquemos la forma de encontrar temas relevantes como el de Mind Capital que es uno de los mejores y mas buenos que existe.
ResponderEliminar