Webscrapping de Ineter con R-project ( Extracción de lista de sismos)

Por Deybi Morales León
Economista
morales.economia@gmail.com

Hoy 28 de Julio del 2015 sucedió un sismo en Managua que ha originado varias réplicas. http://www.ineter.gob.ni  publica una lista de los últimos eventos. Veamos el uso de R para extraer esa información.

 1. Instalar el paquete 'rvest':

install.packages("rvest")

 2. Activarlo

library(rvest)

3. Ubicamos el archivo con la información, tanto en esta página como en otra se necesita algo de pericia o hackeo como llamarían algunos para encontrar la fuente de la que fluye la información. En el caso de ineter es esta: http://webserver2.ineter.gob.ni/geofisica/sis/events/sismos.php . Si ingresas obtendrás una mirada como esta:









 4. Extraer

Sismos <- html("http://webserver2.ineter.gob.ni/geofisica/sis/events/sismos.php")

 Es posible que la página esté trabajando al máximo en momentos de alerta por lo que habrá que intentar varias veces hasta que deje de salir el error.

R baja un html que podemos peirnar solo la información que queremos. Aquí está elaborado solo para extraer la lista de sismos.

Sismos_hora <- Sismos %>%
  html_nodes(" pre") %>%
  html_text()


Sismos_hora


5. Si deseas guardar la información en un archivo puedes aplicar la siguiente línea. Le he llamado Sismos.txt y aparecerá en Documentos.

write.table(Sismos_hora, 'Sismos.txt', sep='\t')


Descargar el archivo generado de este ejemplo:
Descargar archivo

...








Comentarios

Envíanos un mensaje

Nombre

Correo electrónico *

Mensaje *