Capítol 5 Fuentes de datos

5.1 Algunmos orígenes:

Algunos orígenes de datos de interés son:

5.2 Más origenes

Resulta de gran interès la lectura del Capítulo 5: Get existing (Gahner y Zoltán , 2019).

En concreto resulta de especial interès el enlace al siguiente Directorio en Excel de más de 400 orígenes de datos políticos de todo el mundo. Estan categorizados por: tema, pais, fechas, disponibilidad, formato, registro, enlace al diseño…

Más datos paquetes con datos des de GitHub (instalar previamente paquete remotes):

  • remotes::install_github("arcruz0/paqueteadp"): Datos de apoyo al libro AnalizaR Datos Políticos
  • remotes::install_github("jamesmartherus/anesr"): American National Election Study
  • remotes::install_github("xmarquez/vdem"): Varieties of Democracy into R

5.3 Crear datos

Otro camino más complejo es crear tu propia base de datos. Una opción seria el desarrollo de una encuesta. En este sentido Google Forms es una excelente herramienta para realizar encuestas online.

Para mas opciones se recomienda la lectura del Capítulo 6: Create data (Gahner y Zoltán , 2019), donde se explicam alguinos pasos en realizar web scraping de datos, parlamentos, Twitter, Google Trends, Wikipedia…

5.4 Criterios selección

Algunos criterios para seleccionar un conjunto de datos son:

  • Datos de tu interés
  • Que tenga suficientes filas: Si bien no es un criterio preciso, es aconsejable que la base del proyecto tenga un mínimo entre 7 y 10 filas por cada variable del modelo. Por ejemplo, su quieres introducir un mínimo de 5 variables, como mínimo deberias tener 50 filas. Es decir, evita escojer datos de Comunidades autónomos (17) y usa como mínimo datos de provincia (52).
  • Que haya diversidad de tipología de variables: Continuas, categóricas, ordinales…
  • Selecciona cual va a ser tu variable dependiente y cuales las independientes.