Los datos abiertos son ampliamente aceptados como una práctica de transparencia y rendición de cuentas por parte de gobiernos e instituciones.
En este artículo, explicamos por qué los datos abiertos para machine learning pueden desbloquear el potencial de las aplicaciones reales de Machine Learning.
La Fundación P2P incluye la definición de datos abiertos como la filosofía y la práctica que requieren que ciertos datos estén disponibles de forma gratuita para todos, sin restricciones de derechos de autor. Patentes u otros mecanismos de control [2].
En los últimos años, como un ejercicio de transparencia, los gobiernos y los ayuntamientos crean portales de datos abiertos para machine learning donde las autoridades presionan una gran cantidad de datos para que los ciudadanos puedan acceder libremente.
Ciudades como Barcelona ( OpenDataBcn ), París ( datos abiertos París ), Roma ( dati comune ) o Berlín (d aten.berlin ) tienen un Open Data Portal.
Cambiando la granularidad a los países, existe un portal para casi todos los países del mundo: Francia ( data.gouv.fr ), Malasia ( data.gov.my ) o Costa Rica ( datosabiertos.presidencia.go.cr ).
Hoy en día es fácil encontrar un conjunto de datos de casi todo, en unos pocos clics puede encontrar, como por ejemplo conjuntos de datos relacionados con el territorio (espacios de estacionamiento de una ciudad), población (nivel de educación), gobierno (resultados electorales).
Los beneficios de los datos abiertos para machine learning de un movimiento ético se centran esencialmente en capacitar al residente con datos que de alguna manera pueden usarse para su propio beneficio.
En el artículo “5 beneficios de los datos del gobierno abierto” [3] se encuentra claramente:
- Aumentar la transparencia y la rendición de cuentas
- Desarrolla confianza, credibilidad y reputación
- Promueve el progreso y la innovación
- Fomenta la educación pública y el compromiso comunitario
- Almacena y conserva la información a lo largo del tiempo
Como se indicó antes de que Open Data pueda desbloquear el potencial del aprendizaje automático.
La razón es simple, ya que los datos externos pueden ayudar a mejorar los modelos, descubrir nuevos patrones y resolver problemas como la paridad.
** Datos corporativos: así es como me refiero a los datos que pertenecen a un proyecto: como información de clientes, consumo…
Para incluir las variables de datos abiertos para machine learning en un algoritmo ML. Debemos incluir un proxy entre los datos sin procesar y la entrada del clasificador. Este proxy es responsable de transformar y alinear los datos.
Los datos deben tener la misma granularidad, todas las dimensiones deben tener la misma periodicidad. Si estamos prediciendo el clima mensual, las dimensiones de los datos abiertos también deben ser en meses.
De lo contrario, puede inducir sesgo en el modelo. Las dos fuentes de información se deben normalizar (las escalas, la normalización media o la estandarización son técnicas comunes) y, por supuesto, en la misma unidad, no intente hacer un modelo de datos de mezcla en kilómetros y millas.
También es importante mantener una Proporción desequilibrada de dimensiones. En la mayoría de los casos, el número de dimensiones corporativas debe ser mayor que las dimensiones de datos abiertos.
El motivo es simple: supongamos que predecimos el mercado de valores y 1 variable es el valor histórico (datos corporativos) del stock y otras 100 variables provienen de datos abiertos (GPD del país, nivel de educación o tipo de actividades económicas).
En este caso, la mayoría de las predicciones se construirán solo con dimensiones de datos abiertos sin utilizar datos corporativos.
Por esta razón, es esencial ponderar las dimensiones o limitar su uso como dimensiones auxiliares.
Finalmente, los portales de datos abiertos para machine learning actuales tienen barreras [4] para ser adoptadas por terceros, los gobiernos no deben limitarse simplemente a publicar los datos. Para habilitar la reutilización de esta valiosa información, debe garantizar las siguientes características:
Formato de archivo estándar
Los datos se comparten en diferentes formatos de archivo (incluso los puede encontrar en archivos en pdf).
Los portales deben trabajar para establecer un estándar y compartir todos los archivos en el mismo formato (se prefieren json y csv).
Metadatos
Todos los conjuntos de datos deben ir seguidos de una descripción de cada variable (si corresponde) es información de la fila de datos tabulares).
Una buena práctica es usar RDF, un estándar creado por el World Wide Web Consortium (W3C) que tiene características que facilitan la fusión de datos y respaldan la evolución de los esquemas a lo largo del tiempo [5]
Periodicidad y consistencia de los datos
Los datos deben actualizarse periódicamente y mantener un historial de los mismos. De la misma manera, el usuario debe ser informado de las nuevas versiones de los datos.
Los datos también deben ser consistentes en el tiempo, los identificadores de los datos no cambian con el tiempo.
El acceso a la API (Interfaz de programación de aplicaciones)
Acceder y descargar datos del portal es una actividad costosa, para Por esta razón, tienen que habilitar una API para actualizar los datos automáticamente
En resumen, los datos abiertos para machine learning pueden desbloquear un nuevo potencial en proyectos de Inteligencia Artificial y ayudar a resolver problemas como paridad.
Además, esta combinación no es una tarea trivial. Los sitios web de Open Data deben garantizar la reutilización de los datos y los ingenieros de ML deben saber cómo fusionar este conjunto de conocimientos.
Datos abiertos para machine learning: Referencias
- [1] AI y Open Data: una combinación crucial https://www.europeandataportal.eu/en/highlights/ai-and-open-data-crucial-combination
- [2] Open Statecraft para un mundo feliz http: // www.philippmueller.de/open-statecraft-for-a-brave-new-world/
- [3] 5 Beneficios de los datos del Gobierno Abierto https://www.envisio.com/blog/ 5-benefits-of-open-government-data
- [4] Beneficios, barreras de adopción y mitos del Open Data y el Open Government https://www.semanticscholar.org/paper/Benefits%2C -Adopción-Barreras-y-Mitos-de-Datos-abiertos-Janssen-Charalabidis / 4b606805da01c61e4422fd90fe33877a6d71951c
- [5] Resource Description Framework (RDF) ] [19659030] Open Data for Machine Learning se publicó originalmente en Hacia la ciencia de datos en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia.