Su guía definitiva para encontrar datasets de aprendizaje automático
Puede ser bastante difícil encontrar un datasets o conjunto de datos específico para utilizar en una variedad de clases, problemas o incluso para experimentar.
La lista a continuación no solo contiene grandes conjuntos de datos para la experimentación, sino que también contiene una descripción, ejemplos de uso y, en algunos casos, el código del algoritmo para resolver el problema de aprendizaje automático asociado con ese conjunto de datos.
1- Kaggle Datasets
Esta es una de mis ubicaciones favoritas de conjuntos de datos. Cada conjunto de datos es una pequeña comunidad donde puede conversar sobre los datos, encontrar un código público o crear sus propios proyectos en Kernels.
Contienen una gran cantidad de conjuntos de datos de la vida real de todas las formas y tamaños y en muchos formatos diferentes. También puede ver “Kernels” asociados con cada conjunto de datos donde muchos científicos de datos diferentes han proporcionado cuadernos para analizar el conjunto de datos.
A veces, puede encontrar cuadernos con algoritmos que resuelven el problema de predicción en este conjunto de datos específico.
2- Amazon Datasets
Registro de datos abiertos en AWS
Esta fuente contiene muchos conjuntos de datos en diferentes campos, tales como: (Transporte público , Recursos ecológicos, Imágenes satelitales, etc.).
También tiene un cuadro de búsqueda para ayudarlo a encontrar el conjunto de datos que está buscando y también tiene una descripción del conjunto de datos y Ejemplos de uso para todos los conjuntos de datos que son muy informativos y fáciles de usar.
Los conjuntos de datos se almacenan en recursos de Amazon Web Services (AWS) como Amazon S3 – Un servicio de almacenamiento de objetos altamente escalable en la nube.
Si está utilizando AWS para la experimentación y el desarrollo del aprendizaje automático, será útil ya que la transferencia de los conjuntos de datos será muy rápida porque es local a la red de AWS.
3- Repositorio de aprendizaje automático de la UCI:
https://archive.ics.uci.edu/ml/datasets.html
Otro gran repositorio de 100s de conjuntos de datos de la Universidad de California, Escuela de Información y Ciencias de la Computación. Clasifica los conjuntos de datos por el tipo de problema de aprendizaje automático.
Puede encontrar conjuntos de datos para conjuntos de datos univariados y multivariados, sistemas de clasificación, regresión o recomendación. Algunos de los conjuntos de datos en UCI ya están limpios y listos para ser utilizados.
4- Motor de búsqueda de datos de Google:
A finales de 2018, Google hizo lo que mejor saben hacer y lanzó otro gran servicio. Es una caja de herramientas que puede buscar conjuntos de datos por nombre. Su objetivo es unificar decenas de miles de repositorios diferentes para conjuntos de datos y hacer que los datos sean detectables. Bien hecho, Google.
5- Datasets de Microsoft:
En julio de 2018, Microsoft, junto con la comunidad de investigación externa, anunció el lanzamiento de “Microsoft Research Open Data”
Contiene un depósito de datos en la nube dedicado a facilitar la colaboración en la comunidad de investigación global. Ofrece un conjunto de conjuntos de datos seleccionados que se utilizaron en estudios de investigación publicados.
6- Impresionante colección de datasets públicos:
awesomedata / awesome-public-datasets
Esta es una gran fuente de conjuntos de datos organizada por temas, como biología, economía, educación, etc.
La mayoría de los conjuntos de datos enumerados allí son gratuitos, pero siempre debe verificar los requisitos de licencia antes de usar cualquier conjunto de datos.
7- Conjuntos de datos del gobierno:
También es fácil de encontrar conjuntos de datos relacionados con el gobierno. Muchos países han compartido una variedad de conjuntos de datos al público como un ejercicio de transparencia. Aquí hay algunos ejemplos:
- EU Open Data Portal: European Government Datasets.
- US Gov Data (No es político, pero este sitio web no está disponible temporalmente debido a Trump’s Government Shutdown o “falta de fondos” como se menciona en la página principal).
- Conjunto de datos del gobierno de Nueva Zelanda .
8- Conjuntos de datos de visión de computadora:
Si está trabajando en procesamiento de imágenes, visión de computadora o Aprendizaje profundo, entonces esta debe ser su fuente de datos para los experimentos.
Los datos visuales contienen una serie de grandes conjuntos de datos que se pueden usar para crear modelos de visión artificial (CV).
Puede buscar un determinado conjunto de datos por un determinado tema de CV como Segmentación semántica, Título de imagen, Generación de imagen o incluso por la solución como (Conjunto de datos de autos que conducen automóviles).
En conclusión, por lo que observo, parece Al igual que hay una dirección global para hacer que cada vez más datos estén disponibles y sean fácilmente accesibles para la comunidad de investigación y aprendizaje automático.
Las nuevas comunidades de conjuntos de datos continuarán creciendo y haciendo que los datos sean fácilmente accesibles para que la comunidad y la comunidad informática puedan seguir innovando rápidamente y aportando soluciones más creativas a la vida.