El Ecosistema Moderno de Ciencia de Datos / Aprendizaje Automático

Recientemente, informamos los resultados de la 20ª encuesta anual de software KDnuggets:


Python lidera las 11 principales plataformas de Data Science, Machine Learning: Trends and Analysis
.

Como hemos hecho antes.
(ver 2017 ecosistema de la ciencia de datos 2018 ecosistema de la ciencia de datos ),
Examinamos qué herramientas formaban parte de la misma respuesta: las habilidades del usuario.
Notamos que esto no necesariamente significa que todas las herramientas se usaron juntas en cada proyecto, pero tener conocimientos y habilidades para usar ambas herramientas, X e Y, hace que sea más probable que tanto X como Y se hayan usado juntas en algunos proyectos. Los resultados que vemos son consistentes con este supuesto.

Las herramientas principales muestran una estabilidad sorprendente: vemos esencialmente el mismo patrón que el año pasado.

Primero, seleccionamos las herramientas con al menos el 20% de los votos. Hubo 11 de estas herramientas, exactamente la misma lista de 11 herramientas que el año pasado, aunque el orden ha cambiado un poco. Keras subió de n. 10 a n. 8, y Anaconda subió de n. 6 a n. 5. Tableau y SQL bajaron un poco.

El corte para este grupo de 11 es natural, ya que hay una gran brecha entre n. 11 (Apache Spark, con 21%) y n. 12 (Microsoft Power BI, 13%).

Utilizamos la misma medida de Levantamiento que en nuestro
2017 análisis y
Análisis 2018 .

Luego agrupamos las herramientas con la asociación más fuerte, comenzando con Tensorflow y Keras, hasta que llegamos a la figura 1 a continuación.
Hicimos los patrones más fáciles de ver al mostrar solo asociaciones con abs (Lift1)> 15%.

 Ecosistema Top11 de Data Science 2019


Fig. 1: Data Science, Machine Learning Top Tools Associations, 2019

La longitud de la barra corresponde al valor absoluto de lift1, y el color es el valor de lift (verde – asociación positiva, rojo – asociación negativa).

Observamos un grupo de 6 herramientas principales que conforman el ecosistema de ciencia de datos de código abierto moderno:
Python, Anaconda, scikit-learn, Tensorflow, Keras y Apache Spark . Este es exactamente el mismo grupo que el año pasado, ver más abajo.

 Poll Data Science 2018 Top11 Ecosystem
Fig. 1b: Data Science, Machine Learning Asociaciones principales de herramientas en 2018

Rapidminer tiene una pequeña asociación negativa con todas las herramientas anteriores y no combina con otras herramientas.

R tiene pequeñas asociaciones positivas con Keras, Apache Spark, SQL y Tableau.

El segundo grupo incluye las 3 herramientas de soporte para Data Science y Machine Learning, que frecuentemente se usan juntas:
SQL, Excel y Tableau .

Tenga en cuenta que este gráfico es simétrico con respecto a la diagonal (el triángulo superior derecho es igual al inferior izquierdo), pero incluimos ambos triángulos porque los patrones son más fáciles de ver en el gráfico completo.

Definición de elevación:

Elevación (X e Y) = pct (X e Y) / (pct (X) * pct (Y))

donde pct (X) es el porcentaje de usuarios que seleccionaron X.

Lift (X&Y)> 1 indica que X&Y aparecen juntos más de lo esperado si fueran independientes,

Levante = 1 si X e Y aparecen con la frecuencia esperada si son independientes, y

Levante <1 si X e Y aparecen juntos menos de lo esperado (correlacionado negativamente)

Para hacer las diferencias de una más fácil de ver definimos

Lift1 (X & Y) = Lift (X & Y) – 1

Python vs R

A continuación, examinamos Python vs R.

Deje with_Py (X) =% del uso de la herramienta X con Python, y
con_R (X) % del uso de la herramienta X con R.
Para visualizar qué tan cerca está cada herramienta de Python o R, usamos una medida muy simple Bias_Py_R (X) = with_Py (X) – with_R (X) lo cual es positivo si la herramienta se usa más con Python y negativo si se usa más con R.

En la Fig. 2, trazamos el sesgo de las herramientas más populares con al menos 90 votos,
y como podemos ver, casi todas las herramientas están orientadas hacia Python.
Las únicas 3 excepciones son R (obviamente), Microsoft SQL Server y SAS Base (que es exactamente un sesgo cero).
A modo de comparación, en un análisis similar de de 2017 hubo 10 herramientas orientadas hacia R y 3 herramientas con orientación R en 2018.

R es una excelente plataforma con una tremenda profundidad y ancho, que se usa ampliamente para el análisis y visualización de datos, y todavía tiene aproximadamente el 50% de participación. Sin embargo, en el futuro, esperamos más desarrollo y energía en torno al ecosistema de Python.

 Encuesta Python Vs R 2019
Fig. 2: Data Science, Machine Learning Platforms 2019: Python vs R bias

No creo que la estabilidad relativa de la participación y las asociaciones de las 11 plataformas principales sugieran el fin de la innovación, pero tal vez solo una pausa antes de otro sistema importante, tal vez algo relacionado con AutoML,
interrumpirá el ecosistema actual.

Big Data y Deep Learning

Por último, analizamos la relación entre las plataformas y lenguajes DS / ML con Big Data (herramientas Hadoop y Spark) y Deep Learning.

Las herramientas de Big Data se usaron en un 37,4%, en comparación con el 33% en las encuestas de 2018 y 2017.
A pesar de este aumento, la mayoría de los científicos de datos aún trabajan con datos medianos / pequeños que no requieren Hadoop / Spark.

La fracción de herramientas de Aprendizaje Profundo creció a 50% versus 43% en la encuesta de 2018 y 32% en 2017.

Para cada herramienta X, calculamos la frecuencia con la que fue incluido por el mismo votante con Big Data (herramientas Spark / Hadoop) – eje vertical, y con herramientas de aprendizaje profundo (eje horizontal).

Aquí hay una tabla con las mejores herramientas (con al menos 50 votos), excluyendo las herramientas de Aprendizaje Profundo y Big Data.

 Poll 2019 Big Data vs Deep Learning Affinity


Fig. 3: KDnuggets 2019 Data Science, Encuesta de aprendizaje automático: Aprendizaje profundo frente a la afinidad de Big Data

Notamos que Scala es el lenguaje más utilizado con Deep Learning y Big Data. El gráfico es pesado en la parte inferior derecha, y casi todas las herramientas se usan más con Deep Learning que con la herramienta Big Data.

Curiosamente, las herramientas más asociadas con Deep Learning son XGBoost
y LightGBM.

Aquí hay una tabla que muestra la afinidad de diferentes plataformas con Big Data y Deep Learning, ordenadas por afinidad con herramientas de Deep Learning.

Tabla 1: Top Data Science / ML Software y su afinidad con Big Data y Deep Learning

Software 2019
Contar
% con
Big Data
% con
Aprendizaje profundo
LightGBM 50 34% 90%
XGBoost 208 50% 84%
H2O.ai ] 117 58% 82%
Scala 57 89% 77%
scikit-learn 418 47% 73%
Azure ML 77 47% 68%
Anaconda 556 43% 64%
Weka 109 55% 63%
C / C ++ 116 39% 63%
Javascript 112 48% 63%
Otras herramientas gratuitas para DS 145 32% 60%
Unix shell / awk 130 51% 60%
Otro prog lang 94 40% 60%
Python [19659050] 1078 44% 59%
MATLAB 100 33% 59%
DM naranja 51 33% 55%
Java 203 48% 55%
KNIME 175 39% 54%
R 764 41% [19659050] 53%
SQL Server 184 34% 49%
SQL 538 46% 46%
MS Power BI 217 38% 46%
Cuadro 362 40% 44%
Alteryx 66 47% 44% QlikView 60 40% 43%
RapidMiner 839 34% 42%
SAS EM 55 42% 42%
Excel 571 29% 41%
SAS Base 93 28% 34%
IBM SPSS Estadística 87 [19659050] 20% 25%

Relacionados:

Dejá un comentario