El Ecosistema Moderno de Ciencia de Datos / Aprendizaje Automático

Recientemente, informamos los resultados de la 20ª encuesta anual de software KDnuggets:

Python lidera las 11 principales plataformas de Data Science, Machine Learning: Trends and Analysis .

Como hemos hecho antes.
(ver 2017 ecosistema de la ciencia de datos 2018 ecosistema de la ciencia de datos ),
Examinamos qué herramientas formaban parte de la misma respuesta: las habilidades del usuario.
Notamos que esto no necesariamente significa que todas las herramientas se usaron juntas en cada proyecto, pero tener conocimientos y habilidades para usar ambas herramientas, X e Y, hace que sea más probable que tanto X como Y se hayan usado juntas en algunos proyectos. Los resultados que vemos son consistentes con este supuesto.

Las herramientas principales muestran una estabilidad sorprendente: vemos esencialmente el mismo patrón que el año pasado.

Primero, seleccionamos las herramientas con al menos el 20% de los votos. Hubo 11 de estas herramientas, exactamente la misma lista de 11 herramientas que el año pasado, aunque el orden ha cambiado un poco. Keras subió de n. 10 a n. 8, y Anaconda subió de n. 6 a n. 5. Tableau y SQL bajaron un poco.

El corte para este grupo de 11 es natural, ya que hay una gran brecha entre n. 11 (Apache Spark, con 21%) y n. 12 (Microsoft Power BI, 13%).

Utilizamos la misma medida de Levantamiento que en nuestro
2017 análisis y
Análisis 2018 .

Luego agrupamos las herramientas con la asociación más fuerte, comenzando con Tensorflow y Keras, hasta que llegamos a la figura 1 a continuación.
Hicimos los patrones más fáciles de ver al mostrar solo asociaciones con abs (Lift1)> 15%.

Ecosistema Top11 de Data Science 2019
Fig. 1: Data Science, Machine Learning Top Tools Associations, 2019

La longitud de la barra corresponde al valor absoluto de lift1, y el color es el valor de lift (verde – asociación positiva, rojo – asociación negativa).

Observamos un grupo de 6 herramientas principales que conforman el ecosistema de ciencia de datos de código abierto moderno:
Python, Anaconda, scikit-learn, Tensorflow, Keras y Apache Spark . Este es exactamente el mismo grupo que el año pasado, ver más abajo.

Fig. 1b: Data Science, Machine Learning Asociaciones principales de herramientas en 2018

Rapidminer tiene una pequeña asociación negativa con todas las herramientas anteriores y no combina con otras herramientas.

R tiene pequeñas asociaciones positivas con Keras, Apache Spark, SQL y Tableau.

El segundo grupo incluye las 3 herramientas de soporte para Data Science y Machine Learning, que frecuentemente se usan juntas:
SQL, Excel y Tableau .

Tenga en cuenta que este gráfico es simétrico con respecto a la diagonal (el triángulo superior derecho es igual al inferior izquierdo), pero incluimos ambos triángulos porque los patrones son más fáciles de ver en el gráfico completo.

Definición de elevación:

Elevación (X e Y) = pct (X e Y) / (pct (X) * pct (Y))

donde pct (X) es el porcentaje de usuarios que seleccionaron X.

Lift (X&Y)> 1 indica que X&Y aparecen juntos más de lo esperado si fueran independientes,

Levante = 1 si X e Y aparecen con la frecuencia esperada si son independientes, y

Levante <1 si X e Y aparecen juntos menos de lo esperado (correlacionado negativamente)

Para hacer las diferencias de una más fácil de ver definimos

Lift1 (X & Y) = Lift (X & Y) – 1

Python vs R

A continuación, examinamos Python vs R.

Deje with_Py (X) =% del uso de la herramienta X con Python, y
con_R (X) % del uso de la herramienta X con R.
Para visualizar qué tan cerca está cada herramienta de Python o R, usamos una medida muy simple Bias_Py_R (X) = with_Py (X) – with_R (X) lo cual es positivo si la herramienta se usa más con Python y negativo si se usa más con R.

En la Fig. 2, trazamos el sesgo de las herramientas más populares con al menos 90 votos,
y como podemos ver, casi todas las herramientas están orientadas hacia Python.
Las únicas 3 excepciones son R (obviamente), Microsoft SQL Server y SAS Base (que es exactamente un sesgo cero).
A modo de comparación, en un análisis similar de de 2017 hubo 10 herramientas orientadas hacia R y 3 herramientas con orientación R en 2018.

R es una excelente plataforma con una tremenda profundidad y ancho, que se usa ampliamente para el análisis y visualización de datos, y todavía tiene aproximadamente el 50% de participación. Sin embargo, en el futuro, esperamos más desarrollo y energía en torno al ecosistema de Python.

Encuesta Python Vs R 2019
Fig. 2: Data Science, Machine Learning Platforms 2019: Python vs R bias

No creo que la estabilidad relativa de la participación y las asociaciones de las 11 plataformas principales sugieran el fin de la innovación, pero tal vez solo una pausa antes de otro sistema importante, tal vez algo relacionado con AutoML,
interrumpirá el ecosistema actual.

Big Data y Deep Learning

Por último, analizamos la relación entre las plataformas y lenguajes DS / ML con Big Data (herramientas Hadoop y Spark) y Deep Learning.

Las herramientas de Big Data se usaron en un 37,4%, en comparación con el 33% en las encuestas de 2018 y 2017.
A pesar de este aumento, la mayoría de los científicos de datos aún trabajan con datos medianos / pequeños que no requieren Hadoop / Spark.

La fracción de herramientas de Aprendizaje Profundo creció a 50% versus 43% en la encuesta de 2018 y 32% en 2017.

Para cada herramienta X, calculamos la frecuencia con la que fue incluido por el mismo votante con Big Data (herramientas Spark / Hadoop) – eje vertical, y con herramientas de aprendizaje profundo (eje horizontal).

Aquí hay una tabla con las mejores herramientas (con al menos 50 votos), excluyendo las herramientas de Aprendizaje Profundo y Big Data.

Poll 2019 Big Data vs Deep Learning Affinity
Fig. 3: KDnuggets 2019 Data Science, Encuesta de aprendizaje automático: Aprendizaje profundo frente a la afinidad de Big Data

Notamos que Scala es el lenguaje más utilizado con Deep Learning y Big Data. El gráfico es pesado en la parte inferior derecha, y casi todas las herramientas se usan más con Deep Learning que con la herramienta Big Data.

Curiosamente, las herramientas más asociadas con Deep Learning son XGBoost
y LightGBM.

Aquí hay una tabla que muestra la afinidad de diferentes plataformas con Big Data y Deep Learning, ordenadas por afinidad con herramientas de Deep Learning.

Tabla 1: Top Data Science / ML Software y su afinidad con Big Data y Deep Learning

Software	2019 Contar	% con Big Data	% con Aprendizaje profundo
LightGBM	50	34%	90%
XGBoost	208	50%	84%
H2O.ai	] 117	58%	82%
Scala	57	89%	77%
scikit-learn	418	47%	73%
Azure ML	77	47%	68%
Anaconda	556	43%	64%
Weka	109	55%	63%
C / C ++	116	39%	63%
Javascript	112	48%	63%
Otras herramientas gratuitas para DS	145	32%	60%
Unix shell / awk	130	51%	60%
Otro prog lang	94	40%	60%
Python [19659050] 1078	44%	59%
MATLAB	100	33%	59%
DM naranja	51	33%	55%
Java	203	48%	55%
KNIME	175	39%	54%
R	764	41% [19659050] 53%
SQL Server	184	34%	49%
SQL	538	46%	46%
MS Power BI	217	38%	46%
Cuadro	362	40%	44%
Alteryx	66	47%	44%	QlikView	60	40%	43%
RapidMiner	839	34%	42%
SAS EM	55	42%	42%
Excel	571	29%	41%
SAS Base	93	28%	34%
IBM SPSS Estadística	87 [19659050] 20%	25%