Entrada DataViz Battle: análisis de datos líneas aéreas TSA

Esta es mi segunda publicación mediana sobre análisis de datos. Dada la naturaleza del concurso de Reddit, a continuación se centra en la visualización de los datos más que en la exploración.

En primer lugar, el conjunto de datos para el desafío es este TSA Claims Data que forma parte de un grupo de documentos PDF La Administración de Seguridad del Transporte es una agencia del Departamento de Seguridad Nacional de los EE. UU. Que tiene autoridad sobre la seguridad del público viajero en los Estados Unidos. Los datos contienen información sobre artículos perdidos y reclamados en tránsito.

Utilicé Tabula para analizar los archivos PDF en línea, lo que terminó funcionando bastante bien. Solo miré datos de 2016 .

Sin embargo, las filas estaban un poco dispersas por todo el lugar, lo que requería que usara OpenRefine (diríjase a @warrenski para la sugerencia). No puedo enfatizar cuánto me ayudó OpenRefine. Luego terminé usando Python para la reestructuración y visualización.

La primera vez que usé Plotly y funciona de maravilla. Me perdí el barco Bokeh así que, como usuario de Plotly por primera vez, me tomará mucho tiempo abandonar el barco.

Todos los gráficos a continuación están destinados a ser interactivos pero, por desgracia, Medium doesn ‘ t admite este tipo de incrustaciones. De todos modos, a continuación se muestran mis entradas para la batalla de DataViz:

Extrañamente, como muestra lo anterior, los artículos aprobados caen hacia el final del año, lo que plantea la pregunta de si el departamento se queda sin presupuesto.

Verá que las líneas suben hacia abril, mayo y junio, después de lo cual se desploma y disminuye hasta cero en diciembre.

Los aeropuertos no siempre son culpables de artículos perdidos o de aprobar lo que se paga cuando , así que también analicé los aviones para ver si hay algunas variaciones interesantes en el tipo de artículos reclamados .

Este es mi nuevo gráfico favorito:)

Fue interesante observar que al mirar en los aviones comerciales y su contribución principal a reclamaciones en total, UAL echa un vistazo a los artículos de caza y American Airlines echa un vistazo en artículos médicos. UAL tiene su sede en Chicago, que es conocida por su control de armas, por lo que tal vez podría haber una correlación.

Aquí está el mismo gráfico que el anterior hecho en matplotlib como un diagrama de pila, pero solo:

En general, es interesante juega con las categorías de los objetos más, mirándolos en términos de su valor general y volumen.

Este gráfico se ve mejor como un elemento interactivo, así que disculpe los terribles textos flotantes

Probablemente no sea el mejor gráfico para esta representación, pero quería agregar alguna variación a la anterior. También me gustan los gráficos de dispersión de burbujas.

El gráfico anterior muestra que en términos del volumen de artículos reclamados Ropa, Otro, Equipaje y Electrónica son muy populares. Sin embargo, Electronics gana en términos de valor reclamado de lejos por los artículos.

Los tamaños de las burbujas están determinados por el valor promedio del artículo en relación con el volumen, esto pensé que era bastante necesario. Y como verá a continuación, ayudó a revelar que, aunque los artículos de caza tienen un volumen relativamente bajo, valen mucho más que, por ejemplo, artículos médicos o cámaras.

Una versión ampliada de lo anterior Al acercar el feo clúster en el gráfico anterior, en la esquina verá que la burbuja Elementos de caza es relativamente grande, lo que indica su bajo volumen pero alto valor por artículo. Eso es todo por esta publicación, gracias por la lectura y espero que lo haya encontrado interesante. Si te gustan los gráficos, no dudes en darles un aplauso o compartirlos. Cheers!


Entrada DataViz Battle: análisis de datos de líneas aéreas de la TSA se publicó originalmente en Towards Data Science en Medium, donde las personas continúan la conversación resaltando y respondiendo a esta historia. [19659020]

Dejá un comentario