i
¡Bienvenidos al último proyecto individual de la etapa de labs! En esta ocasión, debo trabajar situándome en el rol de un Data Analyst.
Crear un Dashbord con datos extraidos de una API de telecomunicaciones llamado ENACOM - Ente Nacional de Comunicaciones de Argentina para limpiarlos y analizarlos, con el fin de mostrar el contenido de los datos en los archivos:
Internet_Penetracion.csvytelefonia_fija.csvque permitan visualizar la realidad tanto delInternetcomo laTelefonia fijade hoy en día; lo cuál permitirá generar la materia prima para buscar evolucionar en estos dos importantes campos de las telecomunicaciones.
En este proyecto, mis archivos de trabajo fueron los siguientes:
Internet_Accesos-por-tecnologia.csv,Internet_Ingresos.csv,Internet_Penetracion.csvytelefonia_fija.csv. Una vez, explorados los archivos anteriores se generaron los posteriores:Tecnologia.csv,Ingresos.csv,Penetracion_internet.csvyTelefonia_Fija.csv. Luego, se crean los siguientes archivos para trabajar con el EDA - Análisis exploratorio de datos:Internet.csvyTelefonia_Fija.csv. Además, con los archivosInternet_Penetracion.csvytelefonia_fija.csvcreamos el insumo para mostrar la realidad prevaleciente en estos importantes terrenos de las telecomunicaciones como lo son:InternetyTelefonía fija. Para lo cuál, se renombran los archivos mencionados ya como tablas y dentro dePowerBIadquirien los nombres:InternetyTelefoniafija; con el propósito de diseñar un KPI para cada campo de la comunicacion y muestre que se puede aumentar la cobertura en estas tecnologias.
Para este desarrollo, se crea el Notebook PI_2_ETL y se trabaja con los archivos csv:
Internet_Accesos-por-tecnologia.csv,Internet_Ingresos.csv,Internet_Penetracion.csvytelefonia_fija.csv. Para abrir los archivos, importamos la libreria necesaria:pandas. Abrimos el archivoInternet_Accesos-por-tecnologia.csvy eliminamos las columnasOtrosyTotalquedando 7 columnas y 36 registros para salvar comoTecnologia.csv. Enseguida abrimos el datasetInternet_Ingresos.csvencontando 4 columnas y 36 registros salvando comoIngresos.csv. Luego, abrimos el datasetInternet_Penetracion.csvcon el parametrodecimal=','para componer los datos de la columnaAccesos por cada 100 hogaresque venía con coma y cambiamos a punto decimal. Continuando con este dataset, eliminamos las columnasUnnamed: 4,Unnamed: 5yUnnamed: 6que vienen vacías y renombramos la columnaAccesos por cada 100 hogarescomoAccesoactualquedando 864 registros y 4 columnas para salvar comoPenetracion_internet.csv. Después, abrimos el datasettelefonia_fija.csvy eliminamos la columnaAccesos telefonía fija por cada 100 habpara renombrar la columnaAccesos telefonía fija por cada 100 hogarescomoAccesoactualTelgenerando 4 columnas y864registros salvando comoTelefonia_Fija.csv. En esta parte fusionamos los archivos:Ingresos.csv,Tecnologia.csvyPenetracion_internet.csvque generan10columnas y864registros para ser salvado comoInternet.csv. Reservando este último dataset junto conTelefonia_Fija.csvpara el análisisEDA. Los siguientes archivos que reservamos para losKPIssonPenetracion_internet.csvcon4columnas y864registros yTelefonia_Fija.csvcon4columnas y864registros.
Para este desarrollo, se crea el Notebook PI_2_EDA y se trabaja con los
archivos csv:Internet.csvyTelefonia_Fija.csv. Para abrir los archivos, importamos la libreria necesarias:pandas,matplotlib.pyplot,seabornywordcloud. Primeramente, abrimos el dataset:Internet.csv, en el cual, eliminamos las columnas:ADSL,Cablemodem,WirelessyIngresos (miles de pesos)para reducir el dataset:Internet.csva6columnas y864registros. Este archivo lo fusionamos con el dataset:Telefonia_Fija.csvcon4columnas y864registros y queda como archivo:dfcon792registros y7columnas. Con esté último dataset, podemos trabajar en nuestroEDA, dondeno encontramos datos nulosyeliminamos posibles duplicados. Para empezar, tenemosInternetyTelefonía fijapara trabajar con7columnas y792registros. Para el,Internetse contemplan las columnas:AccesoactualyFibra ópticaen dos ambitosTrimestreyProvincia, que nos arrojan los siguientes resultados en la parte deAccesoactual: Los outliers son 36 valores desde105.98a124.06y distribuidos desde el año2014al2022. Representando una fracción de36/792con un porcentaje de4.55 %. Dónde las provincias con mayor covertura enAcceso actual a internetson:Capital FederalyLa Pampa. Ahora en la facción deFibra óptica, obtenemos los correspondientes resultados: Los outliers son22valores en todos los trimestres, siendo respectivamente637,761,852y941paraTrimestre 1,Trimestre 2,Trimestre 3yTrimestre 4. Cayendo todos los valores en el año2019con una fracción de88/792y porcentaje de11.11 %. Siendo las medianas, valores idénticos en todas las provincias y trimestres respectivamente164,151,163y150paraTrimestre 1,Trimestre 2,Trimestre 3yTrimestre 4. En la parte deAcceso a Telefonía fija, se contempla la columna:AccesoactualTelen dos ambitosTrimestreyProvincia, que nos arrojan los siguientes resultados en la parte deAccesoactualTel: Los outliers de la columnaAccesoactualTel, fluctúan desde10.727hasta13.828que representan una fracción de32/792entre los años2014 a 2022y se plasma como un porcentaje de4.04 %. En este análisis sobresale la provincia deCapital Federal, seguida porBuenos Aires. Generando una nube de palabras de la columna:Provincia, siendo las palabras que más se repiten:Aires, Capital, Buenos Aires y Capital Federal.
La mayor cobertura de
acceso a internetrecae en las provincias deCapital FederalyLa Pampacon el primero y segundo lugar respectivamente. Con36 valores outliers, que basado en eltotal de registros de 792nos arrojan un porcentaje de4.55 %para cubrir los años desde2014 hasta 2022. En el segmento defibra ópticaestá muyparejo en lo que respecta a las provincias, con88 valores outliersque basados en la cantidad de registros nos resultan en un porcentaje de11.11 %fincado solamente en elaño 2019. Siendo lasmedianas idénticasen todas lasprovinciasen sus respectivostrimestres. La cobertura deacceso a la telefonía fijase ve beneficiada en primer lugar por la provincia deCapital Federaly en segundo lugarBuenos Aires. Siendo32 valores outliers, y según el total de registros nos arrojan un porcentaje de4.04 %fluctuando entre los años2014 al 2022. En ninguno de los casos, se eliminaron losoutliersporque se consideran importantes para este estudio y la interaccion con los datos en general. Mientras se puede constatar por la nube de palabras, que las provincias mas importantes, a resaltar son:Capital FederalyBuenos Aires.
Se explora detalladamente los datos de los datasets: Penetracion_internet.csv y Telefonia_Fija.csv, para elegir cada uno de los KPIs. Éstos, permiten mostrar una síntesis de la información producto del análisis, que clarifican la presentación de los datos.
Aspectos inherentes a la visualización, se resaltan para conseguir la coherencia de los gráficos según las variables a mostrar.
Mientras el primer KPI, se propone aumentar en un 2% el acceso al servicio a internet para el próximo trimestre por cada 100 hogares y por provincia. Atendiendo a los cálculos pertinentes, se hicieron los respectivos ajustes a las columnas aludidas para poder revelar las tendencias en ese sentido. Desarollando la misma operación para el segundo KPI en el campo de la telefonía fija que permita entregar el producto calculado y poder atender todas las instancias propuestas.