Це відео не доступне.
Перепрошуємо.
Tutorial: MANEJO DE DATOS CATEGÓRICOS FALTANTES con Python, Pandas y Scikit-Learn
Вставка
- Опубліковано 15 сер 2024
- 🔥🔥Academia Online: cursos.codific... 🔥🔥
🔥🔥Asesorías y formación personalizada: www.codificand... 🔥🔥
En este tutorial vamos a ver las principales técnicas para realizar el manejo de datos faltantes cuando los datos que queremos completar son de tipo categórico.
Enlace de descarga del código y del set de datos de este tutorial: www.codificand...
Contenido:
00:00 Introducción
00:37 Academia Online
00:54 El set de datos
09:14 Eliminar filas con datos faltantes
12:11 Eliminar columna con datos faltantes
13:14 Imputar con la categoría más frecuente
16:52 Imputar con Machine Learning
33:22 Conclusión
🔴 ** VISITA WWW.CODIFICANDOBITS.COM **
En el sitio web encontrarás cursos online así como artículos y material útil de Ciencia de Datos y Machine Learning. También podrán ponerse en contacto conmigo si están interesados en servicios de formación, charlas o asesorías.
🔴 ** VIDEOS RELACIONADOS **
🎥 Tutorial análisis exploratorio de datos: • Tutorial: ANÁLISIS EXP...
🎥 Tutorial limpieza de datos: • Tutorial: LIMPIEZA DE ...
🔴 ** ÚNETE A CODIFICANDO BITS Y SÍGUEME EN MIS REDES SOCIALES **
✅ Sitio web: www.codificand...
✅ Suscríbete: www.youtube.co...
✅ Facebook: / codificandobits
✅ Instagram: / codificandobits
✅ Twitter: / codificandobits
🔴 ** ACERCA DE MÍ **
Soy Miguel Sotaquirá, el creador de Codificando Bits. Tengo formación como Ingeniero Electrónico, y un Doctorado en Bioingeniería, y desde el año 2017 me he convertido en un apasionado por el Machine Learning y el Data Science, y en la actualidad me dedico por completo a divulgar contenido y a brindar asesoría a personas y empresas sobre estos temas.
🔴 ** ACERCA DE CODIFICANDO BITS **
El objetivo de Codificando Bits es inspirar y difundir el conocimiento en las áreas de Machine Learning y Data Science.
#machinelearning
🔥🔥Academia Online: cursos.codificandobits.com/ 🔥🔥
🔥🔥Asesorías y formación personalizada: www.codificandobits.com/servicios/ 🔥🔥
Quiero agradecerte por este increíble video. Realmente me ayudó a entender muchas cosas y me dejó con una perspectiva más clara. Tu habilidad para explicar conceptos es asombrosa. ¡Sigue haciendo este excelente trabajo y compartiendo tu conocimiento! Gracias de nuevo por hacer la diferencia en la vida de tus espectadores. 👏🌟
😁😁😁 muchas gracias por tu comentario!
Excelente video! Una pregunta: ¿Podrias entregar alguna referencia bibliográfica sobre los modelos de Machine Learning para estudiarlos y así poder decidir cuál modelo se adecúa más en cierto contexto de datos?
Reitero mis felicitaciones por el video, las explicaciones dejan todo clarisimo.
Super claro.
Hola Miguel buenos días. Gracias por entregarnos cada conocimiento. Por favor cuéntenos qué cursos proyecta desarrollar para este resto de año 2023. Gracias.
Hola Jaime, gracias por tu comentario!
Para lo que resta de este año vendrán 3 cursos enfocados en probabilidad y estadística para Machine Learning, que serán publicados entre octubre y diciembre, una vez culminemos el curso que estoy desarrollando en estos momentos (Pandas Nivel Avanzado).
Tenías alguna sugerencia de curso en mente?
Un saludo!
Más entendible imposible
Hola que gran trabajo y buena explicación, que pasaría si tengo varias variables categóricas nominales y con datos incompletos en variables numéricas
Muy buena explicación, gracias
Primero que todo excelente explicación, tengo una duda respecto a las variables que se utilizan para entrenar el modelo de predicción, no es necesario primero verificar si las variables numéricas (altura y peso) tienen una alta correlación con la variable categórica (sexo)?, pues si son variables independientes entre si no tendría sentido intentar estimar una en base al valor de las otras, en este caso es obvio que si se correlacionan debido al conocimiento del fenómeno que se está analizando, pero en otros análisis con más variables y relaciones entre ellas no muy obvias si sería un paso necesario?
Sí Alejandro, tienes toda la razón. En este caso no incluí esta parte para no perder el foco del video que era la codificación de variables categóricas.
Pero en la práctica lo más recomendable es por ejemplo, en el análisis exploratorio, analizar posibles correlaciones entre variables e intentar descartar aquellas que resulten "redundantes".
¡Un saludo!
Hola Miguel , buenas tardes, en el caso del 3º método, no se debería escalar los datos de entrada , ya que la altura y el peso son distintos?, y por otro lado en caso de que haya muchos mas de una clase que de otra, se puede dar que la predicción esté sesgada?
¿Te refieres al método de Machine Learning? Sí, es correcto. Siendo rigurosos se debería haber hecho el escalamiento de los datos e incluso deberíamos haber afinado el modelo adecuadamente para generar las mejores predicciones. Pero en este tutorial decidí obviar estas partes para enfocarme como tal en el método de imputación. Pero tienes razón, siendo rigurosos se debería haber hecho escalamiento.
Y con respecto a tu segunda pregunta: sí, si el set de datos está desbalanceado el modelo puede tener sesgos al momento de generar las predicciones.
Un saludo!
@@codificandobits muchas gracias.
Resumen del video:
1) Si las filas totales de los datos con valores NaN son menor a un 3%, es mejor eliminar la fila problematica.
2) Se elimina la columna problemática sinson pocos datos como en el caso de las filas y además la columna no es relevante para el estudio.
3) Se imputan los datos cuando los valores NaN se mantienen entre un 3% y un 5%.
4) Se aplica Machine learning para imputar datos cuando estos sean entre un 5% y un 12%.
5) Si los valores NaN superan aproximadamente un 12% de los datos totales, puede ser mejor pedir más datos en caso que los hubiese.
Hola Diego, gracias por tu resumen!
Aunque yo no sesgaría el uso de uno u otro método a un porcentaje de datos faltantes. Creo que más bien lo que hay que mirar son las características de nuestro set de datos, el problema que queremos resolver y los pros y los contras de cada método (los cuales menciono en el video) y con base en esto tomar la decisión más adecuada. Un saludo!
@@codificandobits entendido, lo dije como una referencia de que mirar en base a la cantidad de datos nulos, ya que si por ejemplo un 30% de los datos son NaN no creo que el metodo de Machine Learning sea muy preciso, más bien deberían pedir más datos, justamente para evitar hacer una imputación sesgada
@@diegofonseca7457 tienes toda la razón, de acuerdo!