Це відео не доступне.

Перепрошуємо.

Tutorial: MANEJO DE DATOS CATEGÓRICOS FALTANTES con Python, Pandas y Scikit-Learn

Codificando Bits

Додати в
- Мій плейлист
- Переглянути пізніше
Поділитися

Поділитися

Вставка

Розмір відео:

Показувати елементи керування програвачем

Автоматичне відтворення

Автоповтор

Опубліковано 15 сер 2024
🔥🔥Academia Online: cursos.codific... 🔥🔥
🔥🔥Asesorías y formación personalizada: www.codificand... 🔥🔥
En este tutorial vamos a ver las principales técnicas para realizar el manejo de datos faltantes cuando los datos que queremos completar son de tipo categórico.
Enlace de descarga del código y del set de datos de este tutorial: www.codificand...
Contenido:
00:00 Introducción
00:37 Academia Online
00:54 El set de datos
09:14 Eliminar filas con datos faltantes
12:11 Eliminar columna con datos faltantes
13:14 Imputar con la categoría más frecuente
16:52 Imputar con Machine Learning
33:22 Conclusión
🔴 ** VISITA WWW.CODIFICANDOBITS.COM **
En el sitio web encontrarás cursos online así como artículos y material útil de Ciencia de Datos y Machine Learning. También podrán ponerse en contacto conmigo si están interesados en servicios de formación, charlas o asesorías.
🔴 ** VIDEOS RELACIONADOS **
🎥 Tutorial análisis exploratorio de datos: • Tutorial: ANÁLISIS EXP...
🎥 Tutorial limpieza de datos: • Tutorial: LIMPIEZA DE ...
🔴 ** ÚNETE A CODIFICANDO BITS Y SÍGUEME EN MIS REDES SOCIALES **
✅ Sitio web: www.codificand...
✅ Suscríbete: www.youtube.co...
✅ Facebook: / codificandobits
✅ Instagram: / codificandobits
✅ Twitter: / codificandobits
🔴 ** ACERCA DE MÍ **
Soy Miguel Sotaquirá, el creador de Codificando Bits. Tengo formación como Ingeniero Electrónico, y un Doctorado en Bioingeniería, y desde el año 2017 me he convertido en un apasionado por el Machine Learning y el Data Science, y en la actualidad me dedico por completo a divulgar contenido y a brindar asesoría a personas y empresas sobre estos temas.
🔴 ** ACERCA DE CODIFICANDO BITS **
El objetivo de Codificando Bits es inspirar y difundir el conocimiento en las áreas de Machine Learning y Data Science.
#machinelearning

КОМЕНТАРІ • 19

@codificandobits 10 місяців тому ⁺¹
🔥🔥Academia Online: cursos.codificandobits.com/ 🔥🔥
🔥🔥Asesorías y formación personalizada: www.codificandobits.com/servicios/ 🔥🔥
@eduardoramirez6589 8 місяців тому ⁺²
Quiero agradecerte por este increíble video. Realmente me ayudó a entender muchas cosas y me dejó con una perspectiva más clara. Tu habilidad para explicar conceptos es asombrosa. ¡Sigue haciendo este excelente trabajo y compartiendo tu conocimiento! Gracias de nuevo por hacer la diferencia en la vida de tus espectadores. 👏🌟
@codificandobits 8 місяців тому
😁😁😁 muchas gracias por tu comentario!
@marcelohernandezcaro7169 4 місяці тому
Excelente video! Una pregunta: ¿Podrias entregar alguna referencia bibliográfica sobre los modelos de Machine Learning para estudiarlos y así poder decidir cuál modelo se adecúa más en cierto contexto de datos?
Reitero mis felicitaciones por el video, las explicaciones dejan todo clarisimo.
@jrvega79 4 місяці тому
Super claro.
@jaimeluna99 10 місяців тому
Hola Miguel buenos días. Gracias por entregarnos cada conocimiento. Por favor cuéntenos qué cursos proyecta desarrollar para este resto de año 2023. Gracias.
@codificandobits 10 місяців тому ⁺²
Hola Jaime, gracias por tu comentario!
Para lo que resta de este año vendrán 3 cursos enfocados en probabilidad y estadística para Machine Learning, que serán publicados entre octubre y diciembre, una vez culminemos el curso que estoy desarrollando en estos momentos (Pandas Nivel Avanzado).
Tenías alguna sugerencia de curso en mente?
Un saludo!
@michaelesquivel9417 2 місяці тому
Más entendible imposible
@camilohernandez8884 5 місяців тому
Hola que gran trabajo y buena explicación, que pasaría si tengo varias variables categóricas nominales y con datos incompletos en variables numéricas
@CarolinaAvilaCoral 10 місяців тому
Muy buena explicación, gracias
@ML_Wave 4 місяці тому
Primero que todo excelente explicación, tengo una duda respecto a las variables que se utilizan para entrenar el modelo de predicción, no es necesario primero verificar si las variables numéricas (altura y peso) tienen una alta correlación con la variable categórica (sexo)?, pues si son variables independientes entre si no tendría sentido intentar estimar una en base al valor de las otras, en este caso es obvio que si se correlacionan debido al conocimiento del fenómeno que se está analizando, pero en otros análisis con más variables y relaciones entre ellas no muy obvias si sería un paso necesario?
@codificandobits 4 місяці тому
Sí Alejandro, tienes toda la razón. En este caso no incluí esta parte para no perder el foco del video que era la codificación de variables categóricas.
Pero en la práctica lo más recomendable es por ejemplo, en el análisis exploratorio, analizar posibles correlaciones entre variables e intentar descartar aquellas que resulten "redundantes".
¡Un saludo!
@FernandoLopez-vc2ld 10 місяців тому
Hola Miguel , buenas tardes, en el caso del 3º método, no se debería escalar los datos de entrada , ya que la altura y el peso son distintos?, y por otro lado en caso de que haya muchos mas de una clase que de otra, se puede dar que la predicción esté sesgada?
@codificandobits 10 місяців тому ⁺¹
¿Te refieres al método de Machine Learning? Sí, es correcto. Siendo rigurosos se debería haber hecho el escalamiento de los datos e incluso deberíamos haber afinado el modelo adecuadamente para generar las mejores predicciones. Pero en este tutorial decidí obviar estas partes para enfocarme como tal en el método de imputación. Pero tienes razón, siendo rigurosos se debería haber hecho escalamiento.
Y con respecto a tu segunda pregunta: sí, si el set de datos está desbalanceado el modelo puede tener sesgos al momento de generar las predicciones.
Un saludo!
@FernandoLopez-vc2ld 10 місяців тому
@@codificandobits muchas gracias.
@diegofonseca7457 10 місяців тому
Resumen del video:
1) Si las filas totales de los datos con valores NaN son menor a un 3%, es mejor eliminar la fila problematica.
2) Se elimina la columna problemática sinson pocos datos como en el caso de las filas y además la columna no es relevante para el estudio.
3) Se imputan los datos cuando los valores NaN se mantienen entre un 3% y un 5%.
4) Se aplica Machine learning para imputar datos cuando estos sean entre un 5% y un 12%.
5) Si los valores NaN superan aproximadamente un 12% de los datos totales, puede ser mejor pedir más datos en caso que los hubiese.
@codificandobits 10 місяців тому
Hola Diego, gracias por tu resumen!
Aunque yo no sesgaría el uso de uno u otro método a un porcentaje de datos faltantes. Creo que más bien lo que hay que mirar son las características de nuestro set de datos, el problema que queremos resolver y los pros y los contras de cada método (los cuales menciono en el video) y con base en esto tomar la decisión más adecuada. Un saludo!
@diegofonseca7457 10 місяців тому
@@codificandobits entendido, lo dije como una referencia de que mirar en base a la cantidad de datos nulos, ya que si por ejemplo un 30% de los datos son NaN no creo que el metodo de Machine Learning sea muy preciso, más bien deberían pedir más datos, justamente para evitar hacer una imputación sesgada
@codificandobits 10 місяців тому
@@diegofonseca7457 tienes toda la razón, de acuerdo!

Наступне

Автоматичне відтворення

Tutorial: La REPRODUCIBILIDAD en el Machine Learning