⭐ De la co-fundadora de Código Máquina, productos de cosmética natural SINHAKI: www.amazon.com.mx/stores/sinHaki/page/1BD34FBC-C0F9-44F5-AC69-520634334C61?ref_=ast_bln
Gracias por la sugerencia. Ya tengo en la mira un video justo con ese tema. De hecho, ya tenemos un video sobre clases desbalanceadas, pero asignando pesos a los errores de clasificación. Aquí va el link en caso de que desees verlo ua-cam.com/video/2FbugqoBz94/v-deo.html
@@CodigoMaquina Sí fue muy bueno, aunque estoy en búsqueda de uno donde se usen técnicas de remuestreo aleatorio durante el momento de preprocesamiento, sin embargo ¡Muchas gracias por tu contenido!
buenos días y gracias por el ejemplo, me esta dando un error: The 'contamination' parameter of IsolationForest must be a str among {'auto'} or a float in the range (0, 0.5]. Got 0.0 instead. el error es en la línea 12
Hola @HPenarandaBello gracias por la pregunta. Todo depende del contexto, pero aquí va un par de formas: 1) Usando un escalador robusto (favor de ver el siguiente video ua-cam.com/video/-VuR14Qyl7E/v-deo.html) 2) o aplicando filtros (favor de ver el siguiente video ua-cam.com/video/U-7Q-koi-Cc/v-deo.html). De hecho, con filtros se podría definir un valor por defecto que reemplace a los datos atípicos de la siguiente manera: import numpy as np datos = np.array([10, 11, 12, 1000]) datos[datos>999] = 13
Buen video! Una consulta, si tengo una columna con valores de 0% a 100%, pero hay outliers que exceden este rango, crees que deba reemplazarlos por NaN y luego imputarlos para no perder información?
Gracias por tu comentario y por la pregunta. Desde mi punto de vista, en ese contexto, valores superiores al 100% no serían outliers sino datos inconsistentes. Si tienes muchos datos, podrías simplemente eliminar esos registros debido a las inconsistencias o ciertamente tratarlos como valores faltantes. La forma de saber que procedimiento podría ser mejor es a través de la experimentación. Espero mis comentarios sean de utilidad :)
Excelente explicación Octavio!! Solo te consulto: En mi Python me dio error cuando intenta usar 0.00 de contaminación, no me permitió, tuve que cambiar la línea a esto: c = [0.01, 0.05, 0.1]. A qué podría deberse?
Muchas gracias por tus comentarios y por la pregunta. El error que comentas podría deberse a cuestiones de versiones de la librería. Tal vez en una nueva versión están validando que incluyas valores de contaminación mayores a cero. De hecho, los niveles de contaminación solo tienen sentido si son mayores a cero. En mi caso utilice un valor de contaminación de cero para generar código compacto que me permitiera explicar los conceptos y visualizar los datos utilizando la menor cantidad de líneas de código. No obstante, en un análisis de datos anómalos sólo se utilizarían valores mayores a cero.
⭐ De la co-fundadora de Código Máquina, productos de cosmética natural SINHAKI:
www.amazon.com.mx/stores/sinHaki/page/1BD34FBC-C0F9-44F5-AC69-520634334C61?ref_=ast_bln
Sin dudar, tu contenido es invaluable. Muchas gracias por compartirlo
Gracias por darle valor al canal. Es una gran motivación :)
Octavio, muchas gracias. He aprendido mucho y afianzado conocimientos. Tus videos son excelentes!
Te agradezco mucho tus comentarios. Este proyecto personal ha sido muy gratificante gracias a personas como tú :)
Excelentes videos, muy bien explicado todo, muchas gracias!!!!!!
Muchas gracias por tus comentarios y por ver el canal :)
Gracias señor sus explicaciones y dedicación me han ayudado mucho
Estoy muy contento de leer que han sido de utilidad los videos. Muchas gracias por seguir el canal e interactuar :)
Excelente explicación!
Muchas gracias por comentar en el canal :)
En efecto Maestro Octavio, Gran tema complementario de outliers, bien detallado. se le agradece la enseñanza que con maestría compartes. Thanks!👌
Gracias Rocko!!!
Gran vídeo, amigo. Eres un crack!!!
Muchas gracias por todo el apoyo. Saludos!! 😊
👍
Excelente video. Una pregunta ¿Cómo puedo calcular el porcentaje de contaminación en un dataset con muchas filas?
Por favor un vídeo para utilizar técnicas de muestreo aleatorio para tratar con clases desbalanceadas 🙇🏻♂️
Gracias por la sugerencia. Ya tengo en la mira un video justo con ese tema. De hecho, ya tenemos un video sobre clases desbalanceadas, pero asignando pesos a los errores de clasificación. Aquí va el link en caso de que desees verlo ua-cam.com/video/2FbugqoBz94/v-deo.html
@@CodigoMaquina Sí fue muy bueno, aunque estoy en búsqueda de uno donde se usen técnicas de remuestreo aleatorio durante el momento de preprocesamiento, sin embargo ¡Muchas gracias por tu contenido!
buenos días y gracias por el ejemplo, me esta dando un error: The 'contamination' parameter of IsolationForest must be a str among {'auto'} or a float in the range (0, 0.5]. Got 0.0 instead. el error es en la línea 12
Hola. Buen vídeo. ¿Cómo eliminar los registros que tienen datos atípicos? ¿Existe alguna librería?
Hola @HPenarandaBello gracias por la pregunta. Todo depende del contexto, pero aquí va un par de formas: 1) Usando un escalador robusto (favor de ver el siguiente video ua-cam.com/video/-VuR14Qyl7E/v-deo.html) 2) o aplicando filtros (favor de ver el siguiente video ua-cam.com/video/U-7Q-koi-Cc/v-deo.html). De hecho, con filtros se podría definir un valor por defecto que reemplace a los datos atípicos de la siguiente manera:
import numpy as np
datos = np.array([10, 11, 12, 1000])
datos[datos>999] = 13
@@CodigoMaquina Muchas gracias.
Buen video! Una consulta, si tengo una columna con valores de 0% a 100%, pero hay outliers que exceden este rango, crees que deba reemplazarlos por NaN y luego imputarlos para no perder información?
Gracias por tu comentario y por la pregunta. Desde mi punto de vista, en ese contexto, valores superiores al 100% no serían outliers sino datos inconsistentes. Si tienes muchos datos, podrías simplemente eliminar esos registros debido a las inconsistencias o ciertamente tratarlos como valores faltantes. La forma de saber que procedimiento podría ser mejor es a través de la experimentación. Espero mis comentarios sean de utilidad :)
Excelente explicación Octavio!! Solo te consulto: En mi Python me dio error cuando intenta usar 0.00 de contaminación, no me permitió, tuve que cambiar la línea a esto: c = [0.01, 0.05, 0.1]. A qué podría deberse?
Muchas gracias por tus comentarios y por la pregunta. El error que comentas podría deberse a cuestiones de versiones de la librería. Tal vez en una nueva versión están validando que incluyas valores de contaminación mayores a cero. De hecho, los niveles de contaminación solo tienen sentido si son mayores a cero. En mi caso utilice un valor de contaminación de cero para generar código compacto que me permitiera explicar los conceptos y visualizar los datos utilizando la menor cantidad de líneas de código. No obstante, en un análisis de datos anómalos sólo se utilizarían valores mayores a cero.
@@CodigoMaquina Muchísimas gracias por responder!!
Vine buscando cobre y encontré oro
Muchas gracias por comentar y por seguir el contenido del canal :)