Detección de Datos Anómalos (outliers) con Bosques de Aislamiento (iForests) y Python

Поділитися
Вставка
  • Опубліковано 16 вер 2024

КОМЕНТАРІ • 31

  • @CodigoMaquina
    @CodigoMaquina  2 роки тому

    ⭐ De la co-fundadora de Código Máquina, productos de cosmética natural SINHAKI:
    www.amazon.com.mx/stores/sinHaki/page/1BD34FBC-C0F9-44F5-AC69-520634334C61?ref_=ast_bln

  • @ricardollanos2472
    @ricardollanos2472 2 роки тому +7

    Sin dudar, tu contenido es invaluable. Muchas gracias por compartirlo

    • @CodigoMaquina
      @CodigoMaquina  2 роки тому

      Gracias por darle valor al canal. Es una gran motivación :)

  • @fabiomorales5754
    @fabiomorales5754 2 роки тому +4

    Octavio, muchas gracias. He aprendido mucho y afianzado conocimientos. Tus videos son excelentes!

    • @CodigoMaquina
      @CodigoMaquina  2 роки тому

      Te agradezco mucho tus comentarios. Este proyecto personal ha sido muy gratificante gracias a personas como tú :)

  • @oliverrojasconde9144
    @oliverrojasconde9144 2 роки тому +2

    Excelentes videos, muy bien explicado todo, muchas gracias!!!!!!

    • @CodigoMaquina
      @CodigoMaquina  2 роки тому

      Muchas gracias por tus comentarios y por ver el canal :)

  • @mejia414
    @mejia414 2 роки тому +2

    Gracias señor sus explicaciones y dedicación me han ayudado mucho

    • @CodigoMaquina
      @CodigoMaquina  2 роки тому

      Estoy muy contento de leer que han sido de utilidad los videos. Muchas gracias por seguir el canal e interactuar :)

  • @cesaraugustoperez1814
    @cesaraugustoperez1814 2 роки тому +2

    Excelente explicación!

    • @CodigoMaquina
      @CodigoMaquina  2 роки тому

      Muchas gracias por comentar en el canal :)

  • @rockophill3934
    @rockophill3934 Рік тому +1

    En efecto Maestro Octavio, Gran tema complementario de outliers, bien detallado. se le agradece la enseñanza que con maestría compartes. Thanks!👌

  • @Gustavo-rb6df
    @Gustavo-rb6df Рік тому +1

    Gran vídeo, amigo. Eres un crack!!!

    • @CodigoMaquina
      @CodigoMaquina  Рік тому +1

      Muchas gracias por todo el apoyo. Saludos!! 😊

  • @msaretto
    @msaretto 2 роки тому +2

    👍

  • @miguelsantiago5209
    @miguelsantiago5209 6 місяців тому

    Excelente video. Una pregunta ¿Cómo puedo calcular el porcentaje de contaminación en un dataset con muchas filas?

  • @jrobledo25
    @jrobledo25 2 роки тому +2

    Por favor un vídeo para utilizar técnicas de muestreo aleatorio para tratar con clases desbalanceadas 🙇🏻‍♂️

    • @CodigoMaquina
      @CodigoMaquina  2 роки тому +1

      Gracias por la sugerencia. Ya tengo en la mira un video justo con ese tema. De hecho, ya tenemos un video sobre clases desbalanceadas, pero asignando pesos a los errores de clasificación. Aquí va el link en caso de que desees verlo ua-cam.com/video/2FbugqoBz94/v-deo.html

    • @jrobledo25
      @jrobledo25 2 роки тому +1

      @@CodigoMaquina Sí fue muy bueno, aunque estoy en búsqueda de uno donde se usen técnicas de remuestreo aleatorio durante el momento de preprocesamiento, sin embargo ¡Muchas gracias por tu contenido!

  • @omarlora3591
    @omarlora3591 5 місяців тому

    buenos días y gracias por el ejemplo, me esta dando un error: The 'contamination' parameter of IsolationForest must be a str among {'auto'} or a float in the range (0, 0.5]. Got 0.0 instead. el error es en la línea 12

  • @HPenarandaBello
    @HPenarandaBello Рік тому +1

    Hola. Buen vídeo. ¿Cómo eliminar los registros que tienen datos atípicos? ¿Existe alguna librería?

    • @CodigoMaquina
      @CodigoMaquina  Рік тому +1

      Hola @HPenarandaBello gracias por la pregunta. Todo depende del contexto, pero aquí va un par de formas: 1) Usando un escalador robusto (favor de ver el siguiente video ua-cam.com/video/-VuR14Qyl7E/v-deo.html) 2) o aplicando filtros (favor de ver el siguiente video ua-cam.com/video/U-7Q-koi-Cc/v-deo.html). De hecho, con filtros se podría definir un valor por defecto que reemplace a los datos atípicos de la siguiente manera:
      import numpy as np
      datos = np.array([10, 11, 12, 1000])
      datos[datos>999] = 13

    • @HPenarandaBello
      @HPenarandaBello Рік тому +1

      @@CodigoMaquina Muchas gracias.

  • @AlexRodriguez-go5pf
    @AlexRodriguez-go5pf 2 роки тому +1

    Buen video! Una consulta, si tengo una columna con valores de 0% a 100%, pero hay outliers que exceden este rango, crees que deba reemplazarlos por NaN y luego imputarlos para no perder información?

    • @CodigoMaquina
      @CodigoMaquina  2 роки тому

      Gracias por tu comentario y por la pregunta. Desde mi punto de vista, en ese contexto, valores superiores al 100% no serían outliers sino datos inconsistentes. Si tienes muchos datos, podrías simplemente eliminar esos registros debido a las inconsistencias o ciertamente tratarlos como valores faltantes. La forma de saber que procedimiento podría ser mejor es a través de la experimentación. Espero mis comentarios sean de utilidad :)

  • @JulioTechIA
    @JulioTechIA Рік тому +1

    Excelente explicación Octavio!! Solo te consulto: En mi Python me dio error cuando intenta usar 0.00 de contaminación, no me permitió, tuve que cambiar la línea a esto: c = [0.01, 0.05, 0.1]. A qué podría deberse?

    • @CodigoMaquina
      @CodigoMaquina  Рік тому +1

      Muchas gracias por tus comentarios y por la pregunta. El error que comentas podría deberse a cuestiones de versiones de la librería. Tal vez en una nueva versión están validando que incluyas valores de contaminación mayores a cero. De hecho, los niveles de contaminación solo tienen sentido si son mayores a cero. En mi caso utilice un valor de contaminación de cero para generar código compacto que me permitiera explicar los conceptos y visualizar los datos utilizando la menor cantidad de líneas de código. No obstante, en un análisis de datos anómalos sólo se utilizarían valores mayores a cero.

    • @JulioTechIA
      @JulioTechIA Рік тому +1

      @@CodigoMaquina Muchísimas gracias por responder!!

  • @midnightshadow987
    @midnightshadow987 2 роки тому +3

    Vine buscando cobre y encontré oro

    • @CodigoMaquina
      @CodigoMaquina  2 роки тому

      Muchas gracias por comentar y por seguir el contenido del canal :)