Preprocesamiento de Datos en R: Detección de Outliers

Поділитися
Вставка
  • Опубліковано 18 вер 2024

КОМЕНТАРІ • 65

  • @RocioChavezCienciadeDatos
    @RocioChavezCienciadeDatos  3 місяці тому

    Nota importante: La decisión de seguir buscando y eliminando outliers en la misma variable después de una primera ronda de eliminación depende del contexto y de los objetivos de tu análisis.

  • @antt5602
    @antt5602 Рік тому +1

    Rocio Chavez ¡Muchas gracias por compartir tu conocimiento! Realicé el procedimiento con mi data...

  • @AngelGlezChannel
    @AngelGlezChannel 3 роки тому +2

    Muchísimas gracias por darse el tiempo de enseñar vía este medio, la quiero mucho

  • @Glock_50
    @Glock_50 2 роки тому

    llevaba horas buscando una explicacion tan sencilla, muchas gracias

  • @mauriciojoserozas9964
    @mauriciojoserozas9964 4 роки тому

    Hola buenas! Muy buenos videos, me han ayudado mucho y estoy muy agradecido contigo Rocio. Traté de desarrollar un pequeño codigo que permita resumir la iteración, lo adjunto a continuación:
    a

  • @josed.gonzalez1524
    @josed.gonzalez1524 2 роки тому

    Excelente explicacion, clarisima.

  • @edwinulisesx
    @edwinulisesx 2 роки тому

    excelente video, me sirvió mucho

  • @forredvelvet8940
    @forredvelvet8940 2 роки тому

    Muchísimas gracias, este video me ayudo bastante!!!

  • @RocioChavezCienciadeDatos
    @RocioChavezCienciadeDatos  2 роки тому +2

    Si te fue de utilidad este video y deseas ayudarme a seguir creando contenido, puedes hacerlo de varias formas:
    - Dando clic en "Me gusta" para incrementar la probabilidad de que el algoritmo de UA-cam promueva mi contenido
    - Dejándome un comentario
    - Suscribiéndote a mi canal
    - Compartiendo mi canal en tus redes sociales
    - Presionando el ícono "Gracias" y haciendo una donación

  • @oscarsantiagolariosramirez7065
    @oscarsantiagolariosramirez7065 3 роки тому +1

    Buen día, una consulta para eliminar los datos atípicos rios_SA

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  3 роки тому

      Hola Oscar! Si gustas envíame una captura de pantalla a rociochavezmx@yahoo.com en donde se muestre el código que utilizaste unas dos lineas antes y el error que te está marcando

    • @oscarsantiagolariosramirez7065
      @oscarsantiagolariosramirez7065 3 роки тому

      @@RocioChavezCienciadeDatos buenas noches, ya lo solucione gracias :)

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  3 роки тому

      Me alegra que ya lo hayas podido solucionar Oscar ;)

    • @katucalalangui6358
      @katucalalangui6358 3 роки тому

      Disculpa a mi me sale lo mismo como lo solucionaste amigo 😓

  • @aldoyactayo05
    @aldoyactayo05 3 роки тому +1

    Hola Rocio, cómo estas? una consulta en el caso que yo tenga varias columnas o variables y realice la deteccion de outliers en cada una. Cada columna tendra su propia cantidad de outliers, y al quitarlos cada columna se quedara con diferentes observaciones (filas). He tratado de hacer un data.frame para utilizar las columnas sin outliers para trabajar otras pruebas pero me sale error porque no encaja. Que podria ahcer para formar una nueva tabla de datos sin outliers y los pueda usar de nuevo para hacer otras pruebas? Muchas gracias!

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  3 роки тому +1

      Hola Aldo! Cuando detectas un outlier, lo que necesitas hacer es una de dos cosas. borrar el valor de la celda y que quede como si fuera un "Not Available" en la columna o bien quitar toda la fila. Espero haber sido clara en la explicación :)

    • @aldoyactayo05
      @aldoyactayo05 3 роки тому

      @@RocioChavezCienciadeDatos muchas gracias! entonces voy a reemplazar cada uno de los outliers por un NA.

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  3 роки тому +1

      @@aldoyactayo05 Muy bien!

    • @aldoyactayo05
      @aldoyactayo05 3 роки тому

      @@RocioChavezCienciadeDatos , te deje otra pequeña consulta en "Análisis exploratorio con ACP en R".Nuevamente muchas gracias!

  • @oscarsantiagolariosramirez7065
    @oscarsantiagolariosramirez7065 3 роки тому

    Buenas noches, como puedo hacer cuando las datas las reconoce con formato de MINITAB
    setwd("J:/año 2021/Ejemplo1/procesamiento datos/Datas/Niveles de contaminacion.csv")

  • @EducacionDigitalHoy
    @EducacionDigitalHoy 3 роки тому

    Hola Rocio, tengo una consulta acerca si seria aconsejable reemplazar los outliers para aplicarlo en un modelo ARIMA o simplemente dejarlo como esta para posteriormente ajustarlo al modelo.
    saludos

  • @helloWorldPlus
    @helloWorldPlus 4 роки тому

    Hola! porque consideraste solo aquellos por debajo de 1240 y no aquellos menores o iguales de 1205, no debería considerarse en función al percentil 75 según el boxplot? Ahora que se haría en caso no se quiera simplemente eliminar outliers. Yo tengo un dataset sin target pero no puedo discretizar usando árboles Chaid por la falta de target y solo tengo en mente 2 posibilidades que son aplicarle logarítmo o discretizar con los percentiles, se te ocurre algo más? Saludos

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому

      Hola! Los outliers se consideran cuando stán fuera de los bigotes del boxplot. Si no quieres eliminar los outliers, necesitas utilizar algoritmos que no se vean afectados por éstos para analizar tus datos, dependiendo del tipo de analisis que quieras hacer, deberás investigar cuales algoritmos o se verán afectados por los outliers
      En cuanto a la pregunta acerca de la discretización, no tengo idea :(

  • @camilazufriategui5149
    @camilazufriategui5149 Рік тому

    Hola! Cómo hago para hacer esto mismo pero en el caso de que yo tengo un factor con 4 niveles? Es decir quisiera calcular los outliers para cada uno de los niveles o tratamientos. Muchas gracias

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Рік тому

      Hola Camila! Puedes convertir tus variables a numéricas o a tipo dummy. En mi canal encontrarás videos al respecto ;)

  • @PrototypePaolo
    @PrototypePaolo 4 місяці тому

    Hola una pregunta, si en vez de eliminar los outliers los quiero reemplazar con algun valor como la media o mediana, cómo se haría?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 місяці тому +1

      Hola! En este video puedes encontrar información acerca del reemplazo de valores perdidos: ua-cam.com/video/4a4T7A5Kv7M/v-deo.html

  • @aldoyactayo05
    @aldoyactayo05 4 роки тому +1

    Hola Rocío, logré detectar los outliers, una consulta, en mi caso las filas tienen nombres, cómo podría saber cuáles filas son outliers? Muchas gracias =)

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому +1

      Hola Aldo, se me ocurre que podrías llevar a cabo los pasos que vienen en el video Filtros en R ua-cam.com/video/9y6Q4hUqeBM/v-deo.html para que obtengas solo las filas que tienen los outliers y así puedas saber cuales individuos los tienen. Espero que te sea de utilidad esta información ;)

    • @aldoyactayo05
      @aldoyactayo05 4 роки тому +1

      @@RocioChavezCienciadeDatos Muchas gracias Rocío! Lo reviso en este momento! =)

  • @edwinulisesx
    @edwinulisesx 2 роки тому

    una pregunta, por que los no outliers serian los menores a 1240?

  • @GAR-wj5fb
    @GAR-wj5fb 2 роки тому

    hola rocio gracias por lo videos, outliers cuando se elimina se reduce numero de filas , yo no quiero que se redusca solo quiero reemplazar con el valor NA como se aria el codigo, espero su respuesta gracias

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  2 роки тому

      Hola! La información contenida en esta página podría serte de utilidad: stackoverflow.com/questions/54993511/how-to-replace-outliers-with-na-in-r-from-vector-created-with-boxplotout

  • @felisacruzpichardo6593
    @felisacruzpichardo6593 2 роки тому

    Gracias por la explicación, pero por qué no logro correr ninguno de los scripts, no se si no estoy bajando bien los archivos o mi versión de R es diferente, bajé la última versión een enero 2022

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  2 роки тому +1

      Hola Felisa! Necesitaría revisar qué está pasando. Si todavía te da problema el código, si gustas envíame un correo a rociochavezmx@yahoo.com

  • @electron_ald5333
    @electron_ald5333 4 роки тому +1

    hola, quisiera saber donde puedo conseguir más datos para trabajar en R, o de donde los obtienes.

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому +4

      Aunque ya te contesté por el correo, pongo aquí el link de las bases de datos que usualmente se utilizan en machine learning, por si alguien mas tiene la misma duda: archive.ics.uci.edu/ml/index.php Saludos ;)

  • @luisdavid1212
    @luisdavid1212 4 роки тому

    Hola Rocío. En caso de querés contemplar estos outliers en nuestro análisis recomiendas los reemplazos con la media o la mediana??
    En caso contrario que harías?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому +1

      Hola Luis David! Entre la media y la mediana, yo me inclinaría por la media. Sin embargo, existe otro método que considero aún mejor, que es el de los K-Vecinos.
      En el canal tengo otro video llamado "Preprocesamiento de Datos en R: Algunas Técnicas de reemplazo de valores perdidos" y allí incluyo éste método. Espero que te sea de utilidad :)

    • @luisdavid1212
      @luisdavid1212 4 роки тому

      @@RocioChavezCienciadeDatos hola Rocío muchas gracias por tu respuesta. Veo que el vídeo que me mencionas aplica para cuando tenemos datos faltantes. De esta misma manera podemos tratar a los outliers. Tengo una muestra de 2.5 M que al percentil 99 el valor máximo es 37 y en el último percentil contiene valores hasta 50000, es correcto hacer un reemplazo o sustitución de esto valores o es mejor trabajarlos cómo están?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому

      @@luisdavid1212 Si tu base de datos tiene más columnas con valores que no contengan outliers en las filas con outliers, yo lo que haría sería quitar los outliers y reemplazarlos. De esta manera podrías aprovechar los valores de las demás columnas para tu análisis. De lo contrario, yo qiitaría las filas completas con outliers y las analizaría por separado, ya que estas podrían darte información valiosa.

  • @wazudrakon
    @wazudrakon 4 роки тому

    Hola, son muy útiles tus videos, gracias :). Tengo una duda, cada vez que se modifica el dataframe se guarda como uno nuevo??? Mi pregunta va porque al arreglar los outliers de una segunda variable me modifica la primera ya arreglada, pero reescribo el mismo dataframe

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому

      Muchas gracias por tus palabras Diego! Me podrías enviar el código que estás utilizando a rociochavezmx@yahoo.com para ver que es lo que está pasando y poder contestar tu duda, por favor?

  • @harpya6707
    @harpya6707 3 роки тому

    Buenos días Rocio, tengo una base de datos con las siguientes columnas (Lote, Parcela, No de individuo, Peso, Talla), en excel sé cómo identificar los individuos repetidos (varios individuos con un mismo número en la misma parcela) o faltantes (ausencia de uno o varios individuos en la misma parcela), sin embargo en R no he logrado realizar lo mismo, alguna idea?, muchas gracias

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  3 роки тому

      Hola! Puedes ver el video acerca de los valores duplicados, a ver si te es de ayuda, por favor? ua-cam.com/video/AkiL1mCNrMM/v-deo.html&ab_channel=RocioChavezCienciadeDatos

  • @jortigasperu
    @jortigasperu Рік тому

    hola rocio, y en el caso multivariante como se puede chequear?, gracias

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Рік тому +1

      Hola! Podrías ir aplicando la detección de outliers en cada variable utilizando un ciclo for o bien aplicar otras técnicas como el clustering. Estoy por crear un video también de detección de outliers utilizando la distancia de Mahalanobis, espero poder subirlo en unas semanas más

    • @jortigasperu
      @jortigasperu Рік тому +1

      @@RocioChavezCienciadeDatos si fuese individual seria con un diagrama de cajas, pero me da curiosidad multivariante.. slds

  • @adventureaf9549
    @adventureaf9549 4 роки тому

    Hola buena noche, soy estudiante de ingenieria agroecologica , apenas estoy entendiendo el mundo de la estadistica , cuando utilizas tu package "rivers" en mi caso no manejo ese tipo de datos, que podria utilizar? para poder hacer la función de "rios_sin_out"

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому

      Hola! El archivo acerca de las longitudes de los rios esta en el link que viene en la descripción. Puedes utilizar ese, es de tipo csv

    • @adventureaf9549
      @adventureaf9549 4 роки тому

      @@RocioChavezCienciadeDatos disculpa mi ignorancia, puedo usar ese mismo paquete para trabajar con datos de suelos ? Variables físico químicas del suelo? Básicamente es como mi pregunta

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому

      @@adventureaf9549 rivers solamente contiene la información que te comento, no lo podrias usar para obtener variables fisico quimicas de suelos

    • @adventureaf9549
      @adventureaf9549 4 роки тому

      @@RocioChavezCienciadeDatos esa era mi duda, sino que pues me estaba guiando con tu ejemplo y cuando llegué a esa parte pues ahí quedé , entonces tendría que buscar alguna base de datos que contenga esas características del suelo para la zona en la que lo evalúe?

    • @adventureaf9549
      @adventureaf9549 4 роки тому

      @@RocioChavezCienciadeDatos lo otro es que estoy haciendo un EDA a mi base de datos ,pero pues quisiera identificar correctamente los outliers

  • @RocioChavezCienciadeDatos
    @RocioChavezCienciadeDatos  4 роки тому

    Para llevar a cabo el pre-procesamiento de tus datos y poder obtener
    información confiable en tus análisis, visita mi lista de reproducción
    llamada Pre-procesamiento de Datos en R
    ua-cam.com/play/PLUofJx5RUeFqGJJxKflkhDRTot29M7CYj.html

  • @pinguino13
    @pinguino13 4 роки тому

    Hola, como se pueden pasar datos de un excel a R, son alrededor de 6millones de datos

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому +1

      Hola Ignacio, necesitarías librerías para big data

    • @pinguino13
      @pinguino13 4 роки тому

      @@RocioChavezCienciadeDatos sería pasar este archivo excel a big data y luego a R para analizar?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому

      @@pinguino13 tal vez lo puedas leer normalmente en R, pero para hacer los análisis necesitarías librerías como una llamada snow, que te ayuda a realizar los cálculos en paralelo

    • @pinguino13
      @pinguino13 4 роки тому

      @@RocioChavezCienciadeDatos muchas gracias, investigaré al respecto, una consulta, este analisis de eliminar los outliers se puede hacer independiente de la distribucion que presenten los datos? Me gustaría escribirte un mail

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому

      @@pinguino13 adelante. Mi correo es rociochavezmx@yahoo.com

  • @RocioChavezCienciadeDatos
    @RocioChavezCienciadeDatos  Рік тому +1

    Obtén los scripts, archivos y diapositivas que se muestran en mis videos en: www.patreon.com/rociochavezcienciadedatos