Nota importante: La decisión de seguir buscando y eliminando outliers en la misma variable después de una primera ronda de eliminación depende del contexto y de los objetivos de tu análisis.
Hola buenas! Muy buenos videos, me han ayudado mucho y estoy muy agradecido contigo Rocio. Traté de desarrollar un pequeño codigo que permita resumir la iteración, lo adjunto a continuación: a
Si te fue de utilidad este video y deseas ayudarme a seguir creando contenido, puedes hacerlo de varias formas: - Dando clic en "Me gusta" para incrementar la probabilidad de que el algoritmo de UA-cam promueva mi contenido - Dejándome un comentario - Suscribiéndote a mi canal - Compartiendo mi canal en tus redes sociales - Presionando el ícono "Gracias" y haciendo una donación
Hola Oscar! Si gustas envíame una captura de pantalla a rociochavezmx@yahoo.com en donde se muestre el código que utilizaste unas dos lineas antes y el error que te está marcando
Hola Rocio, cómo estas? una consulta en el caso que yo tenga varias columnas o variables y realice la deteccion de outliers en cada una. Cada columna tendra su propia cantidad de outliers, y al quitarlos cada columna se quedara con diferentes observaciones (filas). He tratado de hacer un data.frame para utilizar las columnas sin outliers para trabajar otras pruebas pero me sale error porque no encaja. Que podria ahcer para formar una nueva tabla de datos sin outliers y los pueda usar de nuevo para hacer otras pruebas? Muchas gracias!
Hola Aldo! Cuando detectas un outlier, lo que necesitas hacer es una de dos cosas. borrar el valor de la celda y que quede como si fuera un "Not Available" en la columna o bien quitar toda la fila. Espero haber sido clara en la explicación :)
Buenas noches, como puedo hacer cuando las datas las reconoce con formato de MINITAB setwd("J:/año 2021/Ejemplo1/procesamiento datos/Datas/Niveles de contaminacion.csv")
Hola Rocio, tengo una consulta acerca si seria aconsejable reemplazar los outliers para aplicarlo en un modelo ARIMA o simplemente dejarlo como esta para posteriormente ajustarlo al modelo. saludos
Hola! porque consideraste solo aquellos por debajo de 1240 y no aquellos menores o iguales de 1205, no debería considerarse en función al percentil 75 según el boxplot? Ahora que se haría en caso no se quiera simplemente eliminar outliers. Yo tengo un dataset sin target pero no puedo discretizar usando árboles Chaid por la falta de target y solo tengo en mente 2 posibilidades que son aplicarle logarítmo o discretizar con los percentiles, se te ocurre algo más? Saludos
Hola! Los outliers se consideran cuando stán fuera de los bigotes del boxplot. Si no quieres eliminar los outliers, necesitas utilizar algoritmos que no se vean afectados por éstos para analizar tus datos, dependiendo del tipo de analisis que quieras hacer, deberás investigar cuales algoritmos o se verán afectados por los outliers En cuanto a la pregunta acerca de la discretización, no tengo idea :(
Hola! Cómo hago para hacer esto mismo pero en el caso de que yo tengo un factor con 4 niveles? Es decir quisiera calcular los outliers para cada uno de los niveles o tratamientos. Muchas gracias
Hola Rocío, logré detectar los outliers, una consulta, en mi caso las filas tienen nombres, cómo podría saber cuáles filas son outliers? Muchas gracias =)
Hola Aldo, se me ocurre que podrías llevar a cabo los pasos que vienen en el video Filtros en R ua-cam.com/video/9y6Q4hUqeBM/v-deo.html para que obtengas solo las filas que tienen los outliers y así puedas saber cuales individuos los tienen. Espero que te sea de utilidad esta información ;)
hola rocio gracias por lo videos, outliers cuando se elimina se reduce numero de filas , yo no quiero que se redusca solo quiero reemplazar con el valor NA como se aria el codigo, espero su respuesta gracias
Hola! La información contenida en esta página podría serte de utilidad: stackoverflow.com/questions/54993511/how-to-replace-outliers-with-na-in-r-from-vector-created-with-boxplotout
Gracias por la explicación, pero por qué no logro correr ninguno de los scripts, no se si no estoy bajando bien los archivos o mi versión de R es diferente, bajé la última versión een enero 2022
Aunque ya te contesté por el correo, pongo aquí el link de las bases de datos que usualmente se utilizan en machine learning, por si alguien mas tiene la misma duda: archive.ics.uci.edu/ml/index.php Saludos ;)
Hola Rocío. En caso de querés contemplar estos outliers en nuestro análisis recomiendas los reemplazos con la media o la mediana?? En caso contrario que harías?
Hola Luis David! Entre la media y la mediana, yo me inclinaría por la media. Sin embargo, existe otro método que considero aún mejor, que es el de los K-Vecinos. En el canal tengo otro video llamado "Preprocesamiento de Datos en R: Algunas Técnicas de reemplazo de valores perdidos" y allí incluyo éste método. Espero que te sea de utilidad :)
@@RocioChavezCienciadeDatos hola Rocío muchas gracias por tu respuesta. Veo que el vídeo que me mencionas aplica para cuando tenemos datos faltantes. De esta misma manera podemos tratar a los outliers. Tengo una muestra de 2.5 M que al percentil 99 el valor máximo es 37 y en el último percentil contiene valores hasta 50000, es correcto hacer un reemplazo o sustitución de esto valores o es mejor trabajarlos cómo están?
@@luisdavid1212 Si tu base de datos tiene más columnas con valores que no contengan outliers en las filas con outliers, yo lo que haría sería quitar los outliers y reemplazarlos. De esta manera podrías aprovechar los valores de las demás columnas para tu análisis. De lo contrario, yo qiitaría las filas completas con outliers y las analizaría por separado, ya que estas podrían darte información valiosa.
Hola, son muy útiles tus videos, gracias :). Tengo una duda, cada vez que se modifica el dataframe se guarda como uno nuevo??? Mi pregunta va porque al arreglar los outliers de una segunda variable me modifica la primera ya arreglada, pero reescribo el mismo dataframe
Muchas gracias por tus palabras Diego! Me podrías enviar el código que estás utilizando a rociochavezmx@yahoo.com para ver que es lo que está pasando y poder contestar tu duda, por favor?
Buenos días Rocio, tengo una base de datos con las siguientes columnas (Lote, Parcela, No de individuo, Peso, Talla), en excel sé cómo identificar los individuos repetidos (varios individuos con un mismo número en la misma parcela) o faltantes (ausencia de uno o varios individuos en la misma parcela), sin embargo en R no he logrado realizar lo mismo, alguna idea?, muchas gracias
Hola! Puedes ver el video acerca de los valores duplicados, a ver si te es de ayuda, por favor? ua-cam.com/video/AkiL1mCNrMM/v-deo.html&ab_channel=RocioChavezCienciadeDatos
Hola! Podrías ir aplicando la detección de outliers en cada variable utilizando un ciclo for o bien aplicar otras técnicas como el clustering. Estoy por crear un video también de detección de outliers utilizando la distancia de Mahalanobis, espero poder subirlo en unas semanas más
Hola buena noche, soy estudiante de ingenieria agroecologica , apenas estoy entendiendo el mundo de la estadistica , cuando utilizas tu package "rivers" en mi caso no manejo ese tipo de datos, que podria utilizar? para poder hacer la función de "rios_sin_out"
@@RocioChavezCienciadeDatos disculpa mi ignorancia, puedo usar ese mismo paquete para trabajar con datos de suelos ? Variables físico químicas del suelo? Básicamente es como mi pregunta
@@RocioChavezCienciadeDatos esa era mi duda, sino que pues me estaba guiando con tu ejemplo y cuando llegué a esa parte pues ahí quedé , entonces tendría que buscar alguna base de datos que contenga esas características del suelo para la zona en la que lo evalúe?
Para llevar a cabo el pre-procesamiento de tus datos y poder obtener información confiable en tus análisis, visita mi lista de reproducción llamada Pre-procesamiento de Datos en R ua-cam.com/play/PLUofJx5RUeFqGJJxKflkhDRTot29M7CYj.html
@@pinguino13 tal vez lo puedas leer normalmente en R, pero para hacer los análisis necesitarías librerías como una llamada snow, que te ayuda a realizar los cálculos en paralelo
@@RocioChavezCienciadeDatos muchas gracias, investigaré al respecto, una consulta, este analisis de eliminar los outliers se puede hacer independiente de la distribucion que presenten los datos? Me gustaría escribirte un mail
Nota importante: La decisión de seguir buscando y eliminando outliers en la misma variable después de una primera ronda de eliminación depende del contexto y de los objetivos de tu análisis.
Rocio Chavez ¡Muchas gracias por compartir tu conocimiento! Realicé el procedimiento con mi data...
Muchísimas gracias por darse el tiempo de enseñar vía este medio, la quiero mucho
llevaba horas buscando una explicacion tan sencilla, muchas gracias
Hola buenas! Muy buenos videos, me han ayudado mucho y estoy muy agradecido contigo Rocio. Traté de desarrollar un pequeño codigo que permita resumir la iteración, lo adjunto a continuación:
a
Muchas gracias Mauricio!! Muy útil la implementación del ciclo!! ;)
Excelente explicacion, clarisima.
excelente video, me sirvió mucho
Muchísimas gracias, este video me ayudo bastante!!!
Si te fue de utilidad este video y deseas ayudarme a seguir creando contenido, puedes hacerlo de varias formas:
- Dando clic en "Me gusta" para incrementar la probabilidad de que el algoritmo de UA-cam promueva mi contenido
- Dejándome un comentario
- Suscribiéndote a mi canal
- Compartiendo mi canal en tus redes sociales
- Presionando el ícono "Gracias" y haciendo una donación
Buen día, una consulta para eliminar los datos atípicos rios_SA
Hola Oscar! Si gustas envíame una captura de pantalla a rociochavezmx@yahoo.com en donde se muestre el código que utilizaste unas dos lineas antes y el error que te está marcando
@@RocioChavezCienciadeDatos buenas noches, ya lo solucione gracias :)
Me alegra que ya lo hayas podido solucionar Oscar ;)
Disculpa a mi me sale lo mismo como lo solucionaste amigo 😓
Hola Rocio, cómo estas? una consulta en el caso que yo tenga varias columnas o variables y realice la deteccion de outliers en cada una. Cada columna tendra su propia cantidad de outliers, y al quitarlos cada columna se quedara con diferentes observaciones (filas). He tratado de hacer un data.frame para utilizar las columnas sin outliers para trabajar otras pruebas pero me sale error porque no encaja. Que podria ahcer para formar una nueva tabla de datos sin outliers y los pueda usar de nuevo para hacer otras pruebas? Muchas gracias!
Hola Aldo! Cuando detectas un outlier, lo que necesitas hacer es una de dos cosas. borrar el valor de la celda y que quede como si fuera un "Not Available" en la columna o bien quitar toda la fila. Espero haber sido clara en la explicación :)
@@RocioChavezCienciadeDatos muchas gracias! entonces voy a reemplazar cada uno de los outliers por un NA.
@@aldoyactayo05 Muy bien!
@@RocioChavezCienciadeDatos , te deje otra pequeña consulta en "Análisis exploratorio con ACP en R".Nuevamente muchas gracias!
Buenas noches, como puedo hacer cuando las datas las reconoce con formato de MINITAB
setwd("J:/año 2021/Ejemplo1/procesamiento datos/Datas/Niveles de contaminacion.csv")
Hola Rocio, tengo una consulta acerca si seria aconsejable reemplazar los outliers para aplicarlo en un modelo ARIMA o simplemente dejarlo como esta para posteriormente ajustarlo al modelo.
saludos
Hola! porque consideraste solo aquellos por debajo de 1240 y no aquellos menores o iguales de 1205, no debería considerarse en función al percentil 75 según el boxplot? Ahora que se haría en caso no se quiera simplemente eliminar outliers. Yo tengo un dataset sin target pero no puedo discretizar usando árboles Chaid por la falta de target y solo tengo en mente 2 posibilidades que son aplicarle logarítmo o discretizar con los percentiles, se te ocurre algo más? Saludos
Hola! Los outliers se consideran cuando stán fuera de los bigotes del boxplot. Si no quieres eliminar los outliers, necesitas utilizar algoritmos que no se vean afectados por éstos para analizar tus datos, dependiendo del tipo de analisis que quieras hacer, deberás investigar cuales algoritmos o se verán afectados por los outliers
En cuanto a la pregunta acerca de la discretización, no tengo idea :(
Hola! Cómo hago para hacer esto mismo pero en el caso de que yo tengo un factor con 4 niveles? Es decir quisiera calcular los outliers para cada uno de los niveles o tratamientos. Muchas gracias
Hola Camila! Puedes convertir tus variables a numéricas o a tipo dummy. En mi canal encontrarás videos al respecto ;)
Hola una pregunta, si en vez de eliminar los outliers los quiero reemplazar con algun valor como la media o mediana, cómo se haría?
Hola! En este video puedes encontrar información acerca del reemplazo de valores perdidos: ua-cam.com/video/4a4T7A5Kv7M/v-deo.html
Hola Rocío, logré detectar los outliers, una consulta, en mi caso las filas tienen nombres, cómo podría saber cuáles filas son outliers? Muchas gracias =)
Hola Aldo, se me ocurre que podrías llevar a cabo los pasos que vienen en el video Filtros en R ua-cam.com/video/9y6Q4hUqeBM/v-deo.html para que obtengas solo las filas que tienen los outliers y así puedas saber cuales individuos los tienen. Espero que te sea de utilidad esta información ;)
@@RocioChavezCienciadeDatos Muchas gracias Rocío! Lo reviso en este momento! =)
una pregunta, por que los no outliers serian los menores a 1240?
hola rocio gracias por lo videos, outliers cuando se elimina se reduce numero de filas , yo no quiero que se redusca solo quiero reemplazar con el valor NA como se aria el codigo, espero su respuesta gracias
Hola! La información contenida en esta página podría serte de utilidad: stackoverflow.com/questions/54993511/how-to-replace-outliers-with-na-in-r-from-vector-created-with-boxplotout
Gracias por la explicación, pero por qué no logro correr ninguno de los scripts, no se si no estoy bajando bien los archivos o mi versión de R es diferente, bajé la última versión een enero 2022
Hola Felisa! Necesitaría revisar qué está pasando. Si todavía te da problema el código, si gustas envíame un correo a rociochavezmx@yahoo.com
hola, quisiera saber donde puedo conseguir más datos para trabajar en R, o de donde los obtienes.
Aunque ya te contesté por el correo, pongo aquí el link de las bases de datos que usualmente se utilizan en machine learning, por si alguien mas tiene la misma duda: archive.ics.uci.edu/ml/index.php Saludos ;)
Hola Rocío. En caso de querés contemplar estos outliers en nuestro análisis recomiendas los reemplazos con la media o la mediana??
En caso contrario que harías?
Hola Luis David! Entre la media y la mediana, yo me inclinaría por la media. Sin embargo, existe otro método que considero aún mejor, que es el de los K-Vecinos.
En el canal tengo otro video llamado "Preprocesamiento de Datos en R: Algunas Técnicas de reemplazo de valores perdidos" y allí incluyo éste método. Espero que te sea de utilidad :)
@@RocioChavezCienciadeDatos hola Rocío muchas gracias por tu respuesta. Veo que el vídeo que me mencionas aplica para cuando tenemos datos faltantes. De esta misma manera podemos tratar a los outliers. Tengo una muestra de 2.5 M que al percentil 99 el valor máximo es 37 y en el último percentil contiene valores hasta 50000, es correcto hacer un reemplazo o sustitución de esto valores o es mejor trabajarlos cómo están?
@@luisdavid1212 Si tu base de datos tiene más columnas con valores que no contengan outliers en las filas con outliers, yo lo que haría sería quitar los outliers y reemplazarlos. De esta manera podrías aprovechar los valores de las demás columnas para tu análisis. De lo contrario, yo qiitaría las filas completas con outliers y las analizaría por separado, ya que estas podrían darte información valiosa.
Hola, son muy útiles tus videos, gracias :). Tengo una duda, cada vez que se modifica el dataframe se guarda como uno nuevo??? Mi pregunta va porque al arreglar los outliers de una segunda variable me modifica la primera ya arreglada, pero reescribo el mismo dataframe
Muchas gracias por tus palabras Diego! Me podrías enviar el código que estás utilizando a rociochavezmx@yahoo.com para ver que es lo que está pasando y poder contestar tu duda, por favor?
Buenos días Rocio, tengo una base de datos con las siguientes columnas (Lote, Parcela, No de individuo, Peso, Talla), en excel sé cómo identificar los individuos repetidos (varios individuos con un mismo número en la misma parcela) o faltantes (ausencia de uno o varios individuos en la misma parcela), sin embargo en R no he logrado realizar lo mismo, alguna idea?, muchas gracias
Hola! Puedes ver el video acerca de los valores duplicados, a ver si te es de ayuda, por favor? ua-cam.com/video/AkiL1mCNrMM/v-deo.html&ab_channel=RocioChavezCienciadeDatos
hola rocio, y en el caso multivariante como se puede chequear?, gracias
Hola! Podrías ir aplicando la detección de outliers en cada variable utilizando un ciclo for o bien aplicar otras técnicas como el clustering. Estoy por crear un video también de detección de outliers utilizando la distancia de Mahalanobis, espero poder subirlo en unas semanas más
@@RocioChavezCienciadeDatos si fuese individual seria con un diagrama de cajas, pero me da curiosidad multivariante.. slds
Hola buena noche, soy estudiante de ingenieria agroecologica , apenas estoy entendiendo el mundo de la estadistica , cuando utilizas tu package "rivers" en mi caso no manejo ese tipo de datos, que podria utilizar? para poder hacer la función de "rios_sin_out"
Hola! El archivo acerca de las longitudes de los rios esta en el link que viene en la descripción. Puedes utilizar ese, es de tipo csv
@@RocioChavezCienciadeDatos disculpa mi ignorancia, puedo usar ese mismo paquete para trabajar con datos de suelos ? Variables físico químicas del suelo? Básicamente es como mi pregunta
@@adventureaf9549 rivers solamente contiene la información que te comento, no lo podrias usar para obtener variables fisico quimicas de suelos
@@RocioChavezCienciadeDatos esa era mi duda, sino que pues me estaba guiando con tu ejemplo y cuando llegué a esa parte pues ahí quedé , entonces tendría que buscar alguna base de datos que contenga esas características del suelo para la zona en la que lo evalúe?
@@RocioChavezCienciadeDatos lo otro es que estoy haciendo un EDA a mi base de datos ,pero pues quisiera identificar correctamente los outliers
Para llevar a cabo el pre-procesamiento de tus datos y poder obtener
información confiable en tus análisis, visita mi lista de reproducción
llamada Pre-procesamiento de Datos en R
ua-cam.com/play/PLUofJx5RUeFqGJJxKflkhDRTot29M7CYj.html
Hola, como se pueden pasar datos de un excel a R, son alrededor de 6millones de datos
Hola Ignacio, necesitarías librerías para big data
@@RocioChavezCienciadeDatos sería pasar este archivo excel a big data y luego a R para analizar?
@@pinguino13 tal vez lo puedas leer normalmente en R, pero para hacer los análisis necesitarías librerías como una llamada snow, que te ayuda a realizar los cálculos en paralelo
@@RocioChavezCienciadeDatos muchas gracias, investigaré al respecto, una consulta, este analisis de eliminar los outliers se puede hacer independiente de la distribucion que presenten los datos? Me gustaría escribirte un mail
@@pinguino13 adelante. Mi correo es rociochavezmx@yahoo.com
Obtén los scripts, archivos y diapositivas que se muestran en mis videos en: www.patreon.com/rociochavezcienciadedatos