¡Excelente tutorial, muchas gracias por todo el aprendizaje! Observé algo que me llamó la atención, por si es de utilidad: Cuando se utiliza el conglomerado con average... > ag3 = agnes(a1, method = "average") La división por el dendograma observado, me parece que sería sobre ag3 para 3 divisiones > div.grupo.ag3 = cutree(ag3,3) Resultando con 3 clústers completamente divididos en > plot (a.cp,col=div.grupo.ag3) Saludos.
Excelente tutorial, gracias por compartirlo, el enlace de los recursos del tutorial se encuentra con error, es posible que me pueda compartir los recursos¿...Saludos
Muchas gracias por la explicación. Es el primer video que entiendo bien. Esta genial explicado. Por favor ¿Podria realizar un vídeo usando R acerca del clustering? Ademas de los dendogramas. ¿Que más cosas para analizar los datos se puede hacer en el caso jerárquico, clustering? Muchas gracias por ayudar a los demás con el vídeo y compartirlo.
Preferí realizar el análisis de conglomerados con las variables originales, para no perder nada de la información. Entonces, al graficar la solución de conglomerados contra los componentes principales, podré detectar cualquier caso que se aleje del patrón, lo que no ocurre si ocupo los componentes para agrupar.
Hola, el comando de "scatterplotMatrix" de car, me dibuja todas las líneas y puntos de la gráfica en color azul. ¿Cómo podría hacer que se vieran con los colores de su vídeo? Muchas gracias, buen vídeo!
El algoritmo de car ha cambiado con el tiempo, para dejar los colores para las diferencias entre grupos. En el último tiempo he tendido a scatterplotMatrix para tener una visión rápida y usar ggplot con geom_smooth(method="lm") y geom_smooth(method="loess") para graficar con mayor control.
@@MgClbustos Pues sería interesante que nos enseñaras graficar de manera más profesional los análisis de componentes principales, y diagramas de cajas...Yo personalmente estoy interesado en representar diagramas de cajas, que incluya contrastes "post hoc", es decir comparaciones múltiples tipo test de "S-N-K" o "Tukey", de forma que los diagramas de cajas representados, incluya encima de la barra de error estándar una letra "a", "b", "c" etc...para distinguir las cajas en las que existen diferencias significativas. Por ejemplo, si dos diagramas son estadísticamente iguales, que incluyan encima de la barra de error estándar la letra "a", y a su vez el diagrama de cajas que sea distinto, que tenga una letra "b" encima de su error estándar. Muchas gracias amigo!
Algo muy importante: replicabilidad. Desde que trabajo en R haciendo asesorías, desde el 2013 aproximadamente, puedo replicar todos los análisis sin (mucho) problema. Esto es muy útil cuando se necesita re-analizar o surgen dudas. Las interfaces gráficas son útiles para explorar, pero deberíamos avanzar hacia un trabajo documentado en el análisis.
La traducción para el contexto sería 'estandarte'. Es una representación del dendrograma, pero sin los nombres. Por tanto, se destaca la distancia que existe entre los conglomerados y la presencia de diferencias importantes entre grandes conglomerados.
Hola, me gusto el tutorial solo tenia una pregunta, cuando haces el scatterplot, porque en los cruzamientos por ejemplo Word x Uso, porque la grafica de la columna 2 fila 1 no es igual a la de la columna 1 fila 2? no se supone que se estan comparando las mismas variables? que hace que las graficas sean diferentes?
Lo vi un poco tarde.... En la fila 1, columna 2, la variable 1 queda en el eje Y y la variable 2 en el eje X. En la fila 2, columna 1, la variable 1 queda en el eje X y la variable 2 en el eje Y.
by: Carlos Gino Garibotto Sandoval Pueden generar una matriz con la funcion rnorm alterando las medias para poder simular la base de datos del ejemplo uso
Hola, una duda... mayormente se recomienda usar la función "scale" para tratar los datos antes de hacer acá? tu no lo hiciste, eso se debe a algo en particular de tu data?
Me gusta, en general, mantener la escala original de las escalas. En este caso, es claro el significado y como las medias y desviaciones estándar son muy parecidas, no se generan los problemas de cálculo numérico que si presentan cuando tenemos varianzas muy altas.
¡Excelente tutorial, muchas gracias por todo el aprendizaje!
Observé algo que me llamó la atención, por si es de utilidad:
Cuando se utiliza el conglomerado con average...
> ag3 = agnes(a1, method = "average")
La división por el dendograma observado, me parece que sería sobre ag3 para 3 divisiones
> div.grupo.ag3 = cutree(ag3,3)
Resultando con 3 clústers completamente divididos en
> plot (a.cp,col=div.grupo.ag3)
Saludos.
Gracias por el comentario. Tengo planificado hacer una actualización para R 4.0, con mejor ritmo, y tomaré en cuenta esto!
Buenísimo, el mejor tutorial que encontré bien explicado y sin tanto rodeo.
Impecable! Muchas gracias por crear este material.
Excelente explicación, por favor podrías compartir los datos.
Excelente tutorial, gracias por compartirlo, el enlace de los recursos del tutorial se encuentra con error, es posible que me pueda compartir los recursos¿...Saludos
Muchas gracias por la explicación. Es el primer video que entiendo bien.
Esta genial explicado. Por favor ¿Podria realizar un vídeo usando R acerca del clustering? Ademas de los dendogramas. ¿Que más cosas para analizar los datos se puede hacer en el caso jerárquico, clustering? Muchas gracias por ayudar a los demás con el vídeo y compartirlo.
No está mala la idea de hacer algo sobre análisis de conglomerados con más detalle. Le voy a dar una vuelta :)
Excelente video, has seguido subiendo videos de este tipo??. Muchas gracias
Q interpretacion le das a las salidas de las distintas clusterizaciones?
Buenas tardes, excelente explicación. Una pregunta: cuando utilizas la función agnes, no se debería utilizar con a.cp en vez de con pca?
Preferí realizar el análisis de conglomerados con las variables originales, para no perder nada de la información. Entonces, al graficar la solución de conglomerados contra los componentes principales, podré detectar cualquier caso que se aleje del patrón, lo que no ocurre si ocupo los componentes para agrupar.
@@MgClbustos muchas gracias por su respuesta
Hola, que paquete debo tener instalado para usar scatterplotmatrix
library(car)
Que tal. algún método para hacer una clasificación ABC ?.
Disculpe la demora. Como sería eso?
Hola, el comando de "scatterplotMatrix" de car, me dibuja todas las líneas y puntos de la gráfica en color azul. ¿Cómo podría hacer que se vieran con los colores de su vídeo? Muchas gracias, buen vídeo!
El algoritmo de car ha cambiado con el tiempo, para dejar los colores para las diferencias entre grupos. En el último tiempo he tendido a scatterplotMatrix para tener una visión rápida y usar ggplot con geom_smooth(method="lm") y geom_smooth(method="loess") para graficar con mayor control.
@@MgClbustos Gracias amigo, sería bueno que subieras algún vídeo para enseñarnos a graficar, por ejemplo usando el paquete ggplot2, saludos
@@juanmanuelmunoz5290 Me parece muy interesante. Alguna sugerencia de tema?
@@MgClbustos Pues sería interesante que nos enseñaras graficar de manera más profesional los análisis de componentes principales, y diagramas de cajas...Yo personalmente estoy interesado en representar diagramas de cajas, que incluya contrastes "post hoc", es decir comparaciones múltiples tipo test de "S-N-K" o "Tukey", de forma que los diagramas de cajas representados, incluya encima de la barra de error estándar una letra "a", "b", "c" etc...para distinguir las cajas en las que existen diferencias significativas. Por ejemplo, si dos diagramas son estadísticamente iguales, que incluyan encima de la barra de error estándar la letra "a", y a su vez el diagrama de cajas que sea distinto, que tenga una letra "b" encima de su error estándar. Muchas gracias amigo!
En qué se diferencia esto de estar digitando código versus un análisis estadístico con el software MINITAB????
Algo muy importante: replicabilidad. Desde que trabajo en R haciendo asesorías, desde el 2013 aproximadamente, puedo replicar todos los análisis sin (mucho) problema. Esto es muy útil cuando se necesita re-analizar o surgen dudas. Las interfaces gráficas son útiles para explorar, pero deberíamos avanzar hacia un trabajo documentado en el análisis.
Buenas noches,
Gracias por el vídeo.
¿Qué significa exactamente banner ?
La traducción para el contexto sería 'estandarte'. Es una representación del dendrograma, pero sin los nombres. Por tanto, se destaca la distancia que existe entre los conglomerados y la presencia de diferencias importantes entre grandes conglomerados.
Perfecto, excelente explicación, la mejor!
super bueno... donde consigo mas informacion?
Excelente informacion, muchas gracias
Hola, quedé con punto suspensivo con el tema de ACP...sigues subiendo tutoriales. Cómo es posible contactarte para resolver algunas dudas?
Disculpa la demora. Puedes hacer las preguntas por aquí mismo.
Hola, me gusto el tutorial solo tenia una pregunta, cuando haces el scatterplot, porque en los cruzamientos por ejemplo Word x Uso, porque la grafica de la columna 2 fila 1 no es igual a la de la columna 1 fila 2? no se supone que se estan comparando las mismas variables? que hace que las graficas sean diferentes?
Lo vi un poco tarde.... En la fila 1, columna 2, la variable 1 queda en el eje Y y la variable 2 en el eje X. En la fila 2, columna 1, la variable 1 queda en el eje X y la variable 2 en el eje Y.
Gracias. saludos
hola, gracias por el tutorial, no tendrás los datos para practicar?, Gracias
by: Carlos Gino Garibotto Sandoval
Pueden generar una matriz con la funcion rnorm alterando las medias para poder simular la base de datos del ejemplo
uso
Podes creas datos que simulen los del ejemplo.
Son sumas de funciones Gaussianas con distinta media y varianza:
uso
Hola, una duda... mayormente se recomienda usar la función "scale" para tratar los datos antes de hacer acá? tu no lo hiciste, eso se debe a algo en particular de tu data?
Me gusta, en general, mantener la escala original de las escalas. En este caso, es claro el significado y como las medias y desviaciones estándar son muy parecidas, no se generan los problemas de cálculo numérico que si presentan cuando tenemos varianzas muy altas.
puedes pasarme la base de datos? para praticar
Pueden generar una matriz con la funcion rnorm alterando las medias para poder simular la base de datos del ejemplo
uso
muchas gracias buen hombre
Gracias Carlos Gino, con tus ejemplo pude sumar 2 o 3 gaussianas para poder modelar los datos del ejemplo.
Saludos!
Dejo acá las lineas !!
uso
Gracias, pero seria bueno comparta los datos, para ir haciendo iguales.
Están disponibles en: www.apsique.cl/recursos/hab_doc.xlsx
Buen tutorial....
gracias !!
El archivo que ha compartido esta dañado
Que raro, yo lo pude bajar bien. ¿Datos de su excel?
Por favor le es posible enviarme los datos para replicar el ejercicio con los mismo datos eventoclic@gmail.com le agradezco su ayuda.