En componentes principales y análisis factorial no pueden haber más variables que casos ya que los resultados resultarán erróneos (sobre esto se ha discutido mucho en estadística). Además, los datos medidos en escala de intervalo/razón deben cumplir una serie de requisitos como, distribuciones simétricas o poco asimétricas y sin atípicos, la linealidad y la idoneidad de la matriz (que puede evaluarse con kmo). Para todo lo demás es mejor opciones no paramétricas multivariantes. Para conteos es mejor análisis de correspondencias.
¡Hola! en el caso de tener 3 repeticiones para cada latitud....en el analisis de PCA incluyo todos las repeticiones? o incluyo un dato para cada latitud (que corresponderia al promedio de las repeticiones)?
Hola!..componentes principales puede ser afectado por la colinearidad de las variables. En este caso si tenes tres mediciones que se repiten (por ejemplo, un mismo punto que registraste tres veces en instancias separadas en el tiempo, ...podría ser la cantidad de especies en una muestra de agua que tomas del mismo punto a lo largo de tres meses) vas a tener una variable medida 3 veces y probablemente estas mediciones (lo podes controlar en la matriz de correlacion) estén muy asociadas..entonces esta variable va a tener más peso en el análisis que las demás. Te sugiero ver que ocurre con el peso de la variable en relación a los nuevos componentes si la dejás tal como está y que ocurre si colocas el promedio de las mediciones en otra corrida..es esperable que el promedio de mediciones funcione mejor al tener menos variabilidad...
Al realizar el PCA con mis datos, encuentro estas dos situaciones: 1. para tener el 80% de la varianza total explicada por los componentes, debo seleccionar hasta el componente principal 5.... esto me indica que todas las variables estarian influyendo igual? 2. En el biplot, la ubicacion de los casos no me permite hacer agrupamientos. Esto es normal? se acepta? En estas circunstancias, se considera valido usar este tipo de analisis con mis datos? gracias por responder 🙏
En realidad el 80 % es un valor mínimo que puede ser deseable, pero no es un prerrequisito, lo importante es quizás como se distribuye la varianza de los componentes. Quizás los dos primeros explican un 50 0 60 % pero hay una discontinuidad muy grande entre estos y los posteriores y en estos primeros es posible reconocer algún patrón en los datos de manera intuitiva. Podes utilizar el criterio de los eigenvalores y quedarte con la cantidad de componentes con eigenvalores mayores a 1..también podés ayudarte con el scree plot y ver x donde se realiza el corte de los eigenvalores (o autovalores). El peso de las variables o loadings es lo que te indica la influencia de las variables en relación a la construcción de los componentes lo podes ver en el biplot, pero tambien en el loadings plot o mirando directamente el valor numérico de los loadigs.. más no te puedo ayudar sin ver el resultado..
Hola, por favor pudiera explicar las diferencias que hay entre un analisis de componentes principales y de correspondencia canónico, porque se usan ambas pruebas en ocasiones, que me aporta 1 prueba y que me dice la otra. Tengo esas dudas, me va a ayudar muchísimo para mi Doctorado. Muchas gracias de antemano.
Hola, disculpa por la demora en contestarte. Si bien ambos métodos resultan de la combinación lineal de las variables que estés empleando, el análisis de correspondencia tiene como principal diferencia que maximiza la correlación entre variables categóricas..el PCA en cambio, se emplea comúnmente en variables contínuas y su objetivo es maximizar la varianza explicado por los componentes..en particular los primeros
Hola Jorge. Gracias por el video. Tengo una duda: Estoy tratando de hacer un análisis filogenético de parcimonia con datos morfológicos y cuando ingreso los datos, me aparece este letrero: "Character states must be in the range 0-31" y no me deja avanzar con el análisis. Sabes qué debo hacer?
Hola Supongo que quizás tengas caracteres fuera de ese rango, ya que solo valores discretos entre 0 y 31 pueden ser utilizados en Past. Si eso es asi deberías recodificar tus caracteres o utilizar otro método no estrictamente filogenético como Neighbor Joining.
Hola Alejandro, no lo hace..para componentes principales te recomiendo utilizar datos cuantitativos que pueden estandarizarse (convertirse en unidades de desviación estándar) si la escala de las variables es distinta, ya que esto último va a afectar "el peso", de las variables durante el análisis y por consiguiente en los resultados. Esto lo hacés en la pestaña "matrix" eligiendo la opción "correlation". Si utilizás datos presencia-ausencia es recomendable algun otro método basado en distancias como el escalamiento multidimensional o coordenadas principales. Past actualmente no convierte a 0 1, pero todavía anda por ahí past. 2.17 que lo hace !
Un video muy valioso. Gracias. Saludos desde Costa Rica
Gracias..saludos
Gracias..saludos!
Excelente, muchas gracias
¡Muchas gracias! El vídeo fue muy útil para un trabajo de la universidad que no entendía.
gracias por los comentarios!
En componentes principales y análisis factorial no pueden haber más variables que casos ya que los resultados resultarán erróneos (sobre esto se ha discutido mucho en estadística). Además, los datos medidos en escala de intervalo/razón deben cumplir una serie de requisitos como, distribuciones simétricas o poco asimétricas y sin atípicos, la linealidad y la idoneidad de la matriz (que puede evaluarse con kmo). Para todo lo demás es mejor opciones no paramétricas multivariantes. Para conteos es mejor análisis de correspondencias.
muchas gracias por el video, muy útil, no encuentro la parte 2, saludos desde Colombia.
Gracias Bibiana..es video 27. Te paso el link ua-cam.com/video/AkxD3imFlzI/v-deo.html
Cuando le aplica la raiz cuadrada a los números, solo cambia el primero, el resto queda igual. Favor de revisar.
¡Hola! en el caso de tener 3 repeticiones para cada latitud....en el analisis de PCA incluyo todos las repeticiones? o incluyo un dato para cada latitud (que corresponderia al promedio de las repeticiones)?
Hola!..componentes principales puede ser afectado por la colinearidad de las variables. En este caso si tenes tres mediciones que se repiten (por ejemplo, un mismo punto que registraste tres veces en instancias separadas en el tiempo, ...podría ser la cantidad de especies en una muestra de agua que tomas del mismo punto a lo largo de tres meses) vas a tener una variable medida 3 veces y probablemente estas mediciones (lo podes controlar en la matriz de correlacion) estén muy asociadas..entonces esta variable va a tener más peso en el análisis que las demás. Te sugiero ver que ocurre con el peso de la variable en relación a los nuevos componentes si la dejás tal como está y que ocurre si colocas el promedio de las mediciones en otra corrida..es esperable que el promedio de mediciones funcione mejor al tener menos variabilidad...
@@estadisticaparaarqueologos8391 Entendido. Gracias!!!😀
Al realizar el PCA con mis datos, encuentro estas dos situaciones:
1. para tener el 80% de la varianza total explicada por los componentes, debo seleccionar hasta el componente principal 5.... esto me indica que todas las variables estarian influyendo igual?
2. En el biplot, la ubicacion de los casos no me permite hacer agrupamientos. Esto es normal? se acepta?
En estas circunstancias, se considera valido usar este tipo de analisis con mis datos? gracias por responder 🙏
En realidad el 80 % es un valor mínimo que puede ser deseable, pero no es un prerrequisito, lo importante es quizás como se distribuye la varianza de los componentes. Quizás los dos primeros explican un 50 0 60 % pero hay una discontinuidad muy grande entre estos y los posteriores y en estos primeros es posible reconocer algún patrón en los datos de manera intuitiva. Podes utilizar el criterio de los eigenvalores y quedarte con la cantidad de componentes con eigenvalores mayores a 1..también podés ayudarte con el scree plot y ver x donde se realiza el corte de los eigenvalores (o autovalores). El peso de las variables o loadings es lo que te indica la influencia de las variables en relación a la construcción de los componentes lo podes ver en el biplot, pero tambien en el loadings plot o mirando directamente el valor numérico de los loadigs.. más no te puedo ayudar sin ver el resultado..
Hola, por favor pudiera explicar las diferencias que hay entre un analisis de componentes principales y de correspondencia canónico, porque se usan ambas pruebas en ocasiones, que me aporta 1 prueba y que me dice la otra. Tengo esas dudas, me va a ayudar muchísimo para mi Doctorado. Muchas gracias de antemano.
Hola, disculpa por la demora en contestarte. Si bien ambos métodos resultan de la combinación lineal de las variables que estés empleando, el análisis de correspondencia tiene como principal diferencia que maximiza la correlación entre variables categóricas..el PCA en cambio, se emplea comúnmente en variables contínuas y su objetivo es maximizar la varianza explicado por los componentes..en particular los primeros
@@estadisticaparaarqueologos8391 Muchísimas gracias, me ha sido muy útil su explicación. Saludos!
Hola Jorge. Gracias por el video. Tengo una duda: Estoy tratando de hacer un análisis filogenético de parcimonia con datos morfológicos y cuando ingreso los datos, me aparece este letrero: "Character states must be in the range 0-31" y no me deja avanzar con el análisis. Sabes qué debo hacer?
Hola Supongo que quizás tengas caracteres fuera de ese rango, ya que solo valores discretos entre 0 y 31 pueden ser utilizados en Past. Si eso es asi deberías recodificar tus caracteres o utilizar otro método no estrictamente filogenético como Neighbor Joining.
el programa past ya me estandariza los datos automáticamente o yo lo tengo qué hacer? y poner los datos en forma de 0 y 1?
Hola Alejandro, no lo hace..para componentes principales te recomiendo utilizar datos cuantitativos que pueden estandarizarse (convertirse en unidades de desviación estándar) si la escala de las variables es distinta, ya que esto último va a afectar "el peso", de las variables durante el análisis y por consiguiente en los resultados. Esto lo hacés en la pestaña "matrix" eligiendo la opción "correlation". Si utilizás datos presencia-ausencia es recomendable algun otro método basado en distancias como el escalamiento multidimensional o coordenadas principales. Past actualmente no convierte a 0 1, pero todavía anda por ahí past. 2.17 que lo hace !
@@estadisticaparaarqueologos8391 muchas gracias, me ayudo mucho su respuesta
Hola tengo problemas para interpretar una gráfica, puede ayudarme?
Si claro..como puedo ayudarte ?
NO entiendo como sale un valor de la raíz cuadrada de un valor negativo. En todos los casos da error
Hola es cierto, porque no puede calcularse ya que no es un numero real. En el caso que hice el ejemplo son conteos.