Hola, excelente explicación. Quería entonces concretar, cuando tengo una variable proporción (tanto para valores entre 0 y 1 ó 0-100) debo usar modelos glm con beta distribución ??
Hola Si tienes una variable de respuesta Y que es un %, obviamente deberías convertirla a la escala [0,1]. De analizar Y con una dist diferente a la beta (que está acotada en [0,1]) es perfectamente posible que el valor predicho de Y por el modelo para algunas combinaciones de tus vars. explicativas esté fuera del rango correcto de una proporción. Además, la dist beta es "realmente muy plástica" en el sentido de que su forma puede variar mucho de acuerdo a los valores de sus parámetros (esto lo puedes ver en cualquier libro de probabilidad o la pagina wiki beta distribution) y por tanto tiene posibilidad de ajustar correctamente a los datos de Y. Ahora, si tienes datos de composición como por ej las dietas (varias variables que suman 1 o 100%), allí habria que hacer otros modelos tipo GLM con la distr Dirichlet (digo tipo GLM porque esta distr no es parte de la familia exponencial de distribuciones, pero los GLM se hacen igual). Por demás, se ha demostrado muchas veces lo siguiente. a) simulando datos Y~ beta (media, phi), con logit(media)=vars explicativas* beta, y luego aplicando transformaciones esotéricas como Y*=arcoseno(sqrt(Y)) b) para luego analizar Y* como si tuviera distr Normal, Si esta idea funcionara se deberían es-estimar los parametros beta que empleamos para generar los datos y obtener errores standard razonables. Lamentablemente, este enfoque de transformar Y a martilazos para que se "vuela con distr Normal" raramente funciona para todos los GLM, incluyendo aquellos que uesan la distr beta. Así que si, deberías analizar Y~beta(media, phi)
Muchas gracias por la excelente explicacion. Me gustaría saber si la funcion de enlace es especifica y siempre se usa la misma para cada tipo de distribucion o se pueden usar distintos tipos de funcion de enlace para una sola distribucion. Muchas gracias
Formlamnente hablando, el único requisito general de todas las funciones de enlance es que sean monotónicas. Hay funciones de enlace "canónicas" deducidas a partir de la rlación entre la fórmula de la familia exponencial de distribuciones y cada función de distr de probabilidades aplicables a cada tipo de dato. Así, la función de enlace logit y log son las "funciones de enlace canónicas" para datos binarios y de conteos y que son usadas por defecto en R. Dicho esto, existen otras funciones de enlace potencialmente utilizables para cada tipo de var de respuesta, pero en la realidad casi nadie las usa y prudcen paámetros estiamdos con en general una diferencia mínima con respecto a los obtenidos con las "funciones de enlace canónicas" .
Buenas, qué libro recomendas para profundizar en el tema? Me gustaría usar parte de lo que explicas en mis trabajos pero debería dejar el respaldo bibliográfico correspondiente.
Hay decenas de libros sobre GLM. Puedes ver alguno de los títulos si pones "generalized linear models" + books" en el buscador de Google. Hasta yo mismo publiqué un libro que los contiene....
esta genial la explicación podrias crear un drive y compartir el link de tus presentaciones y lo dejas en la descrición del video seria genial te lo agradeceria
Buenos días maestro, disculpe, en el minuto 9:24 al aplicar el logaritmo a la normal, y antes de reordenar los términos no está el log de Sigma ✓2pi, le puedo preguntar cómo salió al final?
Erick, creo que interpretarstes mal el video. Lo que traté de hacer fue solamente relacionar el logaritmo de la expresión de la familia exponencial de distribuciones con el logaritmo de la densidad de probabilidades normal, a fin de identificar a qué equivalen las funciones a(), b(), y c() cuando la variable de respuesta Y tiene distribución normal. En lo que hice, no se transformó la variable de respuesta Y ni tampoco se hizo ningún análisis. Solo quise mostrar en un caso particular cómo se puede realizar esta identificación de términos ya que el algoritmo (IWLS) que se emplea para estimar los parámetros por max de verosimilitud hace esta identificación para obtener métodos generales de estimación de parámetros para los GLM cuyas variables de respuesta Y tienen una distr. de probabilidad que son parte (o que están fuertemente relacionadas) con la familia exponencial de distribuciones.
Le agradezco enormemente por estos videos.
Me alegro que hayan sido útiles. Saludos
Excelente. Un placer escuchar la claridad de conceptos volcados a GLM.
Gracias.
Preciosa clase, saludos desde México!
Muchas gracias. Me alegro que te haya gustado. Saludos
Muchas gracias! fue de mucha utilidad, logré afianzar los conceptos.
Me alegro mucho. Saludos
Muy bien sintetizado y muy claro. Muchas gracias
Me alegro que haya sido útil. Saludos,
Hola, excelente explicación.
Quería entonces concretar, cuando tengo una variable proporción (tanto para valores entre 0 y 1 ó 0-100) debo usar modelos glm con beta distribución ??
Hola
Si tienes una variable de respuesta Y que es un %, obviamente deberías convertirla a la escala [0,1]. De analizar Y con una dist diferente a la beta (que está acotada en [0,1]) es perfectamente posible que el valor predicho de Y por el modelo para algunas combinaciones de tus vars. explicativas esté fuera del rango correcto de una proporción. Además, la dist beta es "realmente muy plástica" en el sentido de que su forma puede variar mucho de acuerdo a los valores de sus parámetros (esto lo puedes ver en cualquier libro de probabilidad o la pagina wiki beta distribution) y por tanto tiene posibilidad de ajustar correctamente a los datos de Y. Ahora, si tienes datos de composición como por ej las dietas (varias variables que suman 1 o 100%), allí habria que hacer otros modelos tipo GLM con la distr Dirichlet (digo tipo GLM porque esta distr no es parte de la familia exponencial de distribuciones, pero los GLM se hacen igual).
Por demás, se ha demostrado muchas veces lo siguiente.
a) simulando datos Y~ beta (media, phi), con logit(media)=vars explicativas* beta, y luego aplicando transformaciones esotéricas como Y*=arcoseno(sqrt(Y))
b) para luego analizar Y* como si tuviera distr Normal,
Si esta idea funcionara se deberían es-estimar los parametros beta que empleamos para generar los datos y obtener errores standard razonables.
Lamentablemente, este enfoque de transformar Y a martilazos para que se "vuela con distr Normal" raramente funciona para todos los GLM, incluyendo aquellos que uesan la distr beta. Así que si, deberías analizar Y~beta(media, phi)
Muchas gracias por la excelente explicacion. Me gustaría saber si la funcion de enlace es especifica y siempre se usa la misma para cada tipo de distribucion o se pueden usar distintos tipos de funcion de enlace para una sola distribucion. Muchas gracias
Formlamnente hablando, el único requisito general de todas las funciones de enlance es que sean monotónicas. Hay funciones de enlace "canónicas" deducidas a partir de la rlación entre la fórmula de la familia exponencial de distribuciones y cada función de distr de probabilidades aplicables a cada tipo de dato. Así, la función de enlace logit y log son las "funciones de enlace canónicas" para datos binarios y de conteos y que son usadas por defecto en R. Dicho esto, existen otras funciones de enlace potencialmente utilizables para cada tipo de var de respuesta, pero en la realidad casi nadie las usa y prudcen paámetros estiamdos con en general una diferencia mínima con respecto a los obtenidos con las "funciones de enlace canónicas" .
Buenas, qué libro recomendas para profundizar en el tema?
Me gustaría usar parte de lo que explicas en mis trabajos pero debería dejar el respaldo bibliográfico correspondiente.
Hay decenas de libros sobre GLM. Puedes ver alguno de los títulos si pones "generalized linear models" + books" en el buscador de Google. Hasta yo mismo publiqué un libro que los contiene....
esta genial la explicación podrias crear un drive y compartir el link de tus presentaciones
y lo dejas en la descrición del video seria genial te lo agradeceria
Trataré de hacerlo apenas pueda.
Buenos días maestro, disculpe, en el minuto 9:24 al aplicar el logaritmo a la normal, y antes de reordenar los términos no está el log de Sigma ✓2pi, le puedo preguntar cómo salió al final?
Erick, creo que interpretarstes mal el video.
Lo que traté de hacer fue solamente relacionar el logaritmo de la expresión de la familia exponencial de distribuciones con el logaritmo de la densidad de probabilidades normal, a fin de identificar a qué equivalen las funciones a(), b(), y c() cuando la variable de respuesta Y tiene distribución normal. En lo que hice, no se transformó la variable de respuesta Y ni tampoco se hizo ningún análisis. Solo quise mostrar en un caso particular cómo se puede realizar esta identificación de términos ya que el algoritmo (IWLS) que se emplea para estimar los parámetros por max de verosimilitud hace esta identificación para obtener métodos generales de estimación de parámetros para los GLM cuyas variables de respuesta Y tienen una distr. de probabilidad que son parte (o que están fuertemente relacionadas) con la familia exponencial de distribuciones.