Це відео не доступне.
Перепрошуємо.

[k medoids] Clúster PAM robusto en R y Rstudio [Chupito de R]

Поділитися
Вставка
  • Опубліковано 16 чер 2020
  • #clúster #kmedioids #conglomerados
    Si te gusta mi contenido y quieres, puedes pagarme un café en: ko-fi.com/chupitosder así no me dormiré mientras hago los chupitos.
    En este chupito de R os explicaré como utilizar este algoritmo para toma de decisiones llamado K medoids. ¿¿K medoides en español??. Se trata de una técnica de análisis por conglomerado mediante el algoritmo PAM que permite tomar decisiones sobre cuántos grupos se divide nuestra muestra. K-medias es súper fácil de hacer y aquí os muestro cómo se hace en Rstudio de una forma sencilla. Cómo hacer clúster en R. Rstudio es un programa ideal para hacer estos análisis estadísticos. Es robusto respecto a los casos atípicos y otros problemas más difíciles para el K-means.
    Toda la sintaxis:
    github.com/pableres/cluster/b...

КОМЕНТАРІ • 74

  • @gerenciapredictive7107
    @gerenciapredictive7107 3 роки тому +2

    Excelente vídeo, muchas gracias.

  • @marlonguerrerocastro9673
    @marlonguerrerocastro9673 3 роки тому

    Muchas gracias es lo que estaba buscando desde hace mucho tiempo. Exc canal con contenido muy bien explicado

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 роки тому

      Muchas gracias @Marlon. Me alegra te guste el contenido ;)

    • @marlonguerrerocastro9673
      @marlonguerrerocastro9673 3 роки тому

      @@PabloVallejoMedina Hola pablo disculpe las molestia, estuve analizando unos datos que tengo y los corri con este scrip pero no pude correr la parte donde se genera un resumen dentro de cada cluster. A que paquete pertenece la funcion mutate? me sale este error Error in mutate(., Cluster = pam3$clustering) :
      could not find function "mutate"

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 роки тому

      @@marlonguerrerocastro9673 dplyr

  • @javardi86
    @javardi86 3 роки тому +1

    Buen video. Me va a servir bastante.

  • @EXXNmmmm
    @EXXNmmmm 4 роки тому +1

    Lo bien que esto que haces me hubiera venido para mi aún inacabada tesis. Aquello me parece de pedales ahora... Serás estadístico, profesor, investigador, editor y todo eso, pero comunicando eres de lo mejor... How well you do this would have suited me for my still unfinished thesis. That past seems bicycle pedals to me now ... You will be a statistician, professor, researcher, editor and all that, but communicating you are the best ...

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 роки тому

      Holaaaa, síii. La verdad es que la estadística actual no tiene nada que ver con lo que nos habían enseñado. El poder computacional es brutal, pero no es nada con lo que se viene ;)

  • @demianramirez3192
    @demianramirez3192 2 роки тому

    Excelente explicaciòn

  • @eurano30
    @eurano30 Рік тому

    Gracias por hacer entendible un tema complicado.

  • @robertoescobar4367
    @robertoescobar4367 3 роки тому

    Gracias por hacer estos videos carnal, explicas mucho mejor que mi maestra jaja

  • @ralvarezc14
    @ralvarezc14 4 роки тому +1

    Muchas Gracias. Me sirvió de mucho. Solo una duda, hay forma de ocultar los labels y solo mostrar los puntos? Saludos.

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 роки тому +1

      Hola sí. Simplemente tienes que explorar la función fviz ;) sería algo así:
      fviz_cluster(k3, geom = "point", data = tudataframe[-1]) salvo que du data frame este organizado raro eso te debería servir.

  • @valeriafonseca8228
    @valeriafonseca8228 3 роки тому

    Hola Pablo, amé el video enserio ya comprendo mucho mejor todo, sin embargo cuando quiero aplicar mutate(cluster= pam.res$cluster), para poder ver un summary en tabla de las variables por clusters no me deja, sale que la función mutate no es encontrada ... debo instalar algo primero?

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 роки тому +1

      Muchas gracias. Hay otro video donde explico un poco lo de mutate (se llama de long format a wide) o algo así ;). Tienes que instalar antes dplyr y llamaro ;). Un saludo y genial que te haya gustado.

  • @luzelenaduranc.3466
    @luzelenaduranc.3466 2 роки тому

    Pablo, muchas gracias por realizar chupitos de altísima calidad. Tengo 2 dudas que quisiera aclarar con ud caso sea posible: 1. Que hacer cuando aparece este mensaje ggrepel: 20 unlabeled data points (too many overlaps). Consider increasing max.overlaps
    2 Qué significa o Dim1 e o DIm2 que aparece en los ejes del gráfico de los clusters?
    MUchas gracias

    • @PabloVallejoMedina
      @PabloVallejoMedina  2 роки тому

      Hola Luz,
      1: tienes demasiadas observaciones para tener encendido el REPEL = TRUE, mejor apágalo.
      2. Son las dimensiones en las que se distribuye el AFC, que al ser 2D siempre serán 2.

  • @samirricardoneme-chaves9086
    @samirricardoneme-chaves9086 4 роки тому

    Estimado Pablo, excelente chupito, gracias por la explicación , tengo una duda, ¿si yo tengo un objeto hclust, podría convertirlo a data frame para graficarlo con ggplot y sacarle más jugo que solo el dendograma?

  • @rafaelme4339
    @rafaelme4339 3 роки тому

    Hola Pablo, estoy haciendo un análisis aplicando este método. Tengo algunas dudas acerca de emplear el método kendall u otro, ya que mis datos son de tipo ordinal en una escala de 1 a 5. ¿Usarías otro para este tipo de datos?
    Muchas gracias por la info, no sabes lo que estoy aprendiendo :)

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 роки тому

      Uff no lo sé. Iría probando a ver qué tal funciona. Pero a priori no le veo mucho problema a Kendall ;)

    • @rafaelme4339
      @rafaelme4339 3 роки тому

      @@PabloVallejoMedina Muchas gracias

  • @miguelortiz5209
    @miguelortiz5209 4 роки тому

    Puedes hacer un fuzzy c medias? Y explicar eso del vector de pesos?

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 роки тому

      No sé se me vaya por ahí ahora mismo. De momento voy a dejar los clústeres. EN el futuro quizá lo añada ;)

  • @ejleguia
    @ejleguia 3 роки тому

    buenas noches... Pablo. Una pregunta.... ¿es posible incluir variables cuantitativas discretas o categóricas en esa rutina?

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 роки тому

      En principio sí, luego revisa si te está agrupando con cierta lógica. ;)

  • @carlosm.galvancisneros5620
    @carlosm.galvancisneros5620 3 роки тому +1

    Hola, Pablo
    Muy buen video, tengo una pregunta: ¿cómo haces para que R o la función correspondiente te acepte la columa no numerica en el objeto "df" y así mantenga el nombre de las ciudades, por ejemplo, en el momento de hacer el dendrograma?
    En mi caso sólo acepta columnas numericas, no estoy trabjando con la bases de datos que tu trabajas en este video.

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 роки тому +1

      Hola, si tu error ya lo viví personalmente. Es que estados no es una variables, son los nombres de las filas. TIenes que utilizar este código:
      df

    • @carlosm.galvancisneros5620
      @carlosm.galvancisneros5620 3 роки тому

      @@PabloVallejoMedina !Muchas gracias!, el código ha funcionado con éxito. He podido hacer el dendrograma con los nombres de las localidades.

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 роки тому

      @@carlosm.galvancisneros5620 Súper, me alegro ;)

    • @fernandomurillo7959
      @fernandomurillo7959 3 роки тому

      @@PabloVallejoMedina Muchas gracias, yo tenía la misma duda.

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 роки тому

      @@fernandomurillo7959 ¨De nada, tengo un video reciente sobre kmeans en super heroes donde lo soluciono ;)

  • @marialesendon7541
    @marialesendon7541 3 роки тому

    Hola Pablo! Muchas gracias por el video! Tengo un problema y creo que tiene que ver con que no puedo bajar la base de datos como un data frame. Y la primera columna es de texto... entonces no la normaliza... Probé algo que sugeriste en otro video pero no me funcionó era esto, dfitems

  • @wilmeroporta5281
    @wilmeroporta5281 2 роки тому

    Hoola si tengo variables tipo escalar de likerts del 1 al 7 ocuparia que metodo para clasificar

    • @PabloVallejoMedina
      @PabloVallejoMedina  2 роки тому +1

      Hola, yo creo que este mismo podría servir. A ver cómo te va.

  • @bastianelgueta7318
    @bastianelgueta7318 4 роки тому

    Qué recomiendas para clusterizar a partir de variables categóricas y continuas?
    Saludos !

    • @bastianelgueta7318
      @bastianelgueta7318 4 роки тому

      Y como determinas cuales y cuantaas variables utilizar para clusterizar?

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 роки тому +1

      Puede ser Kmodes, Kamila no sé si servirá.. Depende un poco.

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 роки тому +1

      @@bastianelgueta7318 Creo que mientras esté teóricamente justificado no hay lio.

  • @ojilvemedrano
    @ojilvemedrano 4 роки тому

    ¿Pablo para cuando organizas un botellón sobre R (curso)?. Es hora de juntarnos en un chupinazo!

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 роки тому +1

      Había pensando hacer un directo un día de estos, pero no suelo tener calma ahora mismo para hacerlo.

  • @mauriciocerrutti7248
    @mauriciocerrutti7248 2 роки тому

    Estimado, no usa variables cualitativas para estimar cantidad de cluster. Si tiro la "funcion fviz_nbclust(df, pam, method = "wss")" me da error por no ser 100% numeric?

  • @jolguinsito
    @jolguinsito 4 роки тому

    Hola, tengo una dudade como cambiar la ruta de rstudio general para que me busque los paquetes dado que al intentar activar algun paquete me sale el siguiente error, de antemano gracias (quiero cambiarlo a "C:/")
    Error: package or namespace load failed for ‘readxl’ in get(Info[i, 1], envir = env):
    no fue posible abrir el archivo 'C:/Users/lOlguín/Documents/R/win-library/4.0/Rcpp/R/Rcpp.rdb': No such file or directory

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 роки тому +1

      simplemente escribe file.choose()
      y ejecuta, se te abrirá una ventana, eliges tu archivo y en la consola te escupe la ruta ;)

    • @jolguinsito
      @jolguinsito 4 роки тому

      @@PabloVallejoMedina gracias pero no es ese mi problema, a ver como me explico quiero redirigir donde r busque los paquetes y librerias porque esta buscando en documentos y el mombre de carpeta de usuario tiene tilde y quiero llevarlo a la base del disco c y se que hay una formula para ello

    • @jolguinsito
      @jolguinsito 4 роки тому

      @@PabloVallejoMedina ya encontre mi respuesta, use .libPhats para redirigir la instalacion y busqueda de paquetes.
      Muchas gracias

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 роки тому

      @@jolguinsito Ahhh genial, no te entendí. No conocía esa forma ;)

  • @hugoalbert4695
    @hugoalbert4695 2 роки тому

    Buenas Pablo!
    Al intentar ejecutar la línea: 'resnumclust

    • @PabloVallejoMedina
      @PabloVallejoMedina  2 роки тому

      Muéstrame el error entero please ;)

    • @hugoalbert4695
      @hugoalbert4695 2 роки тому

      @@PabloVallejoMedina Error in diag(var(Xuse)) : vector is too large

    • @PabloVallejoMedina
      @PabloVallejoMedina  2 роки тому

      @@hugoalbert4695 Al ponerle este argumento: index = "alllong" creo que le queda muy pesado para tus datos, ves de uno en uno o saca solo los que te interesen.

  • @solidarityLearningSol
    @solidarityLearningSol 3 роки тому

    Hola Pablo, que hacer cuando quiero aplicar PAM sobre un dataset que tiene millones de registros y aparece este mensaje:
    > pam9

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 роки тому

      Bufff, ni idea. Ese big data me queda grande

    • @fernandomurillo7959
      @fernandomurillo7959 3 роки тому

      Sucede que pam es limitado en datos, exactamente en 65536, deberías trabajar con clara en vez de pam, ya que clara acepta cantidades de datos mas grandes.

    • @PabloVallejoMedina
      @PabloVallejoMedina  3 роки тому

      @@fernandomurillo7959 Sí, yo no suelo trabajar en big data, pero sería una opción más eficiente para data sets tan grandes.

  • @gorditaau
    @gorditaau 4 роки тому

    Muchas gracias por el video, pero tengo problemas al correr la línea 70, me arroja esto "Warning: Ignoring unknown parameters: fun" y luego me tira todos los valores iguales a cero, sería de mucha ayuda si sabes la respuesta. Saludos!

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 роки тому +1

      Hola paula, me puedes enviar el código del ggplot que estás poniendo?

    • @gorditaau
      @gorditaau 4 роки тому

      ggplot(data_long, aes(as.factor(x = variable), y = valor,group=cluster, colour = cluster)) +
      stat_summary(fun=mean, geom="pointrange", size = 1, aes(shape = cluster))+
      stat_summary(geom="line")
      Le hice cambios, adhoc a mi código. Gracias de antemano

    • @PabloVallejoMedina
      @PabloVallejoMedina  4 роки тому

      @@gorditaau Mhh no sé. Aquí parece que pueda haber una función que te ayude, pero no sé que puede estar pasando... www.r-bloggers.com/simplifying-ggplot2-code-by-doing-nothing/

    • @gorditaau
      @gorditaau 4 роки тому

      Gracias!