Clustering Jerárquico Aglomerativo (Explicación Matemática)

Поділитися
Вставка
  • Опубліковано 29 лис 2024

КОМЕНТАРІ • 100

  • @RocioChavezCienciadeDatos
    @RocioChavezCienciadeDatos  Рік тому +3

    Obtén los scripts, archivos y diapositivas que se muestran en mis videos en: www.patreon.com/rociochavezcienciadedatos

  • @tatianatrujillo8691
    @tatianatrujillo8691 8 місяців тому +2

    Lucia, infinitas gracias por tu explicación justamente estoy analizado una muestra muy pequeña y no sabía cómo hacer con el K-means 🎉

  • @rafael_rosales-eu1bw
    @rafael_rosales-eu1bw 3 дні тому

    Muy buen video, excelente tu explicación, después de este video no necesite ver otro para entender los clusters, gracias. Ojala en algun momento mostraras el procedimiento con los arboles de decisión.

  • @Lochee
    @Lochee 4 роки тому +3

    Aplausos, me gustó la perspectiva de como operar con las fórmulas desde los pasos desde más adentro hacia afuera

  • @ivanfuentes7351
    @ivanfuentes7351 Рік тому

    Roció , eres la mejor profesora que he tenido...
    Respecto al ejemplo que has hecho , me parece muy interesante el análisis de los tres ckuster donde explicas con los gráficos las asignaturas donde cada cluster es mejor ..
    CONSULTA , EN QUE PROGRAMA PUEDO ONTENER SEMEJANTES RESULTADOS....POR QUE TU LO HICISTES EN EXCEL

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Рік тому

      Hola Iván! En mi canal puedes encontrar varios videos acerca de como llevar a cabo el clustering jerárquico tanto en lenguaje R como en Python. Por ejemplo, puedes ver estos dos videos: Clustering Jerarquico en Python ua-cam.com/video/iT4xYghI7Rg/v-deo.html y Obteniendo los Centroides de los Clusters en Python ua-cam.com/video/uK-H4EIX-Sk/v-deo.html

  • @gestor-por-procesos
    @gestor-por-procesos Рік тому

    Muy bien vídeo, bastante explicativo a lo que quería llegar con mis datos econométricos. Un gran saludo desde Ecuador

  • @angelgarcia7152
    @angelgarcia7152 4 роки тому +2

    Bastante entendible, incluso para los que no dominamos muy bien las matemáticas.

  • @makonemadriles8908
    @makonemadriles8908 2 роки тому

    Me fue de gran utilidad, un ejemplo práctico muy bueno y sencillo de programar con matrices. Muchas gracias Rocio

  • @radamantoo.p4387
    @radamantoo.p4387 4 роки тому +1

    Muy bien explicado, super didáctico una felicitación.

  • @tensoescalar1
    @tensoescalar1 Рік тому

    Excelente video, una vez más, me será muy útil, muchas gracias

  • @cynthiamoricordova5099
    @cynthiamoricordova5099 4 роки тому +1

    Muchas gracias por tu genial explocación. No me quedan dudas, eres una bendición. Muchos éxitos!

    • @matematiqueandoando8551
      @matematiqueandoando8551 4 роки тому +1

      Muchas gracias por tus palabras Cynthia! ;)

    • @matematiqueandoando8551
      @matematiqueandoando8551 4 роки тому +2

      Perdón Cynthia, te contesté desde mi otro canal "Matematiqueando Ando"... No me he acostumbrado a manejar dos canales de youtube... jejeje

  • @ronaldoperez7145
    @ronaldoperez7145 3 роки тому

    Excelente explicación, simple y concisa. Felicitaciones

  • @pablogonzalezmora4679
    @pablogonzalezmora4679 3 роки тому

    Excelente video, Rocío. Muy bien explicado y con buen material gráfico.

  • @oscaromarfloressotomayor8476
    @oscaromarfloressotomayor8476 3 роки тому

    Conciso y bien explicado, me gustó mucho.

  • @jaiderjimenez6959
    @jaiderjimenez6959 4 роки тому +2

    A mi me encantan tus explicaciones! es como recordar las misma clases de la U pero a otro nivel superior de entendimiento, más aterrizado y práctico.

  • @javiertrejos4224
    @javiertrejos4224 4 роки тому

    Hola Rocío! Soy Javier Trejos, de la Universidad de Costa Rica. Me gustó mucho tu video. Me dio mucho gusto ver que usas un ejemplo (notas escolares) que construí hace años cuando daba el curso de Análisis Multivariado. ¡Un saludo!

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому

      Muchas gracias por sus palabras Dr. Javier! Y gracias también por el ejemplo de las notas escolares, está muy bien diseñado, demuestra su dominio en el área del Análisis Multivariado. Reciba un abrazo desde México ;)

  • @josecp
    @josecp Рік тому

    Muchas gracias, muy bien explicado.

  • @salvadornunez23
    @salvadornunez23 2 роки тому

    genial todos tus video , gracias por compartir

  • @kasal13081984
    @kasal13081984 2 роки тому

    Hola! De mucha utilidad. Gracias!

  • @franciscofedericomurillovi2727
    @franciscofedericomurillovi2727 4 роки тому +1

    Super la explicacion... muchas gracias...

  • @luenheca
    @luenheca 2 роки тому

    hola. Excelente Explicación

  • @kasal13081984
    @kasal13081984 2 роки тому

    De utilidad, gracias!

  • @jaimehuamanir4244
    @jaimehuamanir4244 4 роки тому

    EXCELENTE CANAL, LO DIFUNDIRE EN MI UNIVERSIDAD

  • @christiandavidvalenzuelago7437
    @christiandavidvalenzuelago7437 3 роки тому

    GRACIAS POR TAN EXCELENTE EXPLICACIÓN!!!

  • @wilmerdelacruzpaucar8343
    @wilmerdelacruzpaucar8343 2 роки тому

    Muy buen video... Aunque la data que manejo está en MM. Buscare el video del otro método (k-means).

  • @only1foryou2
    @only1foryou2 4 роки тому

    Muchas gracias Rocio Chavez por la publicación muy didáctico queda atendible por favor necesito ayuda sabiendo como o que variables considerar con el método cluster para el pronostico de ventas ,estaría muy agradecido por tu pronta respuesta es parte de mi tema de tesis de estos días .

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому

      Hola Walter! Muchas gracias por tus palabras. Acerca de la ayuda, desgraciadamente en estos momentos no podría, me encuentro muy muy ocupada :(
      En cuanto me desocupe, espero crear un video acerca de selección de características, pero en estos momentos no me es posible. Podrías buscar información al respecto en internet para que puedas determinar cuales de las variables con las que cuentas te serían más útiles en tu análisis. Espero que esta infromación te sea de utilidad

    • @only1foryou2
      @only1foryou2 4 роки тому +2

      @@RocioChavezCienciadeDatos Muchas gracias por su pronta respuesta ,bueno si me encuentro en esa duda en estos momentos en saber que variables considerar para el método Cluster y redes neuronales en el contexto de Pronostico de ventas .

  • @DraAnaRamosDiaz
    @DraAnaRamosDiaz 3 роки тому +1

    ¡Gracias!

  • @Diego-ck9zl
    @Diego-ck9zl 4 роки тому +1

    Buen vídeo! ¿Tendrás otro vídeos dónde expliques de la misma manera matemática los demás método para clusters? ¿Y qué libros recomendarías para aprender sobre estos temas de la misma forma? Gracias!

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому +2

      Muchas gracias Diego! Todavía no tengo más videos para los demás métodos, voy comenzando apenas a elaborar los guiones.
      Acerca de libros, sé de uno que está muy completo, se llama "Data Mining, Concepts and Techniques" del autor Jiawei Han, pero no trae el ejemplo numérico como lo hice yo en éste video.
      No recuerdo haber encontrado libros con ese nivel de detalle, es por eso que quise desarrollar el ejemplo con el archivo de las calificaciones para que la explicación fuera fácil de comprender.

  • @betoemanuelcuellaraguirre1379
    @betoemanuelcuellaraguirre1379 2 роки тому

    Muchas Gracias

  • @josed.gonzalez1524
    @josed.gonzalez1524 3 роки тому

    Excelente explicación

  • @RocioChavezCienciadeDatos
    @RocioChavezCienciadeDatos  2 роки тому +2

    Si te fue de utilidad este video y deseas ayudarme a seguir creando contenido, puedes hacerlo de varias formas:
    - Dando clic en "Me gusta" para incrementar la probabilidad de que el algoritmo de UA-cam promueva mi contenido
    - Dejándome un comentario
    - Suscribiéndote a mi canal
    - Compartiendo mi canal en tus redes sociales
    - Presionando el ícono "Gracias" y haciendo una donación

  • @danielapaza8364
    @danielapaza8364 3 роки тому

    Muy buena explicación 🙂

  • @luesug
    @luesug 3 роки тому +2

    Gracias Rocío, buen video, pero tengo una observación, la distancia que calculas para Pedro vs Inés dice 0.65 según tu cuadro, pero el resultado correcto es 1.34, por lo que la distancia mínima ya no sería con Inés, sino, con Ana pues el valor es 1.24.
    Lo mismo sucede con la distancia entre Andrés y Carlos, según tu cuadro es 1.34, pero el resultado correcto es 0.66, en este caso, esta distancia sigue siendo la menor.
    Creo que con esas correcciones la clusterización cambia.
    Gracias por el video nuevamente!

    • @18cosi
      @18cosi 2 роки тому +1

      Justo encontré lo mismo

    • @albertouribegartner8223
      @albertouribegartner8223 Рік тому

      Estoy de acuerdo, buen video, buena explicación, pero si hay unas diferencias en los cálculos que podrían confundir un poco, también entre Luis y Ana encontré diferencias con el vídeo

  • @rodrigopalpa4013
    @rodrigopalpa4013 Рік тому +1

    Hola qué tal? Tengo una duda respecto a la partición de los grupos en el minuto 11:15. Se indica que la línea horizontal color naranja marca la existencia de 5 clúster tal como el gráfico de ¿conjuntos? de la parte inferior a la izquierda. Pero lo que veo en el dendrograma es que a esa altura de la línea naranja existe un clúster conformado por 4 elementos, 2 clúster de 2 elementos y 2 clúster de 1 elemento (que serían Luis y Sonia), es decir, hay 5 clúster pero con una distribución distinta al gráfico inferior a la izquierda. Es correcto? gracias!

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Рік тому

      Hola Rodrigo! Tienes razón. Yo me equivoqué al momento de representar los cinco clusters en el gráfico de la izquierda en el minuto 11:15. Quedarían Inés, Ana, José y Pedro en el primer cluster, Luis en el segundo, Sonia en el tercero, Andrés y Carlos en el cuarto y Lucía y María en el quinto. Una disculpa por mi error y muchas gracias por hacer la aclaración :)

    • @brandonmoralesmusic28
      @brandonmoralesmusic28 7 місяців тому

      @@RocioChavezCienciadeDatos Deberías fijar un comentario explicando eso o editar esa parte del vídeo, fue confuso para mí por eso y busqué la duda en los comentarios.

  • @GestarMind
    @GestarMind 3 роки тому

    Muy útil. Gracias 👍🏻

  • @Chris-rc7vx
    @Chris-rc7vx 3 роки тому

    Muy interesante el video. ¿Que pasa si se usa otra metrica como l_1 o alguna otra para medir la similitud?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  3 роки тому

      El dendrograma se creará con base en el resultado del nivel de similitud detectado por la métrica que estés utilizando

    • @johanahigidio5226
      @johanahigidio5226 3 роки тому

      Muy buena explicación del método.. Interesante saber la matemática de los linkage de Average , Complete y Ward que son los métodos más utilizados en la literatura, por que dan dendrogramss muy bien elaborados. Excelente temáticas de que esta tratando en su canal.

  • @RocioChavezCienciadeDatos
    @RocioChavezCienciadeDatos  4 роки тому +2

    Para llevar a cabo el pre-procesamiento de tus datos y poder obtener
    información confiable en tus análisis, visita mi lista de reproducción
    llamada Pre-procesamiento de Datos en R
    ua-cam.com/play/PLUofJx5RUeFqGJJxKflkhDRTot29M7CYj.html

  • @marianaespinosarodriguez1243
    @marianaespinosarodriguez1243 3 роки тому

    Una pregunta, para hacer los clúster con cuántos datos mínimos se puede realizar, se menciona que esta técnica se puede aplicar en poblaciones menores de 10000 pero con que población mínima se puede aplicar

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  3 роки тому

      Hola Mariana, en esta técnica, a diferencia de la estadística, no hay una cantidad mínima de datos ;)

  • @migdrp
    @migdrp 4 роки тому +1

    Acabo de encontrar una mina de oro!

  • @ValVReyes202
    @ValVReyes202 3 роки тому +1

    Buenas Noches Rocío , me encanta tu explicación y la aplicación del método de Clustering Jerárquico es muy entendible 🥳, sin embargo siempre me gusta seguir los videos también para aprender y se me quede grabado los métodos :3 , y cuando estaba hallando las distancias euclidianas me di cuenta que la distancia entre Pedro e Inés resultó 1.34 aprox y la de Andrés con Carlos 0.65 aprox , lo cual difiere de tu video :c , justo esos dos valores te salieron viceversa , por lo que no sé si soy yo el que hizo algún método mal please :c ; y además al momento de obtener dichas distancias y tener agrupados los elementos similares ¿Cómo lo ubicas por así decirlo en el "diagrama de Venn" dichos clústeres, veo que los separas dichas distancias algunos clústeres, pero no veo cómo :c? , de antemano agradezco la respuesta a mis dos incógnitas :3 y recalco GRAN VIDEO :3 🙌

    • @Onnti
      @Onnti Рік тому

      exactamente lomismo

  • @RocioChavezCienciadeDatos
    @RocioChavezCienciadeDatos  4 роки тому +1

    Si deseas conocer acerca del clustering K-Means, que es otro método útil en el análisis exploratorio, puedes ver el video Clustering con K-Means. Explicación Matemática y Mucho más… ua-cam.com/video/n98fnSEoRiM/v-deo.html

  • @jortigasperu
    @jortigasperu 5 місяців тому

    hola, se podría determinar el numero optimo de clusters, con solo ver el dendrograma?, saludos

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  5 місяців тому +1

      Hola! Si, cuando se tiene conocimiento del área, se podría determinar visualmente en donde hace más sentido hacer la agrupación de los individuos

  • @tatianatrujillo8691
    @tatianatrujillo8691 8 місяців тому

    Rocío o alguien de la comunidad, tengo una duda, para utilizar el clustering jerárquico tambn tengo que estandarizar los valores o no es necesario? Si me pueden orientar se los agradecería mucho

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  8 місяців тому +1

      Hola Tatiana! Es recomendable estandarizar los datos para que queden todos en la misma escala y evitar que las variables que contengan valores más altos vayan a dominar al momento de calcular las distancias entre los individuos.

    • @tatianatrujillo8691
      @tatianatrujillo8691 8 місяців тому

      @@RocioChavezCienciadeDatos , de nuevo Muchas gracias

    • @tatianatrujillo8691
      @tatianatrujillo8691 8 місяців тому

      @@RocioChavezCienciadeDatos, una consulta en esta misma linea, mis datos además de ser una muestra pequeña tenían muchos nulos, que por la naturaleza de la investigación no me los podía cargar, por lo que los impute con un valor fuera de rango, intente la estandarización pero no me salió, entiendo que es por esto, si consideras que es mucho para preguntar por acá no hay problema.

  • @robinromero792
    @robinromero792 4 роки тому +1

    tengo un pregunta. siempre tengo que formar los primeros clusters de dos en dos?, como se aria en el caso de que la cantidad de estudiantes fuera impar?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому

      Hola Robin! En el primer cálculo habría uno que se quedaría solito, que sería el que es más diferente al resto, y en la siguiente iteración, se integrará a la rama mas cercana a su valor.

  • @negretebenja
    @negretebenja 3 роки тому

    Rocio, en que carrera universitaria y en que ramo/catedra se esta enseñando estas materias? Muy buen video super explicativo, se agradece.

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  3 роки тому

      Hola Ben! Muchas gracias por tus palabras acerca del video. Hasta donde yo sé, estas materias todavía forman parte de la formación a nivel de maestría o doctorado (En México existen maestrías en Ciencia de Datos), sin embargo, estoy segura de que poco a poco se irán haciendo más comunes de manera que se impartirán a la par de la estadística, ya que esta ya no es posible aplicarla al 100% de los datos que se tienen hoy en día debido a la enorme cantidad que se tienen almacenados.

    • @negretebenja
      @negretebenja 3 роки тому

      ​@@RocioChavezCienciadeDatos Estoy de acuerdo con los que dices, de a poco debiesen ser parte de planes de estudio de pregrado. Gracias por la pronta respuesta, y me suscribo para seguir tus videos jejej saludos desde Chile.

  • @smontesleon
    @smontesleon 4 роки тому +1

    Felicitaciones Rocío, tus vídeos son muy bien explicados, saludos desde Ecuador, desearía conocer sobre tus publicaciones . Cómo te encuentro en Resultados de búsqueda Google Scholar

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому

      Muchas gracias Sergio. En mi perfil de LinkedIn puedes ver los links a los papers que he publicado: www.linkedin.com/in/rocio-chavez-6a365542/

  • @fpejavier
    @fpejavier Рік тому

    Puedo hacer clúster con valores < 0, se puede hacer agrupamiento no supervisado con valores negativos?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Рік тому +1

      Hola! Sí se puede

    • @fpejavier
      @fpejavier Рік тому

      @@RocioChavezCienciadeDatos Gracias, estoy haciendo clustering con valor en riesgo de índices bursátiles

    • @fpejavier
      @fpejavier Рік тому

      @@RocioChavezCienciadeDatos Los objetos pueden agruparse correctamente si sólo tienen una característica ? Tengo 13 objetos (índices bursátiles) con una sola característica, el VaR, es una serie de tiempo de 2 años con periodicidad diaria

    • @fpejavier
      @fpejavier Рік тому

      @@RocioChavezCienciadeDatos Pir cierto, te sigo desde hace tiempo y me gusta mucho tu contenido.

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  Рік тому

      @@fpejavier Sí se puede. En el canal tengo un video acerca de clustering de series de tiempo

  • @silvering2010
    @silvering2010 4 роки тому +1

    Linda voz 😍... es hipnótica 😅

  • @simonaalexandru9565
    @simonaalexandru9565 2 роки тому

    como principio entendí algo, no soy ni matematica, ni informática. Pero si es clasificación automática e datos, ¿esto se realiza con algun programa informático? gracias

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  2 роки тому +1

      Hola Simona! Puedes utilizar R o Python, puedes ver como instalar los programas y desarrollar el código en mi canal ;)

    • @simonaalexandru9565
      @simonaalexandru9565 2 роки тому

      @@RocioChavezCienciadeDatos gracias!

  • @sergiocastrosercas
    @sergiocastrosercas 4 роки тому

    me gustó tu video, pero tendrás el explicativo de K-MEANS? y un ejemplo de uso en python?

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому +1

      Muchas gracias Sergio. Todavía no los tengo listos, pero están dentro de los próximos que haré ;)

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому

      Hola Sergio! El video de la explicación del K-Means está en ua-cam.com/video/n98fnSEoRiM/v-deo.html, espero que ya lo hayas podido ver ;)

  • @diegolalaleo1243
    @diegolalaleo1243 4 роки тому

    Saludos, la simulacion con los resultados de la explicacion se encuentra en otro video?

  • @romeloker527
    @romeloker527 4 роки тому

    como puedo saber que metodo de metrica es el mejor? de que depende?.......

    • @RocioChavezCienciadeDatos
      @RocioChavezCienciadeDatos  4 роки тому +2

      Hola Romer! Depende del tipo de variables que vayas a analizar, por ejemplo, si tienes variables binarias como cuando creas variables dummies, utilizas la distancia de Jaccard, si tienes variables numéricas utilizas la distancia Euclidea o la de Manhattan, entre otras que existen. La más común es la Euclídea, pero depende del problema que estés analizando, por ejemplo, en el análisis de procesos biológicos, hasta donde yo he visto, recomiendan ésta que te menciono y lo determinaron en base a pruebas con diferentes distancias y mostrando los resultados a expertos en esa área.

  • @joseluisbenitez883
    @joseluisbenitez883 3 роки тому

    Hola, con profesores como Rocio y otros he visto que se ha roto el paradigma de las definiciones formales. Creo que las definiciones formales, con rigor matemático son esenciales ; para guardar el conocimiento en forma precisa, sin embargo no son didácticas , cuando iniciamos en un tema es mejor usar manzanitas y peras , ver ejemplos reales, prácticos para iniciar a tener una idea de lo que se habla, una buena parte de las personas ya hemos observado en la vida cotidiana los fenómenos que se describen y los problemas que resuelven los temas rigurosos. La ciencia solo formaliza lo que el sentido común ya nos ha mostrado. Por ejemplo casi todos (hasta los que jamás estuvieron en ningún tipo de escuela) podemos distinguir entre ir lento e ir rápido. La física define formalmente la velocidad , pero ... a los alumnos les es difícil entender las clases de esta materia porque no se les habla en su idioma , en su contexto. Aplaudo a los maestros como Rocio que en forma inicial habla de los conceptos en forma informal, cotidiana. Repito una vez entendido y aprendido es importante definir y registrar en forma rigurosamente formal los conceptos. Esos libros o apuntes serán sagrados pero no dirigidos como material para quien se inicia en los temas. Muchas gracias Rocio , toda mi admiración y respeto hacia tí, y todos los muchos que tienes ese estilo de trabajo.

  • @RocioChavezCienciadeDatos
    @RocioChavezCienciadeDatos  4 роки тому +2

    Si estás interesado en conocer acerca de un algoritmo utilizado en el
    desarrollo de sistemas de recomendación, te recomiendo que veas mi video
    Algoritmo Apriori en R ua-cam.com/video/h7hOQWfhgh8/v-deo.html ... ;)

  • @rubyesmeralda6707
    @rubyesmeralda6707 2 роки тому

    en el minuto 4:46 el resultado pedro-ines es 1.38

  • @RocioChavezCienciadeDatos
    @RocioChavezCienciadeDatos  3 роки тому

    Si estás interesado en adquirir alguno de mis cursos en línea, vista mi página web rociochavezml.com/cursos-en-linea/ ;)

  • @juliomonterollanca4017
    @juliomonterollanca4017 2 роки тому

    No me queda claro como determinar el número óptimo de clústers :(

  • @zoegodzilla
    @zoegodzilla 3 роки тому

    O sea, mil comerciales para tu video, muy bueno el video, pero pasado de lanza con tanto comercial, hasta perdía el hilo