PROYECTOS NLP y MODELOS LLM en Español HACKATHON

Поділитися
Вставка
  • Опубліковано 7 січ 2025

КОМЕНТАРІ • 13

  • @michaeleusebio4212
    @michaeleusebio4212 6 місяців тому +1

    hola, soy nuevo en canal, te gustaría ese video sobre comparativa de modelos de código abierto como llama Gema etc. saludos

  • @nextgen8576
    @nextgen8576 10 місяців тому +1

    Gracias por avisar de estas cosas!! pensaba que solo se hacían en Kaggle y esos sitios, me apunto!

    • @alexFocus8
      @alexFocus8  10 місяців тому

      Para eso estamos 😁

  • @insecureup
    @insecureup 10 місяців тому +1

    interesante

  • @guillermocaballeromartel9110
    @guillermocaballeromartel9110 10 місяців тому +1

    Excelente!!!
    Consulta, si quiero hacer Fine Tuning de algún modelo, con información propia en formato PDF por ejemplo, ¿debo convertirlos a Datasets ? ¿Hay alguna pauta?
    Sería interesante algún video del tema. Hay muchos videos de Fine Tuning, pero los que he visto son utilizando datasets existentes.
    Gracias, saludos desde Chile.

    • @alexFocus8
      @alexFocus8  10 місяців тому

      Muchas gracias por el comentario!! Para hacer el fine tunning como tal puede ser suficiente con extraer el texto de los PDFs y montar un corpus con el, pero lo que aporta mas valor es generar un dataset para la parte del Instruct y hay que tener el dataset en formato pregunta, respuesta (es mas complicado de formatear) y aqui puedes seguir el formato de los ejemplos que comentas. Te recomiendo meterte en el discord de somosnlp y comentarlo, seguro que alguien te ayuda e incluso encuentras equipo para realizar tu idea 😄

  • @virgilitech
    @virgilitech 9 місяців тому

    Buenas Alex veo que hay muchos videos de como utilizar modelos, hacer fine-tunning, etc. Pero casi ninguno de como crear un dataset, estaría genial si hicieras un video acerca de esto así mas personas pueden contribuir a la comunidad español con mas modelos entrenados con dataset en español.
    Gracias por los videos! Saludos.

    • @alexFocus8
      @alexFocus8  9 місяців тому

      ¡Hola! ¡Gracias por tu sugerencia! Definitivamente, crear un dataset es un paso crucial y a menudo subestimado en el proceso de desarrollo de modelos de inteligencia artificial. Estoy de acuerdo en que sería muy útil para la comunidad hispanohablante tener más recursos sobre cómo crear y etiquetar datasets en español. ¡Lo tendré en cuenta para futuros vídeos! de mometo en Somos NLP seguro que encuentras consejos.

  • @javiersanchezgrinan9041
    @javiersanchezgrinan9041 10 місяців тому

    Muy interesante eso que propones de comparar distintos LLMs para español e incluso alguno mas grande que mistral 7b (; estoy haciendo algo parecido y me gustaria ver cómo los evaluas. A parte de metricas generales, para text-classification (binaria y multilabel) y text-summarization tienes en mente como hacerlo para tareas especificas, mas allá de las metricas tipicas de recall,precision, F1 o accuracy?. Muchas gracias por el video. Saludos.

    • @alexFocus8
      @alexFocus8  10 місяців тому +1

      Pues es un tema muy complejo, estoy leyendo bastante sobre esto ultimamente y la clave es tener un buen dataset para poder medirlo. Creo que con los equipos que están participando en el hackthon saldran cosas interesantes que podremos usar y ya lo contare en el canal 😄 y si finalmente consigues que funcione soy todo oidos

  • @pw4645
    @pw4645 10 місяців тому

    Si, seria muy importante hacer una comparativa y saber que modelos en español son los mas adecuados para utilizar, porque como dijiste hay unos en ingles pero no funcionan muy bien en el español.

    • @alexFocus8
      @alexFocus8  10 місяців тому +1

      Gracias por el comentario!! Una de las propuestas del Hackathon es justo eso, crear un leaderboard para medir modelos, también quiero investigarlo para traer un video en el futuro.

  • @pptmtz
    @pptmtz 8 місяців тому

    Llegue tarde