Excelente!!! Consulta, si quiero hacer Fine Tuning de algún modelo, con información propia en formato PDF por ejemplo, ¿debo convertirlos a Datasets ? ¿Hay alguna pauta? Sería interesante algún video del tema. Hay muchos videos de Fine Tuning, pero los que he visto son utilizando datasets existentes. Gracias, saludos desde Chile.
Muchas gracias por el comentario!! Para hacer el fine tunning como tal puede ser suficiente con extraer el texto de los PDFs y montar un corpus con el, pero lo que aporta mas valor es generar un dataset para la parte del Instruct y hay que tener el dataset en formato pregunta, respuesta (es mas complicado de formatear) y aqui puedes seguir el formato de los ejemplos que comentas. Te recomiendo meterte en el discord de somosnlp y comentarlo, seguro que alguien te ayuda e incluso encuentras equipo para realizar tu idea 😄
Buenas Alex veo que hay muchos videos de como utilizar modelos, hacer fine-tunning, etc. Pero casi ninguno de como crear un dataset, estaría genial si hicieras un video acerca de esto así mas personas pueden contribuir a la comunidad español con mas modelos entrenados con dataset en español. Gracias por los videos! Saludos.
¡Hola! ¡Gracias por tu sugerencia! Definitivamente, crear un dataset es un paso crucial y a menudo subestimado en el proceso de desarrollo de modelos de inteligencia artificial. Estoy de acuerdo en que sería muy útil para la comunidad hispanohablante tener más recursos sobre cómo crear y etiquetar datasets en español. ¡Lo tendré en cuenta para futuros vídeos! de mometo en Somos NLP seguro que encuentras consejos.
Muy interesante eso que propones de comparar distintos LLMs para español e incluso alguno mas grande que mistral 7b (; estoy haciendo algo parecido y me gustaria ver cómo los evaluas. A parte de metricas generales, para text-classification (binaria y multilabel) y text-summarization tienes en mente como hacerlo para tareas especificas, mas allá de las metricas tipicas de recall,precision, F1 o accuracy?. Muchas gracias por el video. Saludos.
Pues es un tema muy complejo, estoy leyendo bastante sobre esto ultimamente y la clave es tener un buen dataset para poder medirlo. Creo que con los equipos que están participando en el hackthon saldran cosas interesantes que podremos usar y ya lo contare en el canal 😄 y si finalmente consigues que funcione soy todo oidos
Si, seria muy importante hacer una comparativa y saber que modelos en español son los mas adecuados para utilizar, porque como dijiste hay unos en ingles pero no funcionan muy bien en el español.
Gracias por el comentario!! Una de las propuestas del Hackathon es justo eso, crear un leaderboard para medir modelos, también quiero investigarlo para traer un video en el futuro.
hola, soy nuevo en canal, te gustaría ese video sobre comparativa de modelos de código abierto como llama Gema etc. saludos
Gracias por avisar de estas cosas!! pensaba que solo se hacían en Kaggle y esos sitios, me apunto!
Para eso estamos 😁
interesante
Excelente!!!
Consulta, si quiero hacer Fine Tuning de algún modelo, con información propia en formato PDF por ejemplo, ¿debo convertirlos a Datasets ? ¿Hay alguna pauta?
Sería interesante algún video del tema. Hay muchos videos de Fine Tuning, pero los que he visto son utilizando datasets existentes.
Gracias, saludos desde Chile.
Muchas gracias por el comentario!! Para hacer el fine tunning como tal puede ser suficiente con extraer el texto de los PDFs y montar un corpus con el, pero lo que aporta mas valor es generar un dataset para la parte del Instruct y hay que tener el dataset en formato pregunta, respuesta (es mas complicado de formatear) y aqui puedes seguir el formato de los ejemplos que comentas. Te recomiendo meterte en el discord de somosnlp y comentarlo, seguro que alguien te ayuda e incluso encuentras equipo para realizar tu idea 😄
Buenas Alex veo que hay muchos videos de como utilizar modelos, hacer fine-tunning, etc. Pero casi ninguno de como crear un dataset, estaría genial si hicieras un video acerca de esto así mas personas pueden contribuir a la comunidad español con mas modelos entrenados con dataset en español.
Gracias por los videos! Saludos.
¡Hola! ¡Gracias por tu sugerencia! Definitivamente, crear un dataset es un paso crucial y a menudo subestimado en el proceso de desarrollo de modelos de inteligencia artificial. Estoy de acuerdo en que sería muy útil para la comunidad hispanohablante tener más recursos sobre cómo crear y etiquetar datasets en español. ¡Lo tendré en cuenta para futuros vídeos! de mometo en Somos NLP seguro que encuentras consejos.
Muy interesante eso que propones de comparar distintos LLMs para español e incluso alguno mas grande que mistral 7b (; estoy haciendo algo parecido y me gustaria ver cómo los evaluas. A parte de metricas generales, para text-classification (binaria y multilabel) y text-summarization tienes en mente como hacerlo para tareas especificas, mas allá de las metricas tipicas de recall,precision, F1 o accuracy?. Muchas gracias por el video. Saludos.
Pues es un tema muy complejo, estoy leyendo bastante sobre esto ultimamente y la clave es tener un buen dataset para poder medirlo. Creo que con los equipos que están participando en el hackthon saldran cosas interesantes que podremos usar y ya lo contare en el canal 😄 y si finalmente consigues que funcione soy todo oidos
Si, seria muy importante hacer una comparativa y saber que modelos en español son los mas adecuados para utilizar, porque como dijiste hay unos en ingles pero no funcionan muy bien en el español.
Gracias por el comentario!! Una de las propuestas del Hackathon es justo eso, crear un leaderboard para medir modelos, también quiero investigarlo para traer un video en el futuro.
Llegue tarde