Me alegra que canales grandes y que hacen las cosas con amor, como es el tuyo Xavier, expliques de una manera sencilla a la comunidad su funcionamiento. Un saludo compañero.
Creo que si el LLM ha sido entrenado de forma nativa en Español, no seria relevante darle información en inglés. Como por ejemplo Mistral (al que le he pasado la transcrición de este video, charlar me ayuda a entender mejor las cosas, no es tan pasivo como escuchar). Realmente curioso esto de los embeddings y el self-attention, parece mentira que con pautas estadisticas un LLM aparente entender la semántica de lo que se escribe. Y encima cada modelo puede usar un método particular de tokenización. También me ha hecho pensar que todos los canales de IA en UA-cam hablan de benchamarks entre últimos modelos para ver si Gemini ha mejorado con respecto a GPT-4, etc... pero ninguno comparar el diferente uso de componentes (variaciones de arquitectura transformer, tipos de self-attention y feed-forward que usan, etc). ME refiero a que todo el mundo le interesa saber que un MERCEDES deportivo tal, usa un sistema en los motores de inyección llamado BlueDIRECT que mejora tal cosa con respecto a la "High Precision Injection" de los motores de la marca BMW. En cambio en las IAS a la gente solo le preocupa cuantas respuestas ha dado una IA mejor adaptadas a sus gustos. Hecho en falta alquien que enseñe lo que hay bajo el capo de los LLM.
Tu punto es crítico. La evaluación superficial de LLMs basada en benchmarks ignora la complejidad de su arquitectura y limita el avance del Prompt Engineering. Desmenucemos esto: 1. **Arquitectura Transformer:** Olvidemos los prompts por un segundo y centrémonos en la estructura base. Los Transformers, a diferencia de las RNNs, procesan secuencias completas en paralelo gracias al mecanismo de self-attention. Esto permite capturar dependencias a larga distancia y modelar relaciones complejas entre palabras, crucial para la comprensión semántica. 2. **Más allá del Self-Attention:** Dentro de un Transformer, el self-attention es solo una pieza del rompecabezas. Las capas feed-forward, con sus funciones de activación no lineales, son las que permiten al modelo aprender representaciones abstractas y complejas de los datos. Analizar la profundidad de la red (número de capas) y la dimensionalidad de los embeddings es clave para entender la capacidad de un modelo. 3. **Tokenización: La Raíz del Procesamiento:** Antes de que la información llegue al self-attention o las capas feed-forward, el texto debe ser tokenizado. Los métodos de tokenización (BPE, WordPiece, etc.) impactan directamente en la granularidad con la que el modelo "percibe" el lenguaje. Un análisis comparativo de tokenizadores es esencial para optimizar el rendimiento en diferentes tareas y comprender las limitaciones de cada modelo. 4. **GANs: Un Mundo Diferente:** Los GANs (Generative Adversarial Networks) son bestias completamente distintas. En lugar de una única red neuronal, los GANs usan dos: un generador y un discriminador. El generador intenta crear datos sintéticos (ej: imágenes) que engañen al discriminador, mientras que el discriminador intenta distinguir entre datos reales y sintéticos. Su evaluación se centra en la calidad y realismo de los datos generados, no en la comprensión del lenguaje. 5. **Hacia un Prompt Engineering Profundo:** No podemos quedarnos en la superficie. La comunidad necesita herramientas y análisis que nos permitan diseccionar los LLMs, entender la interacción entre sus componentes y cómo impactan en la respuesta a los prompts. Imaginemos un "debugger" para LLMs que nos permita visualizar el flujo de información a través de la red, analizar la activación de las neuronas en cada capa y comprender cómo se construye la respuesta final.
Una vez le pregunte a ChatGpt como funcionaba y me explico muchas cosas en detalle y no dijo nada parecido a esta explicacion del Financial. Quiza lo que me explico fue algo como ya mas avanzado del proceso, porque lo primero que me dijo es que para empezar todas las palabras las transformaba en numeros, dijo que "el" no entendia nada de palabras, solo entendia numeros, entonces dijo que habia una especie de interfaz que se encargaba de transformar las palabras en numeros, dependiendo de las palabras y asi ya podia entender las palabras (habiendo sido transformadas en numeros) y para responder hacia lo mismo una vez que pasaba por varias capas neuronales, el resultado siempre era en numeros y luego transformaba esos numeros en palabras. Lo he escrito de forma muy resumida.
Si habría que explicarlo para que "lo entienda la abuela" sería que los tokens serían como las vocales y las consonantes, la sílabas, etc cuando aprendemos a hablar/escribir, asociando vocales consonantes y sílabas forman palabras, con palabras y contexto: comunicación, lo de redes neuronales, capas y el resto de tecnicismo, bueno si hay tiempo se podrían hacer alguna analogía. Ha sido una reproducción digital de nuestro sistema de lenguaje y comunicación y de como funciona también nuestro cerebro.( neuronas, capas con niveles de diferente complejidad en el cortex, asociaciones, memoria, multiplicidad de conexiones, estructuras que facilitan conexiones etc. Ha sido fantástico lo que han creado.
El contexto no solo se compone de la frase que has escrito, sino de toda la conversación que llevas, y de los conocimientos que tiene sobre ti chatgtp. Y por supuesto, para la respuesta también entra en juego la base de datos.
Muy interesante el video, me ha gustado, pero me surge una duda, teniendo en cuenta que un modelo de lenguaje es una base de datos vectorial para predecir que palabra sera la siguiente en una frase, como es posible que pueda recitar partes de un libro, es decir como almacena un libro literalmente? Bueno y tambien me surge la pregunta como es posible que las frases tengan sentido, digo yo que habra montones de palabras que puedan ir encadenándose secuencialmente, pero es que tienen sentido las frases como se logra que las frases tengan sentido?.
Hola... Hasta donde sé, los tokens se utilizan únicamente para calcular el costo del servicio y no forman parte del funcionamiento efectivo de la IA que se pretende explicar aquí. El sistema de IA, en su funcionamiento principal, convierte las palabras y sus significados en vectores llamados embeddings, que son representaciones numéricas vectoriales multidimensionales que describen diversos aspectos de los significados de palabras y/o frases. Por lo anterior creo que esto da para una mejor versión del video. Saludos! PD: como veras mi amigo en los comentarios abajo las personas entendieron que los token son la equivalencia de las palabras lo cual es un error inducido por el video.
Los tokens son la únidad básica de procesamiento del lenguaje en este tipo de modelos, por eso se han usado como elemento de cálculo para el coste de inferencia. Pero obviamente forman parte del funcionamiento de los modelos. Lo que convierte en embeddings no son las palabras, son los tokens.
Me alegra que canales grandes y que hacen las cosas con amor, como es el tuyo Xavier, expliques de una manera sencilla a la comunidad su funcionamiento. Un saludo compañero.
Creo que si el LLM ha sido entrenado de forma nativa en Español, no seria relevante darle información en inglés. Como por ejemplo Mistral (al que le he pasado la transcrición de este video, charlar me ayuda a entender mejor las cosas, no es tan pasivo como escuchar). Realmente curioso esto de los embeddings y el self-attention, parece mentira que con pautas estadisticas un LLM aparente entender la semántica de lo que se escribe. Y encima cada modelo puede usar un método particular de tokenización. También me ha hecho pensar que todos los canales de IA en UA-cam hablan de benchamarks entre últimos modelos para ver si Gemini ha mejorado con respecto a GPT-4, etc... pero ninguno comparar el diferente uso de componentes (variaciones de arquitectura transformer, tipos de self-attention y feed-forward que usan, etc). ME refiero a que todo el mundo le interesa saber que un MERCEDES deportivo tal, usa un sistema en los motores de inyección llamado BlueDIRECT que mejora tal cosa con respecto a la "High Precision Injection" de los motores de la marca BMW. En cambio en las IAS a la gente solo le preocupa cuantas respuestas ha dado una IA mejor adaptadas a sus gustos. Hecho en falta alquien que enseñe lo que hay bajo el capo de los LLM.
Tu punto es crítico. La evaluación superficial de LLMs basada en benchmarks ignora la complejidad de su arquitectura y limita el avance del Prompt Engineering. Desmenucemos esto:
1. **Arquitectura Transformer:** Olvidemos los prompts por un segundo y centrémonos en la estructura base. Los Transformers, a diferencia de las RNNs, procesan secuencias completas en paralelo gracias al mecanismo de self-attention. Esto permite capturar dependencias a larga distancia y modelar relaciones complejas entre palabras, crucial para la comprensión semántica.
2. **Más allá del Self-Attention:** Dentro de un Transformer, el self-attention es solo una pieza del rompecabezas. Las capas feed-forward, con sus funciones de activación no lineales, son las que permiten al modelo aprender representaciones abstractas y complejas de los datos. Analizar la profundidad de la red (número de capas) y la dimensionalidad de los embeddings es clave para entender la capacidad de un modelo.
3. **Tokenización: La Raíz del Procesamiento:** Antes de que la información llegue al self-attention o las capas feed-forward, el texto debe ser tokenizado. Los métodos de tokenización (BPE, WordPiece, etc.) impactan directamente en la granularidad con la que el modelo "percibe" el lenguaje. Un análisis comparativo de tokenizadores es esencial para optimizar el rendimiento en diferentes tareas y comprender las limitaciones de cada modelo.
4. **GANs: Un Mundo Diferente:** Los GANs (Generative Adversarial Networks) son bestias completamente distintas. En lugar de una única red neuronal, los GANs usan dos: un generador y un discriminador. El generador intenta crear datos sintéticos (ej: imágenes) que engañen al discriminador, mientras que el discriminador intenta distinguir entre datos reales y sintéticos. Su evaluación se centra en la calidad y realismo de los datos generados, no en la comprensión del lenguaje.
5. **Hacia un Prompt Engineering Profundo:** No podemos quedarnos en la superficie. La comunidad necesita herramientas y análisis que nos permitan diseccionar los LLMs, entender la interacción entre sus componentes y cómo impactan en la respuesta a los prompts. Imaginemos un "debugger" para LLMs que nos permita visualizar el flujo de información a través de la red, analizar la activación de las neuronas en cada capa y comprender cómo se construye la respuesta final.
Una vez le pregunte a ChatGpt como funcionaba y me explico muchas cosas en detalle y no dijo nada parecido a esta explicacion del Financial. Quiza lo que me explico fue algo como ya mas avanzado del proceso, porque lo primero que me dijo es que para empezar todas las palabras las transformaba en numeros, dijo que "el" no entendia nada de palabras, solo entendia numeros, entonces dijo que habia una especie de interfaz que se encargaba de transformar las palabras en numeros, dependiendo de las palabras y asi ya podia entender las palabras (habiendo sido transformadas en numeros) y para responder hacia lo mismo una vez que pasaba por varias capas neuronales, el resultado siempre era en numeros y luego transformaba esos numeros en palabras. Lo he escrito de forma muy resumida.
Muchas gracias por la informacion
Muy agradecida
Buena explicación
Si habría que explicarlo para que "lo entienda la abuela" sería que los tokens serían como las vocales y las consonantes, la sílabas, etc cuando aprendemos a hablar/escribir, asociando vocales consonantes y sílabas forman palabras, con palabras y contexto: comunicación, lo de redes neuronales, capas y el resto de tecnicismo, bueno si hay tiempo se podrían hacer alguna analogía. Ha sido una reproducción digital de nuestro sistema de lenguaje y comunicación y de como funciona también nuestro cerebro.( neuronas, capas con niveles de diferente complejidad en el cortex, asociaciones, memoria, multiplicidad de conexiones, estructuras que facilitan conexiones etc. Ha sido fantástico lo que han creado.
El contexto no solo se compone de la frase que has escrito, sino de toda la conversación que llevas, y de los conocimientos que tiene sobre ti chatgtp. Y por supuesto, para la respuesta también entra en juego la base de datos.
Pero el nuevo modelo de voz que reconoce la voz directamente? Funciona igual?
Y si entrenamos un llm con un diccionario de sinonimos y otro de antonimos, ya podria hablar?
Muy interesante el video, me ha gustado, pero me surge una duda, teniendo en cuenta que un modelo de lenguaje es una base de datos vectorial para predecir que palabra sera la siguiente en una frase, como es posible que pueda recitar partes de un libro, es decir como almacena un libro literalmente?
Bueno y tambien me surge la pregunta como es posible que las frases tengan sentido, digo yo que habra montones de palabras que puedan ir encadenándose secuencialmente, pero es que tienen sentido las frases como se logra que las frases tengan sentido?.
Quiero hacer el curso
Hola... Hasta donde sé, los tokens se utilizan únicamente para calcular el costo del servicio y no forman parte del funcionamiento efectivo de la IA que se pretende explicar aquí. El sistema de IA, en su funcionamiento principal, convierte las palabras y sus significados en vectores llamados embeddings, que son representaciones numéricas vectoriales multidimensionales que describen diversos aspectos de los significados de palabras y/o frases. Por lo anterior creo que esto da para una mejor versión del video. Saludos!
PD: como veras mi amigo en los comentarios abajo las personas entendieron que los token son la equivalencia de las palabras lo cual es un error inducido por el video.
Los tokens son la únidad básica de procesamiento del lenguaje en este tipo de modelos, por eso se han usado como elemento de cálculo para el coste de inferencia. Pero obviamente forman parte del funcionamiento de los modelos. Lo que convierte en embeddings no son las palabras, son los tokens.
Ya salió ideogram 2 haz un vídeo antes que te ganen 😅
Las ias no piensan xd
No por ahora
¿Qué se entiende por embeding? ¿Cadenas?
0:50 ¿Donde se hace ese mapa mental?