BitNets: La ERA de las REDES NEURONALES de 1 BIT!
Вставка
- Опубліковано 18 тра 2024
- Contar con IAs más potentes y que consuman menos es posible. En un nuevo trabajo presentado por Microsoft han presentado un nuevo tipo de red neuronal que lleva la cuantización de los parámetros casi al extremo teórico, codificándolos en 1.58bits. Hoy vamos a hablar de este importante avance que podría suponer una revolución en el campo del Deep Learning.
► BitNet 1.58b (PAPER): arxiv.org/pdf/2402.17764
📹 EDICIÓN: Carlos Santana y Diego Gonzalez (Diocho)
-- ¡MÁS DOTCSV! ---
📣 NotCSV - ¡Canal Secundario!
/ notcsv
💸 Patreon : / dotcsv
👓 Facebook : / ai.dotcsv
👾 Twitch!!! : / dotcsv
🐥 Twitter : / dotcsv
📸 Instagram : / dotcsv
- ¡MÁS CIENCIA! --
🔬 Este canal forma parte de la red de divulgación de SCENIO. Si quieres conocer otros fantásticos proyectos de divulgación entra aquí:
scenio.es/colaboradores - Наука та технологія
✨ ACLARACIÓN: ¿Usar -1,0,1 es un único bit? ✨
En realidad el paper original que se publicó en Octubre y que introdujo las BitNets usaban sólo -1 y 1 para los parámetros. En ese caso con dos combinaciones sí podía representarse con un único bit. Luego en Febrero en un nuevo paper esto cambió a -1, 0 y 1 y el paper conservó el nombre y el título de BitNet y LLMs de 1 bit, pero luego realmente matizaban que era 1.58 bits, valor que sale de calcular el log_2(3) = 1.58. Esto en el vídeo no he entrado a explicarlo para no extender más la explicación, aunque se esconde sutilmente en el subtítulo del minuto 1:57 🙃
Esto es cine señores
Carlos muy bueno el vídeo. Pero creo que faltó algo muy importante por explicar. Cómo es que en el paper logran entrenar algo con esa precisión y obtener buenos resultados? Tu planteas la situación problemática pero no explicas la solución que proponen. Sólo dices que han conseguido buenos resultados con 1.58 bits , pero ni dices que hicieron para lograrlo. Entiendo que me puedo leer el paper pero normalmente de tus videos uno sale con una intuición más sólida. Igualmente es muy buen video. Gracias
Ya echaba de menos un video de esta calidad, por la que empecé a seguir tu canal. Date cuenta que de TODOS los que hablan hoy de IA, tú eres de los MUY POCOS que pueden entender esto que has explicado hoy. Estos es divulgación de la buena!! Gracias. No abandones este tipo de contenidos, porfa 🙂
😊8im😅lp0
Clarísimo!!!
El único canal de ia que explica bien las cosas y con una edición increíble para no aburrirse ❤
hay un muchacho que explico el funcionamiento de las resistencias, transistores y capacitores en minecraft, lo explico mil veces mejor que mi profe de electronica, creo que los youtubers explican para alguien que quiere aprender y se le complica y no a alguien que solo paga.
en efecto... es cine
IA te digo
@@nanchet por eso especifique lo de youtubers por que hay pocos que hablan de un tema y pocos entre esos pocos que lo explican bien.
@@bastianrekiem2925 Hay gente que explica bien y gente que no. No necesitas ser youtuber
Imaginen lo que pasará si el hardware en vez de manejar los valores ternarios como 2 bits binarios, utilizara transistores de 3 estados directamente. No sería necesaria la emulación que deben estar utilizando hoy en día. Haciendo los cambios a nivel de silicio se pegaría un gran salto. Acabo de leer que la lógica ternaria se utiliza en computación cuántica, y tambien podría utilizarse en computación óptica trabajando con dos polarizaciones de luz ortogonales. Por aquí puede venir el próximo gran salto en la ley de Moore.
Es muy difícil que eso ocurra, ya se ha intentado y no es viable ni con la tecnología actual. El problema es que un sistema binario es facil de implementar, por lo cual es sencillo de replicar y escalar. Hay o no hay, 1 o 0. Un sistema ternario, el tercer estado, como lo haces.... 0v es 0, 0.5v es 1, 1v es -1. Esto podría ser una opción, pero controlar y medir voltajes no es sencillo, si tienes en un momento 0.33v, 0,7v, etc... Un sistema para controlar eso bien es muy costoso y complejo, limitando la estabilidad del chip. Por no decir que este sistema limita mucho tener voltajes variables, cuando el chip este en baja carga consumirá lo mismo prácticamente que en alta carga. Un buen camino es la computación cuántica, pero eso es una fumada que difícilmente llegará al mundo del consumidor y si llega será en un largo período de tiempo, muy largo
@@mmcmw2 Si, tienes razon, seria muy complejo. De hecho, los transistores (NPN, o incluso los MosFET) de por si ya tienen 3 estados:
* Saturacion (cuando el voltaje entre emisor y colector es la saturacion del diodo ~0.7V),
* corte (cut off: cuando la corriente de base tiende a cero)
* amplificacion (en el medio). La amplificacion normalmente se utiliza para senales analogicas como para una radio, moduladores o etc, pero ninguna aplicacion digital (que yo conozca).
Yo creeria que se utilizan los estados de saturacion y corte porque es mas facil (intuitivo) representar switches ON/OFF, tambien porque son mas estables.
De ahi se crea el algebra booleana (o algebra de Moore), pero tambien hay operaciones para 3 o mas estados. De hecho, hay sistemas en el que representan 0 (0V), 1 (5V) o "Alta impedancia" (Tambien puede ser -5V, 0V y 5V, si el sistema es diferencial). Esto se utiliza para buses de datos, pero pues no usa el estado de amlificacion del transistor.
No conozco ninguna aplicacion, pero estaria interesante investigar.
Pd: Existen computadores (si se puede llamar asi) que funcionan con senales analogicas, continuas. Por ejemplo los circuitos con amplificadores operacionales (sumadores, restadores). Normalmente funciona con senales sinusoidales y puede utilizar la fase, la amplitud o la frecuencia para los calculos y las comparaciones. Se utiliza bastante en sistemas de control o para la simulacion y modelado de procesos. Pero pues... es muy complejo escalarlo, programarlo o miniaturizarlo (por ejemplo, para controlar periodos, se utilizan capacitancias, las cuales depende del area y la distancia de las placas). No es tan versatil como los procesadores digitales
@ Hay una línea de trabajo con redes neuronales analógicas. Ya hay productos comerciales. Tienen los pesos almacenados como valores analógicos y son programables. La ventaja es que tienen un consumo bajísimo. Pero el tamaño es muy pequeño.
@@AionZeta61 1 qubit por peso de la RN 💀
¡No dejéis de suscribiros y compartir el vídeo para ayudar al canal a llegar al 1.000.000 DE SUBS! 🔥
Estaba esperando este video.
A mi no se me ilumina el botón cuando dice que nos suscribamos u.u
Tu canal es muy educativo, es impresionante.
Ahora ya no te interesa tener 1 millón de subs. Si llegas a esa cifra te tienes que registrar en un registro de influencers para que el estado español te tenga bien atado en corto. Con la nueva ley de influencers
y como representan el -1 con un solo bit? no necesitan un segundo bit para ello?
Si alguien se preguntaba sobre el accuracy de BitNet 1.58. Según los autores este modelo alcanza el mismo accuracy que el modelo en comparación de Llama. Evaluaron perplexity (capacidad de predicción) y end_tasks (razonamiento) para distintos tamaños e incluso llega a dar mejores resultados a partir de 3B. Por lo que el accuracy se mantiene y posee las ventajas ya mencionadas en el video de memoria, latencia y eficiencia energética.
Llevo 40 años programando microprocesadores en ensamblador y no acierto a imaginar cómo conseguís tres valores distintos con un único bit.
tal vez 1.58?
Y porque no 1 prendido 0 apagado -1 para encendiendo osea algo se prendió pero no completamente
Me imagino que tienen matrices predefinidas que hacen la expansión nuevamente, este detalle Microsoft no lo va a regalar así por así
Es sencillo no pueden, son dos publicaciones con el mismo nombre, el primero era solo 1 para + y 0 para - , de ahí+1 y -1, la segunda publicación añadía otro bit (seguramente no para todos los parametros) que hiciera las veces de 0, 1 y 2, que para hacerse los interesantes los pusieron como -1, 0 y 1.
Eso no funcionaria, porque entonces sería equivalente a usar el sistema de base 3 y no habría ninguna ganancia al respecto. @@davidvargas-zl2if
Buenísimo. Solo aclarar un pequeñiiiisimo detalle: que en los enteros en binario negativos no se representan de esa forma simplificada sino en formato de "complemento a dos", por lo que los valores (en 8 bits) van de -128 a +127. Como es algo más difícil de explicar, tampoco está mal la explicación dada, tomándose como una versión simplificada. Es un detalle mínimo. Excelente el video y muy interesante lo que está pasando.
Como efectivamente comentas he preferido no entrar a detallar sobre complemento a dos para no hacer más extensa la explicación. Y por eso he remarcado en 7:27 que se trataba de la representación signo-magnitud. Gracias!
Me parece, no sé si estoy equivocado, pero aún así con la representación simplificada, los números negativos son los que comienzan con 1, y los positivos los que comienzan con 0, sin embargo, parece que en la tabla están al revés 🔄
Literalmente mi clase de informática básica de 1ero de carrera, muy bien explicado y además excluyendo las matemáticas que hay por detrás para que no sea pesado 👍
- 00:00:00 Introducción a la Inteligencia Artificial y el Deep Learning.
- 00:01:56 Avances en eficiencia energética de las redes neuronales.
- 00:04:42 Codificación de números decimales a binario.
- 00:05:56 Limitaciones de representación de valores con bits en informática.
- 00:06:02 Trabajo con 16 bits para ampliar el rango de valores en binario.
- 00:07:17 Representación de números negativos con bits de signo.
- 00:08:39 Representaciones avanzadas para números decimales como float 8, float 16, float 32.
- 00:09:59 Importancia de la precisión en la representación de datos con más bits.
- 00:10:31 Impacto en recursos computacionales al utilizar más bits en una red neuronal.
- 00:11:57 Ejecución de redes neuronales con cuantización para mejorar eficiencia.
- 00:12:27 Reducción de precisión en parámetros para ahorrar memoria.
- 00:13:36 Impacto de la cuantización en la precisión de los modelos.
- 00:14:38 Necesidad de equilibrar eficiencia y precisión en la cuantización.
- 00:15:25 Alternativa de modelos cuantizados extremadamente con un solo bit.
- 00:16:07 Introducción a la cuantización post entrenamiento y cuantización desde cero.
- 00:17:11 Presentación de BitNet 1.58B y su entrenamiento con parámetros de un bit.
- 00:17:46 Entrenamiento de modelos cada vez más grandes.
- 00:18:23 Ahorro energético significativo con BitNet.
- 00:20:23 Necesidad de nuevo hardware para ejecutar arquitecturas eficientes.
- 00:22:42 Oportunidad de rediseñar procesadores para modelos de IA de baja precisión.
- 00:23:17 Comienzo de la era de los modelos del lenguaje de un bit.
- 00:23:21 Camino del millón de suscriptores y conclusiones finales.
cómo haces ésto?
4:40 37 reference
Le dí a ctrl+F para buscar el 37!!!
justamente lei tu comentario cuando hay 37k de vistas
Yo lo vi con 46k de visitas, a las 9 horas. Es decir 46-9 = 37 jajaja que cosa loca.
Veritasium reference?
Tienes un talento increíble para explicar cosas hiper abstractas de una manera super sencilla.
Abrazo de un paisano!
lit lo mismo pienso siempre con este tipo, me podria explicar cualquier cosa super complicada logrando que sea entretenida y pueda llegar a entenderla
Gracias por tomarse el trabajo de difundir esta informacion en Español, ya que todos los papers y videos circulando desde hace 2 meses estan todos en Ingles.
Te agradezco mucho por solo traer el contenido que hace falta.
Muy buen video! Gracias Carlos por tanto, sería mucho pedir si haces un video programando con esta nueva estructura
Felicitarte y darte gracias por tu contenido, lo haces tan simple que hasta para personas como yo que consumimos este contenido por pura curiosidad sin conocimientos previos se haga ameno y muy comprensible, un saludo
Excelente video Carlos. Muy bien explicado.
Al final vamos a terminar haciendo máscaras de bit, como cuando programábamos es assembler 😅
Y también me remite a mi época de administración de redes IP (Cisco) donde nos la pasábamos haciendo operaciones de máscaras de bits.
Estimado Carlos. Muuuuuchas e infinitas gracias por compartir el conocimiento de forma tan didáctica, clara y simple. Eres un crack y nos ayudas a miles de nosotros a entender mejor la Inteligencia Artificial no solo como un acto de saciar la curiosidad, sino para algunos de nosotros, incursionar en crear soluciones, productos y servicios. Aprender no solo a usar la IA es vital sino, aprender a crear nuevos productos, eso si es de utilidad y tus videos en verdad ayudan muchísimo. Gracias nuevamente.
Increible! Esto significa que en un plazo no muy largo, estaremos pudiendo ejecutar IA nativamente en nuestros celulares
muy bien explicado con los dibujos incluidos. Siempre lo haces fenomenal :)
Impresionante explicación!!! Buenísima!
Excelente explicación!! muy completo!!
Fascinante! Gracias Carlos. Eres un crack de la divulgación sobre IA!
Increíble contenido! No pares de mantenernos informados de todo lo que está por llegar!! Gracias!🎉 👏👏💪💪
Aquí me surgen varias cuestiones:
-Como pueden tomar valores de -1 a 1 si para el signo negativo ocupan un bit de signo.
-Hacer operaciones con 0's no favorece el problema del desvanecimiento del gradiente?
-A nivel código como representan un bit si el tamaño de palabra mínimo es usualmente de 1 byte.
1. Realmente no son bits. Pero las operaciones si son de un bit.
2. Desconozco.
3. Hay muchas maneras de hacerlo en SW. La cuestión es hacerlo eficiente. Por ejemplo, puedes usar todo un byte para guardar un solo bit. Una opción más eficiente podría ser guardar 8 entradas en byte...
desconozco las respuestas, pero me imagino que el 0 es equivalente a que no haya una arista entre ambas neuronas, y en caso de que haya el +1 y -1 se definen con un bit de información
se podrian usar bit mask para representar 8 números distintos en un byte
@@javid2340 Y entonces resulta contradictorio al concepto que utilizan.
@@matiasnovabaza8208 En efecto el 0 anula la entrada a la siguiente neurona. Que es lo que causaría el problema del desvanecimiento del gradiente.
Muy didáctico, ameno y bien explicado.
Enhorabuena. Gran trabajo, como siempre.
ME ENCANTA integrarlo a este tema :
🌍 Los mundos abiertos en videojuegos requieren generar contenido masivo de forma procedimental para paisajes, terrenos, edificios, etc.
📦 BitNet y las redes de 1 bit permiten modelos muy compactos que pueden integrarse en sistemas embebidos y dispositivos móviles.
⚡ Su alta eficiencia computacional permite generar contenido en tiempo real sin consumir mucha batería.
🌲 Podrían utilizarse para generar vegetación, árboles, rocas de forma natural y detallada.
🏘 La generación procedimental de ciudades, calles, edificios sería más realista y variada.
💥 Las físicas y simulaciones de destrucción ambiente también se beneficiarían de su alta eficiencia.
🧑🚀 La generación de personajes, animaciones y comportamientos tendría mayor variedad.
🕹 Los sistemas de juego emergentes y la inteligencia artificial de personajes no jugadores serían más complejos.
🔄 Permitiría ciclos de retroalimentación en tiempo real para contenido que evoluciona constantemente.
📲 Los juegos móviles tendrían acceso a estas capacidades de generación masiva de contenido.
Él futuro de los videojuegos be like
@@Aimerxd sale pronto una version que tengo gratis para todos, es basico en unreal, seguro sera un comienzo . de ahi saldran empresas serias y ya logren esto, soy solo un peon que esta haciendo este concepto general optimizado en 3d.
El futuro es hoy.
Pero en que se asemeja la generacion de contenido con la redes neuronales? perdon por mi ignorancia pero pense que la generacion de contenido eran por otras tecnicas como quadtrees por ejemplo
@@RamiroRojasP si , en mi proyecto. La generación de contenido con redes neuronales es una técnica que utiliza modelos de aprendizaje profundo para crear datos sintéticos a partir de datos reales o de texto. Por ejemplo, se puede generar una imagen de un paisaje a partir de una descripción textual, o se puede generar un modelo 3D de un edificio a partir de una imagen 2D. Estos modelos aprenden de los datos existentes y los imitan, creando nuevos ejemplos que son similares pero diferentes a los originales.
La generación de contenido con redes neuronales tiene varias ventajas sobre otras técnicas, como los quadtrees, que son estructuras de datos que dividen el espacio en regiones cuadradas. Algunas de estas ventajas son:
La generación de contenido con redes neuronales puede crear datos más realistas y variados, que capturen la complejidad y la diversidad del mundo real.
La generación de contenido con redes neuronales puede adaptarse a diferentes estilos y géneros, y mezclar elementos de distintas fuentes de inspiración, creando así contenido original y único.
La generación de contenido con redes neuronales puede generar contenido en tiempo real y de forma dinámica, respondiendo a las acciones y eventos que ocurran en el juego, como el clima, el tiempo, el sonido, la luz, etc.
La generación de contenido con redes neuronales puede generar contenido que evolucione constantemente, permitiendo ciclos de retroalimentación entre el jugador y el juego, y creando experiencias únicas e inolvidables.
@@RamiroRojasP en mi proyecto. La generación de contenido con redes neuronales es una técnica que utiliza modelos de aprendizaje profundo para crear datos sintéticos a partir de datos reales o de texto. Por ejemplo, se puede generar una imagen de un paisaje a partir de una descripción textual, o se puede generar un modelo 3D de un edificio a partir de una imagen 2D. Estos modelos aprenden de los datos existentes y los imitan, creando nuevos ejemplos que son similares pero diferentes a los originales.
La generación de contenido con redes neuronales tiene varias ventajas sobre otras técnicas, como los quadtrees, que son estructuras de datos que dividen el espacio en regiones cuadradas. Algunas de estas ventajas son:
La generación de contenido con redes neuronales puede crear datos más realistas y variados, que capturen la complejidad y la diversidad del mundo real.
La generación de contenido con redes neuronales puede adaptarse a diferentes estilos y géneros, y mezclar elementos de distintas fuentes de inspiración, creando así contenido original y único.
La generación de contenido con redes neuronales puede generar contenido en tiempo real y de forma dinámica, respondiendo a las acciones y eventos que ocurran en el juego, como el clima, el tiempo, el sonido, la luz, etc.
La generación de contenido con redes neuronales puede generar contenido que evolucione constantemente, permitiendo ciclos de retroalimentación entre el jugador y el juego, y creando experiencias únicas e inolvidables.
aunque no estoy seguro
que alegría cuando subes video
Excelente, me maravilla todo este tema, y gracias por difundirlo
Qué gran video, he aprendido mucho. Gracias. 👍👏
Que interesante y que bien explicado, gracias!!
Impresionante de verdad enhorabuena!
Teniendo en cuenta la necesidad de un hardware más especifico para la Inteligencia Artificial ¿Es posible que las computadoras análogas vuelvan?
Veritasium habló sobre esto, los procesadores estan llegando a una disminución de tamaño ya imposible de realizarse por temas físicos,de campos eléctricos y otros efectos y quizás la alternativa a esto sea volver a lo análogo, es curioso siendo que pensamos que es obsoleto todo lo análogo, tengamos que ver de nuevo si volvemos a lo que teniamos antes jajaja.
Eso se debe a qje cada transistor cada vez se puede hacer mas pequeño, un transistor se emplea coml una puerta logica, asi se almacena la memoria
Menuda brutalidad de video, qué bien explicado ha quedado. Enhorabuena!
En el minuto 7:25 hay un error, enseñas la tabla de representacion signo-magnitud, pero se muestra que el primer bit toma el valor de 0 cuando es negativo cuando en realidad como dijiste unos instantes antes el primer bit toma el valor de 1 para declararla como negativa.
Que bueno que vuelven estos videos! Me abren el cerebro para nuevos proyectos!
Súper interesante, como siempre!
Excelente video . Son impecables los laburos que haces.
un dato: en realidad los números negativos en sistema binario, se suelen representar como el complemento a 2 del numero positivo en cuestión, esto facilita las operaciones aritméticas booleanas, como suma y resta, sin necesidad de usar un carry-bit en caso de un overflow o underflow; igual reduce el rango de números representables tanto positivos como negativos (-128 a 127 en un byte con signo) a la mitad a comparación de un entero sin signo (0 a 255) pero es mucho mas sencillo y rapido hacer operaciones con esta representacion que usando un bit dedicado al signo.
El único inconveniente es cuando se interpreta directamente un numero negativo como uno positivo y viceversa, se presenta un fenómeno asimétrico y esto se considera Comportamiento Indefinido (UB). Por ejemplo al querer interpretar -1 como positivo (byte a ubyte) simplemente interpretando el patrón de bits tal cual, nos da como resultado el valor (FF) o 255.
Un avance espectacular explicado en un vídeo espectacular. Muchas felicidades y gracias por divulgar.
Qué tal contenido! Alucinante manera de optimizar potencia y espacio.
Felicitaciones por el artículo!
genial!
Sr. Dot CSV, muchas gracias por tan excelente vídeo, súper motivador para aprender Deep Learning, entre otros temas. Saludos cordiales desde Popayán, departamento del Cauca en Colombia.
Excelente explicación! muchas gracias!
Excelente vídeo un día más!!!!!
El único matiz que haría sería en la introducción ,en lo que refiere a los números enteros, ya que el método de representación que muestras en el vídeo, conocido como signo-magnitud, no es el utilizado en computadores porque diversas razones. Una de ellas es que el cero tiene doble representación ( con 8 bits el cero es 00000000 pero también 10000000 porque -0 es lo mismo que 0).
Realmente se utiliza el complemento a 2 del número binario, que sería hacer el complemento a 1 ( cambiar todos los 1 por 0) y sumarle uno. Esto se debe a que la ALU (unidad aritmetico-logica) que es la base de los procesadores, requiere del complemento a 2 para realizar la resta, ya que no resta A-B, sino que haría A+(-B), y realizar la conversión a complemento a 2 para un computador es infinitamente más fácil de lo que resulta para un humano.
Comprendo que para explicar a la gente como representar números negativos es mucho más fácil explicarles el método de signo-magnitud, y de manera divulgativa les puede ayudar a comprender el resto del vídeo, así que no veo mal la explicación que das.
Espero que si alguien se ha parado a leer esto y no sabía de la existencia de diversos métodos para la obtención de números negativos entienda un poquito más de informática.
Enhorabuena por el trabajo que haces 👏🏻👏🏻👏🏻👏🏻
Y como no, si explicar esto da para un video entero.
Impresionante este canal. Impresionante. Te lo curras que da gusto. Eres genial 👏👏👏👏 voy a prendiendo,de a poquito, pero voy, miles de gracias
Como siempre sublime, tanto el contenido como la edición! Mis dieces
EXCELENTE VIDEO MAS ASI ME ENCANTO MUCHAS GRACIAS
Eres un comunicador de primera. Y tu contenido tiene una calidad que la mayoría de los medios masivos quisieran.
Excelente calidad con un brutal contendio, saludame crack!
Exelente video gracias por la información
¡Qué pedazo de vídeo!. Como siempre, por cierto
Buen vídeo, espero que empresas exploren estas posibilidades para crear modelos mas eficientes.
Vaya pedazo de videos te marcas siempre, Carlos!
Enhorabuena por el canal y mis dieces a como desarrollas el contenido del video.
Muy currado. Gracias!
Excelente explicación 🙌 gracias
Estoy asombrado de lo que viene. Y ya estoy empleando tiempo en estudiar el tema. Gracias.
Llevo tiempo siendo seguidor tuyo y me encanta tu trabajo, sería posible qué en un vídeo trataras de explicar que es un laboratorio de IA, qué hacen y cómo funciona? Es que hace tiempo llevo escuchando el término "científico de inteligencia artificial" y personalmente no he encontrado nada que me aclare bien la duda, gracias
Me gustaría que hicieras videos que hablen de cómo otras industrias están aplicando inteligencia artificial, por ejemplo en el ámbito de la automatización industrial.
Eres un verdadero crack, haciendo una explicación magistral bastante simple de entender👏👏👍
Gracias por el excelente contenido bro! Nuevo suscriptor aquí! :)
Explicación de lujo 🎉
Que bueno e interesante. Va a ser un salto exponencial. Gracias por la explicación Carlos
Impecable Carlos, es un placer ver tus videos. Hoy le mostré la explicación del sistema binario a mi hijo de 11 años y estoy seguro de que no se lo va a olvidar nunca mas. Saludos desde Argentina, a ver si te das una vuelta por estas pampas y comemos un asado!!!
Sos un capo. Explicando super simple y con animaciones graficas que ayudan muchisimo
Gracias Carlos! Muy chula la explicación. Por cierto, hay rumores internos de que Open AI está preparando un gran evento para el próximo lunes. Si se confirma puede ser un bombazo, sobre todo por anunciarlo como gran evento. ¿tienes alguna noticia o datos al respecto?
es de las mejores explicaciones de como funciona el binario que he visto , te felicito por el video ha sido una gozada verlo . Ojalá me lo hubieran enseñado así en los 80 xD
Exelente video, muchas gracias.
Que videos tan increíbles, de Verdad... Felicitaciones mi Hermano, Único.
Tus videos los disfruto mucho, se aprende un montón de cosas!
Gracias, Carlos, tu trabajo siempre tiene un gran nivel y los gráficos son muy geniales
Una explicación genial!
Muy bueno!!
Que bien explicado, gracias
creo que con este avance de -1 0 1 para la IA, se podria empezar a implementar procesadores con Lógica trivalente con transistores trivalentes
En realidad son 2 bits para poder manejar el signo. Pero genial, que excelente vídeo
1.58 según el comentario que dejó
Muy interesante, y aunque no entendí la mayoría de conceptos pues no los conocía, si entiendo que las soluciones son muy audaces y creativas, son genios totales, excelente video y gran aporte Carlos, brutal! 👌
Podrías hacer un vídeo detallando que tipo de tarjetas gráficas son las más adecuadas y en que fijarse si alguien quiere comprarse una para usar la IA...
Por ejemplo, que es mejor?
Una 3060 de 12 gygas o una 4060 de 8 gygas???
Y esos detalles...
Y a futuro como crees que evolucionará y que se necesitará para poder funcionar sin interrupciones importantes a la hora de trabajar con la IA de forma local...
Por ejemplo, yo tengo el stable diffusion y el gpt4all con una nvidia 3060 de 12 Gygas, el stable funciona bastante bien, el gpt4all con el llama 3 peta bastante , pero quizás sea por el programa en si...
Exelente forma de explicar
buah, me entraron muchos recuerdos de las clases de matemáticas discretas en la escuela con este video, aunque aún me cuesta entender como lo lograron con solo 1 bit, además, de sí ahora existe el 0, 1 y -1, ¿no dejaría de ser binario por tener base 3?, parece más similar al qbit.
Agradesco enormemente que me presentes este tema de BitNet, a pesar de que has cometido muchos errores en tus explicaciones, PERO, repito, agradezco mucho que me presentes esta tecnologia que al final eso es lo que importa. Muchas Gracias.
Excelente video, muchas
Soy ingeniero en informática, siempre aprendo algo contigo, excelente trabajo!
Muy interesante el video, aunque no logro entender como codificaron 3 estados (-1, 0, 1) utilizando un solo bit, ya que pensé que estos solo podian representar dos estados (1, 0) Supongo que tendré que investigar más del tema.
Muy top!
Primero bro , muy pendiente del contenido de IA para cuando llegue la AGI crear industria en Latinoamérica, gracias cada vez por la info , siempre de altísima calidad 🤙🔥
increible tu video!
Wooo, que bien hilado. Toma like!
Este Canal Es Una Joya 👏
Llevo años siguiendo tu canal, gracias a ti me interesé mucho en el área. Ahora mismo estoy realizando investigación doctoral en una de las mejores universidades de Latino América. Temas como algoritmos evolutivos, NAS AutoML. Y todo comenzó aprendiendo de tus vídeos. !Muchas gracias!
Posdata: Tu canal tendrá dedicatoria en mi tesis doctoral jaja.
Buena explicación de los fundamentos informáticos, a mi me lo enseñaron casi al terminar la carrera jaja
11:36 igualmente, los procesadores de hoy en dia, tienen todas las instrucciones en 64 bits, no afecta al rendimiento de la instrucción el utilizar variables de 32 o 16 bits, esto solo beneficiaria a las memorias, RAM y caché
Gracias por tus vídeos como siempre.
Gracias x el material!
Excelente contenido.
En un numero de 8 Bits con signo, el valor mínimo no es -127, es -128 y el máximo si es 127 (Esto es porque se incluye al 0 como numero positivo, es decir, los números negativos van de -1 hasta el -128, pero en positivo va desde 0 hasta 127)
Esa es una representación, pero no la única. Para la explicación he utilizado la representación signo-magnitud por ser más sencilla de entender.
@@DotCSV Claro, pero por eso, esta es la representación de signo-magnitud, del -1 al -128 hay 128 valores, y del 0 hasta al 127 hay 128 valores tambien, entonces 128 + 128 = 256 (2^8), en el ejemplo está hasta el -127 que da un total de 127 valores negativos + los 128 valores positivos (de 0 a 127) = 255, igual no era para hacer tanto drama, solo quería aclarar xd.
Y otra cosa que no me quedo claro, se que en el paper dice que son redes de 1 Bit, pero como es eso de que hay -1? Osea, 2^1 = es decir, 2 estados / combinaciones posibles (0 y 1), pero en la red se muestran 3 estados posibles (-1, 0 y 1), para ello necesitarías 2 bits como mínimo para poder representar esos 3 estados (2^2 = 4), entonces me quedo la duda de cómo es que representan 3 estados con 1 solo bit...
19:30 "Suma de punto flotante: 4 ciclos de computación. Multiplicación en coma flotante: 7 ciclos de computación." Se aceleraría el entrenamiento en un +275% al evitar la multiplicación.
Un paso más a la nueva era... llevando eficiencia al extremo... pero creo que al final, el siguiente paso será depender del los qbits en vez de los bits... pero sé que estamos aún lejos de estabilizarlos.
Genial el video Carlos, todas las animaciones las haces tú? Esa de la calculadora que solo suma y resta.. 🤯
También me lo pregunto. Me gustaría saber qué software utiliza para ello porque le quedan guapísimas
Buen video. Gracias!