Lo estuve probando la semana pasada, pero mientras siga sin soporte para español seguiré usando XTTS2. Y la calidad de audio tampoco me pareció tan espectacular después de haber oído lo que pueden hacer modelos como GPT-SoVITS V2.
Gracias, gracias, gracias por Pinokio!!!! Para mi siempre ha sido difícil entender cómo instalar programas de IA, no siempre me funcionan, algunos como Sable diffusion para AMD han sido difíciles, pero lo he conseguido, pero otros? Imposible, algo siempre falla. Con este programa, todo se vuelve fácil!!
Está muy bueno para ser un prototipo base, se escucha que el tono es mas agudo en cada Output, supongo que es por como está construido el modelo, pero aún asi conserva el estilo del hablante, muy bueno.
Que piensas sobre los doblajes? Parece simple con estas herramientas traducir a cualquier idioma. Meta tambien parece estar trabajando en algo de esto, dijeron que doblarian todos los videos de instagram a todos los idiomas.
Es algo que va a llegar antes o después (creo que ya hay alguna cosa por ahí, vaya) La cuestión es cómo manejarán los cambios de cadencia y ritmo entre distintos idiomas
Ayer justo lei un post, donde varios actores de dobaljes, locutores y demás que son freenlancer, decían que le había bajado las ofertas de trabajo por la IA un 80% y que muchos ya no son ofrecen sus servicios, y se dedican a otros proyectos mas estables. Pero hay que dejar claro, que el que sepa manejar las IA, fácilmente va poder crear un ministudio. Y con lo potente que se están volviendo las pc y el trabajo de la comunidad open source, va ser una locura en unos años.
Yo estoy esperando un modelo opensource que nos permita hacer esto mismo pero no con texto sino con voz. En plan yo digo algo con mi voz y suena con la tuya.
Eso ya existe hace rato. ¿Cómo crees que hacen los covers de canciones con voces de artistas famosos? Investigá por ese lado, cómo hacer covers con IA y voces de famosos. Es de código y abierto, los odelos están principalmente en GitHub.
Esto que pides es muy facil de hacer, hay que pasar de voz a texto y de texto a voz... el unico problema por ahora es el delay de pasar de texto a voz porque no se podria hacer algo con sensacion de realtime como seguro que te gustaría
Jeje 15 segundos con ka GPU de la NASA que tiene Carlos, lo probe con una RX 6600 y demora 40mins con un audio nuevo, y al rededor de 10 minutos con el audio precargado, aún así, los resultados son espectaculares, mi novia es abogada y le hice una pequela broma, le pedi que me mandara un audio leyendo un parrafo en ingles que le mande, para evaluar su progreso en dualingo, luego clone su voz e hice una cesión de derechos verbal de sus bienes a mi persona jajaja
En mi caso está ejecutado en un Mac con un M2, no es un mal procesador pero no debería de generar tantas diferencias, así que revisa si tienes algo mal configurado
las IAs no funcionan bien con graficas AMD, todas se hacen especificamente para su uso en graficas de Nvidia, si quieres usar IAs en local tenes que comprar una grafica de Nvidia
@ tampoco es taaan asi, no desinformes. Hay muchos modelos que si corren en amd, pero es cierto el rendimiento y compatibilidad todavía esta muy lejos. Pero no es siempre asi como decis. Stable diffusions por ejemplo corre en ATI a aproximadamente un 0.7 de rendimiento
Me leíste la mente. Estaba ayer buscando algo así y estaba a punto de instalar Coqui tts pero ahora voy a probar este. PD: oh no está en español. Pues toca esperar 😢
buenas! Aca un argentino, estuve jugando con Coqui TTS, y salvo que seas español, no clona bien la voz para este idioma. Estuve probando puntualmente XTTS, que es lo mas "sencillo" de entender a la hora de leer e implementar la documentacion que tienen.
@@rincondepython en realidad estaba buscando algo que mejore la voz en locuciones para que suene más profesional y con mejor modulación. Igual creo que no me servía jaja
Al instalar e2-f5-tts en pinokio en local ¿con una tarjeta de 4gb gtx 1650 y 8 de ram es suficiente o que se necesita? porque al ejecutar e2-f5-tts en pinokio no me deja y se que se instalo bien pero me sale un link de nvidia y no el programa.
sueño con el día que mediante una video llamada se traduzca mi audio en tiempo real y la de la persona con la que hablo para no tener mas barreras en el idioma
esto si seria un gamechanger tio, te imaginas hablar con un nativo aleman, y que te entienda el español sin pedo, y que tu le entiendas a el en una llamada por meet por ejemplo
ya hoy x hoy, podemos casi clonar a una persona en video haciendo lo que sea, si parece peligroso la parte de editar voces, vamos mal, el uso esta en la responsablidad de cada uno
Creo que habria un vacio legal, ya que si usas una voz de otra persona, la otra persona no estaria accediendo al uso de su voz ni como input ni como entrenamiento para un modelo de IA.
lo que no se puede hacer tambien es en publicacion, clona las voces que quieras como si son de famosos o conocidos, pero no lo subas o pubiques porque eso si es ilegal, la persona de la voz puede denunciar
No, Pinokio es una suite de herramientas de IA, LLM Studio de Google es una herramienta para crear Podcast con IA. Para mayor información pregunta a Chat Gpt xD
@@elmegapeluco Te columpiaste llm studio es algo similar a pinokio que permite descargar y ejecutar modelos de IA, pero va mas enfocados a llms, lo que tu hablas es notebookllm de google
@elmegapeluco Hola gracias por tu respuesta! Pero si no estoy mal me parece q llm studio no es de google, si lo es Notebook LLM, llm studio se instala en tu pc para poder correr diferentes AI de forma local. Por eso preguntaba la diferencia. Ya que El siempre lo promocionaba por eso qieria ssber la diferencia para El. Muchas gracias! Salidos atte.
Que hay del uso de voz de personas fallecidas? Por ejemplo implementar alguna plataforma con QRs en lápidas por ejemplos que muestre por ejemplo a la imagen y la voz del fallecido quizás narrando en primera persona datos de quien fue en vida. Sería legal ?
11:15 Suenas a scammer indú
eso mismo pensé
Lo estuve probando la semana pasada, pero mientras siga sin soporte para español seguiré usando XTTS2. Y la calidad de audio tampoco me pareció tan espectacular después de haber oído lo que pueden hacer modelos como GPT-SoVITS V2.
Gracias Carlos, esperaré a que salga en español. Ojalá publiques un video nuevo cuando eso suceda. Abrazo
no lo va a hacer. ya lo dijo en un twiter
Este hombre como puede estar en la GitHub Universe con Midudev y grabar un video chulísimo al mismo tiempo, un Crack!!
lo mismo me lo pregunté
@@luisfernanadoperezalvarado👀
Usa IA, se ha clonado y ahora hay varios Carlos Santanas dando charlas del uso de IA
@@XaviIntheHouse Eso mismo pensé, mueve las manos con un patrón repetitivo, está usando un avatar? xD
quien es midudev?
Porque lo grabó antes...
Gran vídeo. Esto avanza muy rápido, es apasionante!
Siempre que publicas un nuevo vídeo me sacas una sonrisa ❤❤
Muchas Gracias por poner una tarea! me parece muy interesante ponerla en mi TODO list!
Gracias, gracias, gracias por Pinokio!!!! Para mi siempre ha sido difícil entender cómo instalar programas de IA, no siempre me funcionan, algunos como Sable diffusion para AMD han sido difíciles, pero lo he conseguido, pero otros? Imposible, algo siempre falla. Con este programa, todo se vuelve fácil!!
Está muy bueno para ser un prototipo base, se escucha que el tono es mas agudo en cada Output, supongo que es por como está construido el modelo, pero aún asi conserva el estilo del hablante, muy bueno.
Muchas gracias, excelente vídeo como siempre
MUCHAS GRACIAS, esta buenisimo el ejemplo, saludos desde Guatemala.
Como siempre excelente contenido y explicacion, super fluido y entretenido y claro lo mas importante. Saludos!
Que piensas sobre los doblajes? Parece simple con estas herramientas traducir a cualquier idioma. Meta tambien parece estar trabajando en algo de esto, dijeron que doblarian todos los videos de instagram a todos los idiomas.
Es algo que va a llegar antes o después (creo que ya hay alguna cosa por ahí, vaya)
La cuestión es cómo manejarán los cambios de cadencia y ritmo entre distintos idiomas
Ayer justo lei un post, donde varios actores de dobaljes, locutores y demás que son freenlancer, decían que le había bajado las ofertas de trabajo por la IA un 80% y que muchos ya no son ofrecen sus servicios, y se dedican a otros proyectos mas estables.
Pero hay que dejar claro, que el que sepa manejar las IA, fácilmente va poder crear un ministudio. Y con lo potente que se están volviendo las pc y el trabajo de la comunidad open source, va ser una locura en unos años.
¡Al fin! he estado esperando esto desde hace mucho :y
Yo estoy esperando un modelo opensource que nos permita hacer esto mismo pero no con texto sino con voz. En plan yo digo algo con mi voz y suena con la tuya.
Da mal rollo tanto lo que quieres como tú foto
Eso ya existe hace rato. ¿Cómo crees que hacen los covers de canciones con voces de artistas famosos? Investigá por ese lado, cómo hacer covers con IA y voces de famosos. Es de código y abierto, los odelos están principalmente en GitHub.
Esto que pides es muy facil de hacer, hay que pasar de voz a texto y de texto a voz... el unico problema por ahora es el delay de pasar de texto a voz porque no se podria hacer algo con sensacion de realtime como seguro que te gustaría
Jeje 15 segundos con ka GPU de la NASA que tiene Carlos, lo probe con una RX 6600 y demora 40mins con un audio nuevo, y al rededor de 10 minutos con el audio precargado, aún así, los resultados son espectaculares, mi novia es abogada y le hice una pequela broma, le pedi que me mandara un audio leyendo un parrafo en ingles que le mande, para evaluar su progreso en dualingo, luego clone su voz e hice una cesión de derechos verbal de sus bienes a mi persona jajaja
En mi caso está ejecutado en un Mac con un M2, no es un mal procesador pero no debería de generar tantas diferencias, así que revisa si tienes algo mal configurado
@DotCSVLab wow, no esperaba respuesta, te sigo desde hace años, revisaré la configuración, gracias!, saludos desde Sinaloa.
@@angelbarraza3224 en una 3090 sencillita tarda solo 20 segundos... Quiza solo acepta CUDA y como tienes AMD te esta procesando con CPU?
las IAs no funcionan bien con graficas AMD, todas se hacen especificamente para su uso en graficas de Nvidia, si quieres usar IAs en local tenes que comprar una grafica de Nvidia
@ tampoco es taaan asi, no desinformes. Hay muchos modelos que si corren en amd, pero es cierto el rendimiento y compatibilidad todavía esta muy lejos. Pero no es siempre asi como decis. Stable diffusions por ejemplo corre en ATI a aproximadamente un 0.7 de rendimiento
Ufff, clonación de muy buena calidad.
Se puede guardar en archivos de audio la voz clonada leyendo el texto?
Está super interesante la tecnología, con sus riesgos, pero interesante.
Me viene. Al pelo para mí trabajo
Muchas gracias por todo. Maestro!
Me ha dado error de instalación pinokio y me faltan 3 paquetes de 8 he repetido dos veces la instalación Gracias Carlos.
muy interesante la herramienta, gracias! hay algun modelo de audio para Stable Diffusion?
Me leíste la mente. Estaba ayer buscando algo así y estaba a punto de instalar Coqui tts pero ahora voy a probar este.
PD: oh no está en español. Pues toca esperar 😢
😂
buenas! Aca un argentino, estuve jugando con Coqui TTS, y salvo que seas español, no clona bien la voz para este idioma. Estuve probando puntualmente XTTS, que es lo mas "sencillo" de entender a la hora de leer e implementar la documentacion que tienen.
@@rincondepython en realidad estaba buscando algo que mejore la voz en locuciones para que suene más profesional y con mejor modulación. Igual creo que no me servía jaja
Hola Carlos y a toda la comunidad. Alguno ha podido correr esto en un Google Colab?
buenisimoooooo, pero de que tarjeta de video mínimo estamos hablando????
Hay alguna IA que traduzca un audio de un idioma a otro, algo tipo voice2voice? Manteniendo ya sabes la entonación pausas etc...
Pero me quede con la duda de que requisitos de hardware necesita para ser instalado?
A parte de cuanto texto soporta en una clonacion continua?
Si tienes pinokio e instalar modelos ia cuales son los requisitos recomendables para estos modelos? ram, tarjeta video etc. soy nuevo en esto
Pregúntale al gpt mi rey
9:40 hazlo con critical drinker
No puedo creer que algo tan 'embarazosamente fácil' sea gratuito. ¿Alguno ya lo probó?
Lo he probado con Pinokio y me muestra el siguiente error:
ENOENT: no such file or directory, stat 'C:\IA\pinokio\api\E2-F5-TTS\{{input.event[0]}}'
Crees que dentro de poco haya algo como el asistente de voz de openAI, pero opensource?
Al instalar e2-f5-tts en pinokio en local ¿con una tarjeta de 4gb gtx 1650 y 8 de ram es suficiente o que se necesita? porque al ejecutar e2-f5-tts en pinokio no me deja y se que se instalo bien pero me sale un link de nvidia y no el programa.
Buenas! he visto que no funciona hacer ningun test en huggingface, te suena por que?
Ojala este pronto en ESPAÑOL
Mmmmm q nivel de pc necesitaríamos? Para usar pinokio
Hay alguno funcional aunque de menor calidad utilizable desde Pinokio pero en español?
Chat GPT [Crea un título super creativo para mi modelo AI de texto a voz]
GPT: [modelo de voz creativa]
sueño con el día que mediante una video llamada se traduzca mi audio en tiempo real y la de la persona con la que hablo para no tener mas barreras en el idioma
La semana que viene sin falta
esto si seria un gamechanger tio, te imaginas hablar con un nativo aleman, y que te entienda el español sin pedo, y que tu le entiendas a el en una llamada por meet por ejemplo
Este modelo el potencialmente peligrosoo, tengan ojito para las futuras clonaciones de voz... si alguien lo hizo y no lo publica, otro lo hará....
ya hoy x hoy, podemos casi clonar a una persona en video haciendo lo que sea, si parece peligroso la parte de editar voces, vamos mal, el uso esta en la responsablidad de cada uno
Jejeje genial si es mi voz. En español es como si quisiera hablar en español agringado😂😂😂🎉
Lo intenté pero no logro que genere un audio, siempre sale vacio. ¿A alguien más le ha pasado?
Yo tampoco lo consigo.
Puedes hacer un video cuando haya forma de utilizarlo en Español ??
Welcome to The Warning ❤❤❤
Cuales son los requerimientos de Hardware? Como se si mi maquina aguanta esta demo
10:27 como crees que hablas ingles. 😎
11:14 como realmente hablas inglés. 🤣
Avísanos cuando esté disponible en español
iguala o mejora a xTTS v2?
Se puede utilizar para canto
no me funciono , el audio que me da como resultado no aparece nada :c
Cuanto es el imput maximo de texto a leer. ??
Funcionara bien en español? :o
Maravilloso 🤍✨✨✨
Creo que ah{i mismo tenía el entrenamiento para entrenar en español.
Espectacular ⭐️⭐️⭐️⭐️⭐️
El modelo en Higgingface ya no funciona, ahora da error!
con un demonio lo que me faltaba.jpg ... todavía no está en español :(
gracias joven
Es posible mejorar la calidad de audio, suena un poco latoso, imagino porque está muy comprimido
Cuando esté en español y más idiomas vuelve mostrarlo por favor
Ta chido 😃👍
¿Si clonas la voz y entonces con IA la cambias un poco? no sería la misma voz y no sería ilegal
Creo que habria un vacio legal, ya que si usas una voz de otra persona, la otra persona no estaria accediendo al uso de su voz ni como input ni como entrenamiento para un modelo de IA.
lo que no se puede hacer tambien es en publicacion, clona las voces que quieras como si son de famosos o conocidos, pero no lo subas o pubiques porque eso si es ilegal, la persona de la voz puede denunciar
embarazosamente
Gracias señor
Que tal las pruebas en español?
A ver si entre todos logramos que funcione en español
Estoy en ello ;)
@@jpgallegoar yo ya lo hice no es necesario que lo hagas crack
@@rodrigov.9252 compartelo porfa!
@@rodrigov.9252 comparte crack dale
@@jpgallegoar Que cambios estas haciendo para lograrlo?
Spoiler: solo disponible en yanki y en chingchongchung
Cual era el nombre del narrador que dijo?
Brutaaaaal !!!
Algún día en español
esta bueno
Cuando los extorsionadores buscaban cobre y encontraron no oro sino diamantes
Hey buenísimo esto
la pregunta del millon, sirve en español?¡ xd
Ya lo vi, bórralo.
Pensé lo mismo 🗿
XD
Bbo vk😊😊j9 0 v p j00 h. 00 bjkpj jb kvhbyo o uvk0b 0vb0c 0k0np9 jvph9bbo 0kv 0b. Hg0bv😊😊@@2emmmanuel
noo que no lo he visto aun
ya ahora si ya lo terminé de ver, que lo borre
plzz déjanos saber cuando este en español
Pinokio es lo mismo que LLM STUDIO?
No, Pinokio es una suite de herramientas de IA, LLM Studio de Google es una herramienta para crear Podcast con IA. Para mayor información pregunta a Chat Gpt xD
@@elmegapeluco Te columpiaste llm studio es algo similar a pinokio que permite descargar y ejecutar modelos de IA, pero va mas enfocados a llms, lo que tu hablas es notebookllm de google
@elmegapeluco Hola gracias por tu respuesta! Pero si no estoy mal me parece q llm studio no es de google, si lo es Notebook LLM, llm studio se instala en tu pc para poder correr diferentes AI de forma local. Por eso preguntaba la diferencia. Ya que El siempre lo promocionaba por eso qieria ssber la diferencia para El. Muchas gracias! Salidos atte.
o sea que no lo puedo usar para hacer videos de youtube?
Gracias, aterra!
me da error
Otro por aquí. O somos torpes o el programa muy fino no va.
scarlet Johanson está en peligro
Fue la primera en quien pensé para clonar xD
¿Una vez que produces el audio, si es tu voz, cómo saben que estas haciendo un uso no comercial?
me quede pescando con la pregunta esta como 5 min. pos no lo saben chico,,,🤣🤣🤣
omaigaaa
yo ya cree mi canal con la voz de DOT CSV, AHORA SERÁS MI ESCLAVO :D. es internet todo es libre.
poca broma, es un tema interesante. ¿sabemos a nivel legal qué implicaciones tendría algo así?
@@Ericzon na no me importa, porque en internet todo es libre
no funciona dice error
Da error al convertir
Genial
Poco a poco nos acercamos a la clonacion perfecta de las voces y asi poder hacer contenido en diferentes idiomas
dot suena a tutorial indio en la clonación XD
Necesito la version en español
No se te ocurrió hacer la prueba con una voz en castellano ?
Sam Almant 😝
Esaaa
Hace un minuto, 20 visitas, cuenta en decadencia 😞
Es un capo, que sea viral es una cosa pero que te de información de vamos es otra
@@anthonygriman8674Es un chiste 🤦
Esta acabado, mis fuentes me cuentan que el tocayo se fue a California a trabajar en un Mcdonald
Me encantaria usarlo para eliminar mi acento español cuando hablo en ingles
Que hay del uso de voz de personas fallecidas? Por ejemplo implementar alguna plataforma con QRs en lápidas por ejemplos que muestre por ejemplo a la imagen y la voz del fallecido quizás narrando en primera persona datos de quien fue en vida. Sería legal ?
Depende de quién patrocine al gobierne en turno
Añade a esa situación la implicación cultural.
si es legal, no deberia, pero me parece un tema estupendo pa irme a dormir.
mmmm.... no suena bien la segunda prueba.... parece Bad Bunny con su Autotune
The checkpoints support English and Chinese. 😪
Solo funciona con inglés y chino, el español lo destroza.
ElevenLabs 🧪
esperando a español