Segunda parte de esta TRILOGIA sobre el Overfitting ¿Te ha gustado? ¿Sí? Pues deja tu Like y comparte el vídeo en tus redes. Será de ayuda para el canal :) Por cierto, ¿Has visto lo que hago en el resto de redes sociales? ¡Tienes todos los links en la descripción! Ah... y el PATREON! AAAAH!!! Y mi cuenta corriente en Bahamas!!!! 🌴
Al fin alguien que lo puede explicar con ejemplos y aplicaciones reales... la mejor explicación que he visto. Revise las de los canales en ingles y no hay nada como esta... saludos
Sinceramente llevo 1 hora viéndome estos vídeos y solo quería decir que el nivel de edición que tienen es increíble. Se entiende todo muy bien, ejemplos fantásticos, humor, dinamismo.. Muy disfrutables, en serio.
Me he visto este video con calma y muchas pausas para copiar todo a mi libreta, eres grande y tus ediciones de videos son muy geniales solo tu sabes cuanto tiempo te ha tomado cada parte animada, felicidades te merece el crecimiento de tu canal continuo que esto es ahora que empieza...
Tio... debes de ser una potencia en ciencia de datos, pero perfectamente podrías ganarte la vida como documentarista o cineasta. Saber contar una historia y entusiasmar. De nuevo, mis felicitaciones.
Yo definitivamente ya he llegado al punto en que tal cual veo el vídeo subido, cierro todo y me lanzo a verlo enseguida. Excelente calidad y gran esfuerzo detrás del vídeo, que culminan en toda una obra audiovisual.
He aprendido muchísimo con tus vídeos. Vengo de la serie de 4 partes (hasta la 3.5) de ML y es BRUTAL. He aprendido mucho más en 2 horas que llevo, que en semanas desmotivadoras donde no explicaban realmente bien y realmente necesitabas conocimientos matemáticos previos... contigo no es así, explicas super bien incluso la parte matemática, y simplemente con una búsqueda en google puedo ver y entender la lógica detrás. MUCHAS GRACIAS!!!!!
y recordar no solo hacer UNA SOLA particion de los datos ( entrenamiento y prueba) , puede que las graficas de error/epocas muestren que no hay sobreentrenamiento, pero quizas JUSTO esa particion q se hizo es un "lucky split" . Hay q asegurarse de todas partes, dividir en set de entrenamiento, validación ( para early stopping round) , y test( para que sea totalmente independiente del entrenamiento y parada). Hacer validacion cruzada ... probar con varios parámetros, etc. Igual todo depende del problema que tengan. si tienes millones de datos quizás la red se pueda ajustar con solo el 10 % y otro 10% para testear. UFFFFFFFFFF q es frustrante cuando te das cuenta que tu red estaba sobreajustada :´( saludos
Hola! He visto varios de tus videos para prepararme para mi examen de Machine Learning y me han gustado MUCHO!!! Gracias!! Al final del video dice que te invite a un café, bueno! cuando te des la vuelta por Costa Rica, con gusto te invitaremos a un café :-) y si me va bien en mi examén, te colaboraré con unos dólares para tu canal! porque son explicaciones MUY CLARAS, excelentes videos!
Este comentario no tiene ninguna matiz de ofender. PERO TIENES EL MEJOR CANAL ( MEJOR SE QUEDA CORTO, ES QUE NO ENCUENTRO OTRO CALIFICATIVO) EN ESTE PINCHE Y MALDITO MUNDO!!! CARAJO!!! EXCELENTE TRABAJO!! EDICIÓN, CONTENIDO, ETC. SOBRE TODO EL CONTENIDO!!
Brutal, que Buena explicación, yo en mi último modelo use 3 divisiones, entrenamiento, validación y pruebas ya que el modelo realizado en tensorflow lo debo pasar a C para programar un microcontrolador con el modelo preentrenado para empezar a predecir
La verdad te felicito, tus videos son excelentes con explicación sencilla muy didácticos y visuales. Solo un comentario para nutrir está discusión sobre la participación de datos en el proceso de aprendizaje de la red, al parecer validación y test son dos cosas diferentes en el mundo de machine learning. En efecto la validación es la comparación que se hace para evitar el overfitting pero el test tiene un sentido más halla que se refleja en los datos que se utilizan para comprobar que el modelo generaliza y son datos independientes del entrenamiento y la validación. Creo que muchas veces tenemos ese conflicto en el español por la traducción de los términos. Yo igual tuve ese inconveniente varias veces hasta que en un arbitraje de artículo un revisor aclaro este punto. Nuevamente felicitaciones por esta gran labor educativa y de difusión sobre la IA en nuestro idioma
¡Genial!, este canal ha llegado creo que un poco tarde a mi vida, me está refrescando la memoria de cuando vi estadística y modelación en la universidad, gracias por existir... La música también está genial.
Yo en mi tesis probé con tres técnicas de validación de datos: la validación cruzada, la separación de entrenamiento de los datos tal y como lo explicas en este vídeo y otra más: Leave-one-out validation. Dejando ejemplos de un "tipo" fuera para ver como generaliza en un tipo de ejemplos desconocidos. Lo único que necesitas saber que esos ejemplo o ejemplos son verdaderamente distintos del resto. Es decir, al igual que en el segundo caso. Muy buen video!
Excelentes videos Dot CSV !! No suelo hacer comentarios sobre los videos que miro, pero en este caso (y en la mayoría de tus videos) vale la pena resaltar la buena calidad de tus explicaciones, el esfuerzo que haces para hacerte entender y sobre todo lo bien trabajo de todo el contenido. Sigue así !! Y gracias por tus excelentes aportes
Bro .. me alegra haber dado con tu canal ... ¡me gusta saber que mantienes una rigurosidad matemática! ... porque era es lo que andaba buscando por estos lares
Muchas gracias por los videos, me estas ayudando con mi tfg mas que mis tutores. Cuando tenga dinero te lo agradezco en patreon! De momento share, like, susbscribe.
Me uno al resto de comentarios positivos. Ademas de un contenido sublime en su explicacion didactica. La edicion de los videos hacen una experiencia épica. Ojalá haya CSV para rato. Por cierto Carlos, he cursado un curso de IA Aplicada en la Universidad de Málaga y han utilizado este canal como fuente en el temario.
Muy buen video, excelente explicació, solo ten cuidado con que las cortinas de audio no opaquen la voz como en el minuto 6 al 8. Fuera de eso, genial la serie de estos 2 videos.
Excelente video, como todos. Llegué de parte de Date un Vlog, y en cada video que veo se nota el empeño, y la calidad con que están hechos. Te felicito, ¡y que siga así!
Subscrito y campanita. ¿Cómo he vivido todo este tiempo sin conocer este canal? PD: Totalmente de acuerdo en lo que dices, aprender AI es más conceptual y dedicarse más a la calidad de los datos de entrada que aplicar los modelos. Los modelos a día de hoy se pueden aplicar haciendo un simple click, la esencia se encuentra en saber los conceptos y saber qué clicks hay que hacer y cuándo deben hacerse. Conozco mucha gente que quiere hacer grandes cosas con poco esfuerzo y no quieren saber absolutamente nada sobre cosas como la minería de datos, porque es la parte "más aburrida", y eso me parece un error de base.
dependiendo del problema y la cantidad de datos, inicialmente si no se tiene una muestra muy grande lo mejor es hacer cross validation, luego de ahi en adelante aplicar regularización , incrementar los datos (ex. augmentation), seleccionar mejores hyperparameters, cambiar la estrategia de optimización, seleccionar buenos features(ML tradicional) , en caso de redes neuronales hacer mas simple la arquitectura, etc.
Hola Dot CSV tengo 2 preguntas: ¿Tienes algún vídeo donde expliques el proceso de cómo elegir un modelo y como entrenar a la red? ¿Como haces esas animaciones tan llamativas? Un saludo y gracias por tu contenido, es realmente útil.
Hola Carlos. Excelente video para explicar como evitar el Overfitting, sin embargo me queda una inquietud. En ninguna parte del video te refieres a la calidad de los datos con los que se está entrenando el modelo. Sucede que si el set de datos de entrenamiento es muy ruidoso estoy "obligando" al modelo a aprender ruido y con eso mermando significativamente la capacidad de generalizar y produciendo Overfitting. En muchas ocasiones puede ser mucho más simple un pre proceso al set de datos de entrenamiento para reducir el ruido y con eso mejorar significativamente la capacidad de generalizar. El ruido a veces es fácil de identificar y de reducir con algún algoritmo. Por ejemplo en el caso que mencionas en el video muchos parámetros fisiológicos de los pacientes esperaríamos que estén dentro de cierto rango, y si no lo están ese dato probablemente es ruido. Algo similar sucede si estoy entrenando un modelo para que reconozca voz, la mayor cantidad de información de la voz se concentra en el rango 300 Hz - 3.300 Hz (es el ancho de banda de un canal telefónico), por lo tanto pasando el audio por un filtro pasa banda de ese rango de frecuencias evita entrenar el modelo con frecuencias que no aportan información. Otro caso es cuando el set de datos de entrenamiento contiene información contradictoria. Por ejemplo, si estoy entrenando un modelo en un problema de clasterización para que reconozca imágenes de animales y le muestro una foto de un gato y lo clasifico como "gato" y más adelante le muestro la misma imagen y la clasifico como "perro" también estoy produciendo Overfitting. La Big Data está llena de ejemplos como estos y con un pre proceso es relativamente fácil de corregir, evitando con eso entrenar los modelos con una Big Caca. También es relevante la reducción de dimensional. La tendencia es entrenar los modelos con todas las variables de entrada que contiene la Big Data, tal vez por pereza o por desconocimiento de las relaciones implícitas que tienes los datos que se pretenden modelar. En el mismo ejemplo del video, si el set de datos de entrenamiento contiene el número de habitación donde se hospitalizó el paciente y utilizo esa información para entrenar el modelo, esa información no está aportando en nada en la capacidad de predicción del modelo. El tener un conocimiento de la naturaleza de los datos que se están utilizando para entrenar es muy relevante para mejorar la capacidad de generalizar y por lo tanto la capacidad de predicción posterior. No es lo mismo entrenar un modelo con 100 dimensiones a entrenar uno con 10 que son las realmente relevantes. Determinar cuáles son relevantes puede ser un problema no trivial pero ayuda mucho el conocer la naturaleza de los datos y tal vez utilizar algunas herramientas como análisis de componentes principales.
*Como chingaos llegue aqu!!!* Ok. Ya me suscribi jejeje. Mi profesión es totalmente alejada de esto pero….. este video estimuló mi cerebro. Ya hasta estoy pesando estudiar Analista programador. ok no es para tanto…
genial otro vídeo viva Dot SCV!!!!! Gracias por darnos nuevos conocimientos y aprender mejor sobre Inteligencia Artificial. me encanta el Machine Learning 😏
Excelente! Cuando empiezas con otros métodos como SVM, decision tree? Hace un año vengo leyendo papers para mi tesis de maestría y aprendi poco en mucho tiempo, con estos videos me ha hecho aprender mucho y reforzar conocimientos previos. Gracias!
¡Qué chulo Carlos! Una dudita: ¿puede ser interesante hacer varios modelos con muestras distintas de datos para el entrenamiento y para los tests? Es decir...varios modelos cortando los datos por un sitio o por otro (después de randomizar). ¡Espero el siguiente vídeo!
Muy buen video. En el caso de series temporales como debería dividirse el dataset en train y test, si se hace de manera aleatoria eso produciría un error por la dependencia temporal. Generalmente los datos más recientes se usan para el test .
increible...tus cursos me han ayudado mucho me gustaria aprender mas, ya que mi tesis es referente a esto aplicado en energia solar ¿tienes algun consejo o libro que leer? y gracias desde chile
Me encantan tus videos! He visto que en algunos modelos de redes neuronales, no solo segmentan la data en train y test si no que además generan otro conjunto de "validation", por qué y para qué se genera este último?
Personalmente para validar el modelo utilizo un mezclado aleatorio durante varias veces, reentrenando el modelo nuevamente, comprobando así que independiente de los datos de train y de test que elija, el modelo generaliza correctamente. Aunque luego hay que entrar en sí los datos utilizados para predecir o estimar nuevos valores están en la distribución de los entrenados y los usados para test. Las técnicas de preprocesamiento pueden ayudar en estos casos.
Interesante lo importante que tiene que ser el muestreo para el entrenamiento. Me queda la duda, habría que replicar en ambas muestras la distribución estadística del universo más que sólo buscar distribuciones uniformes,.no?
📸 Sígueme en Instagram para más contenido tras las cámaras : instagram.com/dotcsv/
💸 ...y apoya el canal en Patreon!!! : www.patreon.com/dotcsv
Y el siguiente video? Jeje
Y el siguiente video x2? :3
La edición del video esta rozando lo sobrenatural. Muy buen video.
De acuerdo !!!
un dios
Es excelente.
Cada vídeo es un joya audiovisual.
Lo que mas me fascina de tu canal es esa manera cada vez más y más impecable de entregarnos tus conocimientos con tanta dedicación y profesionalismo
Segunda parte de esta TRILOGIA sobre el Overfitting ¿Te ha gustado? ¿Sí? Pues deja tu Like y comparte el vídeo en tus redes. Será de ayuda para el canal :) Por cierto, ¿Has visto lo que hago en el resto de redes sociales? ¡Tienes todos los links en la descripción! Ah... y el PATREON! AAAAH!!! Y mi cuenta corriente en Bahamas!!!! 🌴
Parcero. Esta una chimba de video
Buen video
4:25 y algunas centésimas de segundo: "COLOQUE AQUI SU PUBLICIDAD" .... ¡Sin acento! Ya decía yo que era raro que me incomodara eso :V
Álvaro Fernando Ríos Ramírez 😂 ¿Y qué me dices del 3:54?
¿¿En serio me van a obligar a poner tildes en las mayúsculas?? :(((
Sigo esperando la parte 3 !!!
Esta increíble tu explicación
Al fin alguien que lo puede explicar con ejemplos y aplicaciones reales... la mejor explicación que he visto. Revise las de los canales en ingles y no hay nada como esta... saludos
F por la 3ra parte
Me estoy viendo 1 por 1 tus vídeos desde 0 para arrancar a aprender de una maldita vez jajajaja
Éxitos!
Quizas Carlos lea esto y le den ganas de hacer la parte 3
Sinceramente llevo 1 hora viéndome estos vídeos y solo quería decir que el nivel de edición que tienen es increíble. Se entiende todo muy bien, ejemplos fantásticos, humor, dinamismo.. Muy disfrutables, en serio.
Gracias a ti me encanta cada día más la IA! Esperando con ansias la parte 3!!! Saludos desde Chile!
me encanta como ilustras todo, y da mejor entendimiento, no se queda en palabras, es un concepto más plástico, fácil de entender
Me he visto este video con calma y muchas pausas para copiar todo a mi libreta, eres grande y tus ediciones de videos son muy geniales solo tu sabes cuanto tiempo te ha tomado cada parte animada, felicidades te merece el crecimiento de tu canal
continuo que esto es ahora que empieza...
Tu capacidad de edición de vídeos es magistral!
Tus videos son de lo mejor que he visto. Saber transmitir materias complejas de manera sencilla me parece de genios. Enhorabuena
Tio... debes de ser una potencia en ciencia de datos, pero perfectamente podrías ganarte la vida como documentarista o cineasta. Saber contar una historia y entusiasmar. De nuevo, mis felicitaciones.
me encanta el nuevo toque humoristico, bravo
Eres una inteligencia artificial que genera videos que enseña inteligencia artificial?
Nunca lo sabremos
ha aprobado el test de turing
No me asustes viejo
Una machina que cree que existe y tiene alma.
Diria que piensa que tiene sentimientos, pero eso todavia no pareciera ser.
11:39 jajajaa, muy bueno, casi escupo el cafe. Muy didactico. Saludos!
Impresionante edición para explicar un concepto ciertamente complejo
Yo definitivamente ya he llegado al punto en que tal cual veo el vídeo subido, cierro todo y me lanzo a verlo enseguida. Excelente calidad y gran esfuerzo detrás del vídeo, que culminan en toda una obra audiovisual.
He aprendido muchísimo con tus vídeos. Vengo de la serie de 4 partes (hasta la 3.5) de ML y es BRUTAL. He aprendido mucho más en 2 horas que llevo, que en semanas desmotivadoras donde no explicaban realmente bien y realmente necesitabas conocimientos matemáticos previos... contigo no es así, explicas super bien incluso la parte matemática, y simplemente con una búsqueda en google puedo ver y entender la lógica detrás. MUCHAS GRACIAS!!!!!
y recordar no solo hacer UNA SOLA particion de los datos ( entrenamiento y prueba) , puede que las graficas de error/epocas muestren que no hay sobreentrenamiento, pero quizas JUSTO esa particion q se hizo es un "lucky split" . Hay q asegurarse de todas partes, dividir en set de entrenamiento, validación ( para early stopping round) , y test( para que sea totalmente independiente del entrenamiento y parada). Hacer validacion cruzada ... probar con varios parámetros, etc.
Igual todo depende del problema que tengan. si tienes millones de datos quizás la red se pueda ajustar con solo el 10 % y otro 10% para testear.
UFFFFFFFFFF q es frustrante cuando te das cuenta que tu red estaba sobreajustada :´( saludos
Me mató de la risa cuando apareció el maestro de Andrew jajajaja!, qué gran contenido!!, muchísimas gracias
Hola! He visto varios de tus videos para prepararme para mi examen de Machine Learning y me han gustado MUCHO!!! Gracias!! Al final del video dice que te invite a un café, bueno! cuando te des la vuelta por Costa Rica, con gusto te invitaremos a un café :-) y si me va bien en mi examén, te colaboraré con unos dólares para tu canal! porque son explicaciones MUY CLARAS, excelentes videos!
Este comentario no tiene ninguna matiz de ofender. PERO TIENES EL MEJOR CANAL ( MEJOR SE QUEDA CORTO, ES QUE NO ENCUENTRO OTRO CALIFICATIVO) EN ESTE PINCHE Y MALDITO MUNDO!!! CARAJO!!! EXCELENTE TRABAJO!! EDICIÓN, CONTENIDO, ETC. SOBRE TODO EL CONTENIDO!!
¡Increíble! Salvaste mi explicación de tesis. Buenas vibras y gracias.
Parte 3 porfa !!!
He esperado más esto que la vacuna contra el Covid.
Brutal, que Buena explicación, yo en mi último modelo use 3 divisiones, entrenamiento, validación y pruebas ya que el modelo realizado en tensorflow lo debo pasar a C para programar un microcontrolador con el modelo preentrenado para empezar a predecir
La verdad te felicito, tus videos son excelentes con explicación sencilla muy didácticos y visuales. Solo un comentario para nutrir está discusión sobre la participación de datos en el proceso de aprendizaje de la red, al parecer validación y test son dos cosas diferentes en el mundo de machine learning. En efecto la validación es la comparación que se hace para evitar el overfitting pero el test tiene un sentido más halla que se refleja en los datos que se utilizan para comprobar que el modelo generaliza y son datos independientes del entrenamiento y la validación. Creo que muchas veces tenemos ese conflicto en el español por la traducción de los términos. Yo igual tuve ese inconveniente varias veces hasta que en un arbitraje de artículo un revisor aclaro este punto. Nuevamente felicitaciones por esta gran labor educativa y de difusión sobre la IA en nuestro idioma
¡Genial!, este canal ha llegado creo que un poco tarde a mi vida, me está refrescando la memoria de cuando vi estadística y modelación en la universidad, gracias por existir...
La música también está genial.
IMPRESIONANTE. Edición de vídeo y explicación 10 de 10. De lo mejor de UA-cam.
Excelentes videos, estoy estudiando mi maestría y este canal es oro puro! Gracias crack! Saludos desde Ecuador!
Increíble video, lastima que no exista parte 3 😭
Yo en mi tesis probé con tres técnicas de validación de datos: la validación cruzada, la separación de entrenamiento de los datos tal y como lo explicas en este vídeo y otra más:
Leave-one-out validation. Dejando ejemplos de un "tipo" fuera para ver como generaliza en un tipo de ejemplos desconocidos. Lo único que necesitas saber que esos ejemplo o ejemplos son verdaderamente distintos del resto. Es decir, al igual que en el segundo caso.
Muy buen video!
Excelentes videos Dot CSV !! No suelo hacer comentarios sobre los videos que miro, pero en este caso (y en la mayoría de tus videos) vale la pena resaltar la buena calidad de tus explicaciones, el esfuerzo que haces para hacerte entender y sobre todo lo bien trabajo de todo el contenido. Sigue así !! Y gracias por tus excelentes aportes
Bro .. me alegra haber dado con tu canal ... ¡me gusta saber que mantienes una rigurosidad matemática! ... porque era es lo que andaba buscando por estos lares
Felicitaciones! Impecable cada uno de los videos que publicas. Muchas gracias por todo lo que compartes (y me divierto mucho)
Muchas gracias por los videos, me estas ayudando con mi tfg mas que mis tutores.
Cuando tenga dinero te lo agradezco en patreon!
De momento share, like, susbscribe.
Me uno al resto de comentarios positivos. Ademas de un contenido sublime en su explicacion didactica. La edicion de los videos hacen una experiencia épica. Ojalá haya CSV para rato.
Por cierto Carlos, he cursado un curso de IA Aplicada en la Universidad de Málaga y han utilizado este canal como fuente en el temario.
Excelente contenido y edicion, de lo mejor que he visto en UA-cam
Muy buen video, excelente explicació, solo ten cuidado con que las cortinas de audio no opaquen la voz como en el minuto 6 al 8. Fuera de eso, genial la serie de estos 2 videos.
Increíble. Muchísimas gracias por tu tiempo y por tus explicaciones! Eres un crack!
Simplemente el mejor canal hispano sobre IA. Gracias!!
Excelente video, como todos. Llegué de parte de Date un Vlog, y en cada video que veo se nota el empeño, y la calidad con que están hechos. Te felicito, ¡y que siga así!
Me encantan tus videos, recien estoy empezando en el Machine Learning y me ayudan muchisisisisimo a entender los conceptos que se manejan.
Subscrito y campanita. ¿Cómo he vivido todo este tiempo sin conocer este canal?
PD: Totalmente de acuerdo en lo que dices, aprender AI es más conceptual y dedicarse más a la calidad de los datos de entrada que aplicar los modelos. Los modelos a día de hoy se pueden aplicar haciendo un simple click, la esencia se encuentra en saber los conceptos y saber qué clicks hay que hacer y cuándo deben hacerse. Conozco mucha gente que quiere hacer grandes cosas con poco esfuerzo y no quieren saber absolutamente nada sobre cosas como la minería de datos, porque es la parte "más aburrida", y eso me parece un error de base.
Gracias por tan increíble contenido que generas, en verdad aclaras muchos de los conceptos ambiguos que conocía.
la edición de vídeo es excelente y el contenido del mismo también esta a la altura.
Excelente canal!
Felicidades amigo, tu contenido es de calidad. Explicas súper bien algo tan complejo
Cuando la parte 3? :B que excelente explicación !
Buenísima explicación de esos conceptos y buenísima asociación con problemas y soluciones reales, enhorabuena!
Y hasta que UA-cam me recomienda ver algo digno de ser visto!!.
Muy buen canal, nuevo sub
Tío me sirves de inspiración en la edición de video. Aún no subo video. Pero ya te digo que eres mi inspiración!
Que manera más entretenida de aprender algo que parece tan complicado.
¡¡GENIO!!
Increíble video, la edición y la información... uf 10/10
Grande! sigue con esto lo haces muy bien! espero poder llegar a entender todos los conceptos que expones algun dia xd
Me encanta la edición de tus videos. Realmente notables!!
Me mejor canal de IA y quizás el mejor en todo YT 💓
dependiendo del problema y la cantidad de datos, inicialmente si no se tiene una muestra muy grande lo mejor es hacer cross validation, luego de ahi en adelante aplicar regularización , incrementar los datos (ex. augmentation), seleccionar mejores hyperparameters, cambiar la estrategia de optimización, seleccionar buenos features(ML tradicional) , en caso de redes neuronales hacer mas simple la arquitectura, etc.
Eres el puto amo, saludos desde Perú.
Excelente explicación y estamos a la espera del siguiente video
Brutal el contenido de tu canal. Felicidades!!
11:38 se estaba poniendo muy épico. Quería más yo xD
Me tiene capturado este canal
Excelente!! Muchas gracias por tu gran trabajo, los videos son muy claros y me han servido muchísimo
Muy buena explicación . 10/10
Un video sencillamente excepcional.
Hola Dot CSV tengo 2 preguntas:
¿Tienes algún vídeo donde expliques el proceso de cómo elegir un modelo y como entrenar a la red?
¿Como haces esas animaciones tan llamativas?
Un saludo y gracias por tu contenido, es realmente útil.
excelente video, explica el overfitting de una manera sencilla y concisa
Hola Carlos. Excelente video para explicar como evitar el Overfitting, sin embargo me queda una inquietud. En ninguna parte del video te refieres a la calidad de los datos con los que se está entrenando el modelo. Sucede que si el set de datos de entrenamiento es muy ruidoso estoy "obligando" al modelo a aprender ruido y con eso mermando significativamente la capacidad de generalizar y produciendo Overfitting. En muchas ocasiones puede ser mucho más simple un pre proceso al set de datos de entrenamiento para reducir el ruido y con eso mejorar significativamente la capacidad de generalizar. El ruido a veces es fácil de identificar y de reducir con algún algoritmo. Por ejemplo en el caso que mencionas en el video muchos parámetros fisiológicos de los pacientes esperaríamos que estén dentro de cierto rango, y si no lo están ese dato probablemente es ruido. Algo similar sucede si estoy entrenando un modelo para que reconozca voz, la mayor cantidad de información de la voz se concentra en el rango 300 Hz - 3.300 Hz (es el ancho de banda de un canal telefónico), por lo tanto pasando el audio por un filtro pasa banda de ese rango de frecuencias evita entrenar el modelo con frecuencias que no aportan información. Otro caso es cuando el set de datos de entrenamiento contiene información contradictoria. Por ejemplo, si estoy entrenando un modelo en un problema de clasterización para que reconozca imágenes de animales y le muestro una foto de un gato y lo clasifico como "gato" y más adelante le muestro la misma imagen y la clasifico como "perro" también estoy produciendo Overfitting. La Big Data está llena de ejemplos como estos y con un pre proceso es relativamente fácil de corregir, evitando con eso entrenar los modelos con una Big Caca.
También es relevante la reducción de dimensional. La tendencia es entrenar los modelos con todas las variables de entrada que contiene la Big Data, tal vez por pereza o por desconocimiento de las relaciones implícitas que tienes los datos que se pretenden modelar. En el mismo ejemplo del video, si el set de datos de entrenamiento contiene el número de habitación donde se hospitalizó el paciente y utilizo esa información para entrenar el modelo, esa información no está aportando en nada en la capacidad de predicción del modelo. El tener un conocimiento de la naturaleza de los datos que se están utilizando para entrenar es muy relevante para mejorar la capacidad de generalizar y por lo tanto la capacidad de predicción posterior. No es lo mismo entrenar un modelo con 100 dimensiones a entrenar uno con 10 que son las realmente relevantes. Determinar cuáles son relevantes puede ser un problema no trivial pero ayuda mucho el conocer la naturaleza de los datos y tal vez utilizar algunas herramientas como análisis de componentes principales.
*Como chingaos llegue aqu!!!*
Ok. Ya me suscribi jejeje.
Mi profesión es totalmente alejada de esto pero….. este video estimuló mi cerebro.
Ya hasta estoy pesando estudiar Analista programador.
ok no es para tanto…
Coloque aquí su publicidad. Bromas aparte, explicación brillante!
Me estas ayudando tela con mi TFG. Necesito el síguiente episodio
Exelente. Ya espero la 2da parte
estoy estudiando y es muy buena la inroduccion
genial
otro vídeo
viva Dot SCV!!!!!
Gracias por darnos nuevos conocimientos y aprender mejor sobre Inteligencia Artificial.
me encanta el Machine Learning 😏
Tremenda calidad, 10 de 10
Eres genial amigo un abrazo desde San Jerónimo antioquia Colombia
Excelente! Cuando empiezas con otros métodos como SVM, decision tree?
Hace un año vengo leyendo papers para mi tesis de maestría y aprendi poco en mucho tiempo, con estos videos me ha hecho aprender mucho y reforzar conocimientos previos.
Gracias!
¡Qué chulo Carlos! Una dudita: ¿puede ser interesante hacer varios modelos con muestras distintas de datos para el entrenamiento y para los tests? Es decir...varios modelos cortando los datos por un sitio o por otro (después de randomizar). ¡Espero el siguiente vídeo!
IMPRESIONANTE!!!! la explicación!!! Capo Capo!!!
Buen video saludos desde Mendoza, ARGENTINA
Excelentes animaciones, muy buena explicación! Gracias y saludos!
Muy buen video. En el caso de series temporales como debería dividirse el dataset en train y test, si se hace de manera aleatoria eso produciría un error por la dependencia temporal. Generalmente los datos más recientes se usan para el test .
increible...tus cursos me han ayudado mucho me gustaria aprender mas, ya que mi tesis es referente a esto aplicado en energia solar ¿tienes algun consejo o libro que leer? y gracias desde chile
Magnifico¡¡ que mas se puede decir, eres un genio. saludos.
Maldita sea, ya había entrado en modo neurosayan cuando estabas en la parte de la batalla épica y vas, y nos lo cortas!
Me encantan tus videos!
He visto que en algunos modelos de redes neuronales, no solo segmentan la data en train y test si no que además generan otro conjunto de "validation", por qué y para qué se genera este último?
buen video , muchas gracias, ¡saludos desde Colombia!
Eres el mejor :,), gracias por existir
Qué gustazo ver este video!
Para cuando el video de como editar videos? pasada la edición, excelente video!
Qué interesante!! Vengo xq alguien RT en Twitter.. nueva sub.
cuando vas a sacar un curso de machine learning en espanol?
X2
X3
x4
X5
X6
muy buen video , claro y sencillo!
muy muy bueno! mas videos porfa
Que animación tan preciosa
Increíble video! Excelente canal
Excelente vídeo !!! saludos desde Colombia
Personalmente para validar el modelo utilizo un mezclado aleatorio durante varias veces, reentrenando el modelo nuevamente, comprobando así que independiente de los datos de train y de test que elija, el modelo generaliza correctamente. Aunque luego hay que entrar en sí los datos utilizados para predecir o estimar nuevos valores están en la distribución de los entrenados y los usados para test. Las técnicas de preprocesamiento pueden ayudar en estos casos.
Interesante lo importante que tiene que ser el muestreo para el entrenamiento. Me queda la duda, habría que replicar en ambas muestras la distribución estadística del universo más que sólo buscar distribuciones uniformes,.no?