BATCH NORMALIZATION: ¿Qué es y para qué sirve?

Поділитися
Вставка
  • Опубліковано 18 гру 2024
  • En este video, explicamos con detalle el proceso de Normalización por Lotes (BN), una técnica esencial en Deep Learning:
    Exploramos los fundamentos teóricos de BN y su motivación.
    Nos sumergimos en las matemáticas detrás de la media, varianza y normalización.
    Reflexionamos sobre intrigantes cuestiones de investigación en torno a BN.
    La Normalización por Lotes ha demostrado ser revolucionaria en el entrenamiento de redes profundas, y este video garantiza que comprendas su funcionamiento, asegurando un entrenamiento más estable y rápido para tus modelos neuronales. Ya seas un entusiasta novato de la IA o un profesional experimentado, aquí hay algo para todos.
    Referencias:
    [1] S. Ioffe and C. Szegedy, “Batch Normalization: Accelerating Deep Network Training by Reducing Internal Covariate Shift.” arXiv, Mar. 02, 2015. doi: 10.48550/arXiv.1502.03167.
    [2] S. Santurkar, D. Tsipras, A. Ilyas, and A. Madry, “How Does Batch Normalization Help Optimization?” arXiv, Apr. 14, 2019. doi: 10.48550/arXiv.1805.11604.

КОМЕНТАРІ • 7

  • @LeonardoEnriqueMorenoFlores

    Muchas gracias Pepe un excelente video!!. Al momento de realizar retro propagación se debe realizar las derivadas de la normalización de entrada del BathNormalization.

  • @romelpichucho2832
    @romelpichucho2832 Рік тому +2

    Excelente video y muy bien la explicación

  • @naoimi_omitirintro
    @naoimi_omitirintro Рік тому +1

    Hola Pepe. Excelente video, me encanta tu contenido. Te quería hacer una consulta: Como se relaciona batch normalization con el fenómeno de exploding gradient?

  • @OscarOmarHernandezMartinez
    @OscarOmarHernandezMartinez Рік тому +1

    Que buena explicacion, me gusto mucho gracias!!!

  • @robertbarrios9969
    @robertbarrios9969 Рік тому

    No vengo a pedir ayuda con mi entrenamiento en sí, solo haré un par de preguntas al respecto. Estoy usando BatchNorm1d para una Fully Convolutional Neural Network para predecir una propiedad a partir de un espectro infrarrojo de más de 1000 columnas. Creo haberlo usado bien, pero, al tener pocos ejemplos de entrenamiento (unos 315), el r-cuadrado llega a .99 a las 500 épocas más o menos y en test no da lo mejor, por el 0.88-0.90. Esto no cambia si reduzco la complejidad de la red, pero en un punto de reducción en adelante se queda atascado en 0.78 en train. Mi pregunta es, ¿Es la red convolucional útil solo si se tienen muchos ejemplos de entrenamiento?
    Otra es, ¿El batch debe ser del tamaño de la salida de la capa convolucional o no?