¿Qué son los Autocodificadores Variacionales (VAEs)?

Un Autocodificador Variacional (VAE) es un tipo de red neuronal generativa que destaca en el aprendizaje de la estructura subyacente de un conjunto de datos. Consta de dos partes principales: un codificador y un decodificador. El codificador comprime los datos de entrada (como una imagen) en un espacio latente continuo de baja dimensión. A diferencia de un autocodificador estándar, un VAE mapea la entrada a una distribución de probabilidad (típicamente una Gaussiana) en este espacio latente. Luego, el decodificador muestrea de esta distribución para generar nuevos datos que son similares a los datos de entrenamiento originales. Este enfoque probabilístico permite a los VAEs no solo reconstruir entradas, sino también crear variaciones novedosas y plausibles.

Características Clave

Capacidad Generativa: Los VAEs pueden generar nuevas muestras de datos que se asemejan a los datos de entrenamiento muestreando del espacio latente aprendido.
Espacio Latente Continuo y Estructurado: El espacio latente es suave, lo que significa que pequeños cambios en un vector latente corresponden a pequeños y significativos cambios en la salida. Esto permite la interpolación entre puntos de datos (p. ej., transformar una cara en otra).
Codificación Probabilística: En lugar de mapear una entrada a un solo punto, el codificador produce una distribución de probabilidad, lo que hace que el modelo sea más robusto y mejor para capturar la incertidumbre de los datos.
Entrenamiento Estable: En comparación con otros modelos generativos como los GANs, los VAEs son generalmente más fáciles y estables de entrenar, ya que optimizan una única función de pérdida bien definida (el Límite Inferior de la Evidencia, o ELBO).
Aprendizaje no Supervisado: Los VAEs aprenden características significativas de los datos sin requerir etiquetas explícitas, lo que los convierte en herramientas poderosas para la extracción de características no supervisada.

Casos de Uso

Generación de Imágenes y Vídeos: Creación de imágenes novedosas de rostros, dígitos manuscritos u otros objetos.
Compresión de Datos: El codificador puede usarse como una potente técnica de reducción de dimensionalidad no lineal.
Detección de Anomalías: Al medir el error de reconstrucción, los VAEs pueden identificar puntos de datos que son significativamente diferentes de la distribución de entrenamiento.
Descubrimiento de Fármacos y Generación de Moléculas: Generación de nuevas estructuras moleculares con propiedades deseadas aprendiendo de una base de datos de moléculas existentes.
Eliminación de Ruido y Relleno de Imágenes: Reconstruir imágenes corruptas o incompletas rellenando las partes faltantes basándose en la distribución de datos aprendida.

Primeros Pasos

Aquí hay un ejemplo simplificado de “Hola Mundo” de un VAE usando PyTorch, entrenado en el conjunto de datos MNIST de dígitos manuscritos.

```python import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data import DataLoader

Definir el modelo VAE

class VAE(nn.Module): def init(self): super(VAE, self).init() # Codificador self.fc1 = nn.Linear(784, 400) self.fc21 = nn.Linear(400, 20) # Media self.fc22 = nn.Linear(400, 20) # Log-varianza # Decodificador self.fc3 = nn.Linear(20, 400) self.fc4 = nn.Linear(400, 784) self.relu = nn.ReLU() self.sigmoid = nn.Sigmoid()

def encode(self, x):
    h1 = self.relu(self.fc1(x))
    return self.fc21(h1), self.fc22(h1)

def reparameterize(self, mu, logvar):
    std = torch.exp(0.5 * logvar)
    eps = torch.randn_like(std)
    return mu + eps * std

def decode(self, z):
    h3 = self.relu(self.fc3(z))
    return self.sigmoid(self.fc4(h3))

def forward(self, x):
    mu, logvar = self.encode(x.view(-1, 784))
    z = self.reparameterize(mu, logvar)
    return self.decode(z), mu, logvar

Función de pérdida

def loss_function(recon_x, x, mu, logvar): BCE = nn.functional.binary_cross_entropy(recon_x, x.view(-1, 784), reduction=’sum’) KLD = -0.5 * torch.sum(1 + logvar - mu.pow(2) - logvar.exp()) return BCE + KLD

— Entrenamiento (simplificado) —

1. Cargar el conjunto de datos MNIST

2. Inicializar el modelo VAE y el optimizador

3. Iterar a través de épocas y lotes:

a. Pasar los datos a través del modelo

b. Calcular la pérdida

c. Retropropagar y actualizar los pesos

4. Después del entrenamiento, puedes muestrear del espacio latente (p. ej., torch.randn(1, 20))

y pasarlo al decodificador para generar una nueva imagen de un dígito.

Precios

Los Autocodificadores Variacionales son un concepto algorítmico de código abierto. Las implementaciones están ampliamente disponibles de forma gratuita en todos los principales frameworks de aprendizaje profundo como TensorFlow, PyTorch y JAX. No hay costos de licencia asociados con el uso de la arquitectura VAE en sí.

VAEs vs. GANs

Un punto de comparación común es entre los VAEs y las Redes Generativas Antagónicas (GANs).

Estabilidad del Entrenamiento: Los VAEs son generalmente más estables de entrenar. Los GANs implican un delicado juego de dos jugadores entre un generador y un discriminador, que puede ser difícil de equilibrar.
Calidad de Salida: Los GANs son famosos por producir imágenes nítidas y de alta fidelidad, mientras que los VAEs a menudo producen resultados ligeramente más borrosos y suaves. Esto se debe a que los VAEs optimizan una pérdida de reconstrucción a nivel de píxel, que tiende a promediar las posibilidades.
Espacio Latente: El espacio latente de un VAE es continuo y bien estructurado por diseño, lo que lo hace ideal para tareas como la interpolación. El espacio latente en un GAN puede ser menos suave y más enredado.
Evaluación: Los VAEs tienen una función objetivo clara (el ELBO) para optimizar y seguir. Los GANs carecen de una función objetivo similar, lo que dificulta cuantificar su progreso durante el entrenamiento.

Variational Autoencoders (VAEs)