¿Qué es la Arquitectura Transformer?

El Transformer es una revolucionaria arquitectura de red neuronal presentada en el artículo de 2017 “Attention Is All You Need” por investigadores de Google. Cambió por completo el campo del Procesamiento del Lenguaje Natural (PLN) al abandonar las capas recurrentes y convolucionales utilizadas tradicionalmente en los modelos de secuencia a secuencia. En su lugar, se basa completamente en un mecanismo llamado “autoatención”, que le permite ponderar la importancia de diferentes palabras en la secuencia de entrada para producir la salida. Este diseño permite una paralelización significativamente mayor, lo que permite a los investigadores entrenar modelos mucho más grandes con cantidades de datos sin precedentes.

Características Clave

Mecanismo de Autoatención: El núcleo del Transformer. Permite que el modelo observe otras palabras en la secuencia de entrada mientras procesa una palabra específica, capturando relaciones contextuales sin importar la distancia entre ellas.
Atención Multi-cabeza: Una mejora de la autoatención donde el mecanismo de atención se ejecuta varias veces en paralelo. Esto permite que el modelo atienda conjuntamente a información de diferentes subespacios de representación en diferentes posiciones.
Pila Codificador-Decodificador: La arquitectura original consta de un codificador para procesar la secuencia de entrada y un decodificador para generar la secuencia de salida. Muchos modelos modernos, como BERT (solo codificador) y GPT (solo decodificador), utilizan solo una parte de esta pila.
Codificaciones Posicionales: Dado que el modelo no contiene recurrencia, inyecta información sobre la posición relativa o absoluta de los tokens en la secuencia. Estas codificaciones se suman a las incrustaciones de entrada.
Paralelización: Al eliminar la naturaleza secuencial de las RNN, los Transformers pueden procesar todos los tokens de una secuencia simultáneamente, lo que conduce a enormes aceleraciones en el tiempo de entrenamiento.

Casos de Uso

Traducción Automática: La tarea original para la que se diseñó el Transformer, donde estableció un nuevo estado del arte.
Generación de Texto: Modelos como GPT utilizan el decodificador del Transformer para generar texto similar al humano, coherente y contextualmente relevante.
Resumen de Texto: Crear resúmenes concisos de documentos largos al comprender los puntos principales.
Base para los LLM Modernos: La arquitectura Transformer es el bloque de construcción fundamental para la mayoría de los grandes modelos de lenguaje modernos, incluidos BERT, GPT-3, T5 y muchos otros.

Primeros Pasos

Aquí hay un ejemplo simplificado de “Hola Mundo” sobre cómo usar una capa de codificador y decodificador Transformer en PyTorch. Esto demuestra los componentes básicos en acción.

```python import torch import torch.nn as nn

Define a simple Transformer model

class SimpleTransformer(nn.Module): def init(self, input_dim, model_dim, num_heads, num_layers): super(SimpleTransformer, self).init() self.embedding = nn.Embedding(input_dim, model_dim) self.pos_encoder = nn.Parameter(torch.zeros(1, 5000, model_dim)) # Positional Encoding

    encoder_layers = nn.TransformerEncoderLayer(d_model=model_dim, nhead=num_heads)
    self.transformer_encoder = nn.TransformerEncoder(encoder_layers, num_layers=num_layers)
    
    self.fc_out = nn.Linear(model_dim, input_dim)

def forward(self, src):
    src = self.embedding(src) + self.pos_encoder[:, :src.size(1), :]
    output = self.transformer_encoder(src)
    output = self.fc_out(output)
    return output

Example Usage

Parameters

input_vocab_size = 1000 # Size of input vocabulary d_model = 512 # Embedding dimension n_heads = 8 # Number of heads in multi-head attention n_layers = 6 # Number of encoder layers

Create a model instance

model = SimpleTransformer(input_vocab_size, d_model, n_heads, n_layers)

Create a dummy input tensor (batch_size=1, sequence_length=10)

src_input = torch.randint(0, input_vocab_size, (1, 10))

Get the model output

output = model(src_input)

print(“Input Shape:”, src_input.shape) print(“Output Shape:”, output.shape)

Expected Output Shape: torch.Size([1, 10, 1000])

Este código define una pila de codificador Transformer básica, procesa una secuencia de entrada y produce una salida de la misma longitud.

Precios

El Transformer es un concepto de investigación y una arquitectura de código abierto. Es de uso, implementación y modificación gratuitos. Los costos principales asociados no son por la arquitectura en sí, sino por los recursos computacionales (GPU/TPU) necesarios para entrenar modelos a gran escala basados en ella y para ejecutarlos en inferencia.

El Artículo “Attention Is All You Need”

El Transformer fue presentado en un artículo titulado “Attention Is All You Need”, publicado en 2017. Este artículo es uno de los trabajos más citados en la informática moderna y se considera una lectura obligada para cualquiera que trabaje en el campo de la IA y el PLN. Sentó las bases para la generación actual de grandes modelos de lenguaje y cambió fundamentalmente la dirección de la investigación en IA.

Arquitectura Transformer