Desmitificando el Mecanismo de Atención en LLMs
Una explicación accesible —pero rigurosa— del mecanismo de atención, la pieza clave tras el éxito de los modelos de lenguaje modernos.
Desmitificando el Mecanismo de Atención #
Aunque la idea de atención ya existía en modelos secuenciales (Bahdanau et al., 2015), fue la arquitectura Transformer (Vaswani et al., 2017) la que reinventó el concepto como auto-atención escalada (scaled dot-product self-attention) y catapultó el procesamiento del lenguaje natural —y después la visión y la multimodalidad— a un nuevo nivel.
| Antes de 2017 | 2017–hoy (Transformers) |
|---|---|
| LSTMs, GRUs: procesan tokens en serie | Atención: procesa en paralelo, decide qué importa |
| Contexto limitado (~1 k pasos) | Contextos de decenas de miles de tokens |
| Difícil capturar dependencias largas | Conexiones directas entre cualquier par de tokens |
1. ¿Qué es la “atención”? #
| Matriz | ¿Qué representa? | Analogía de biblioteca |
|---|---|---|
| Q (Query) | Lo que busco. | Tu pregunta al bibliotecario. |
| K (Key) | Dónde buscar. | Las etiquetas en los lomos de los libros (sus temas). |
| V (Value) | Contenido útil. | El contenido real de los libros que coinciden. |
Para generar cada token, el modelo compara la pregunta (Q) con todas las etiquetas (K), decide qué libros son relevantes y extrae un promedio ponderado de su contenido (V).
2. Atención escalada: la ecuación esencial #
Attention(Q,K,V)=operatornamesoftmaxBigl(fracQKmathsfTsqrtdkBigr)V
- Producto punto \(QK^{\mathsf T}\) ⇒ similitud entre query y keys.
- Escalado con \(\sqrt{d_k}\) evita saturar la softmax cuando \(d_k\) es grande[^scale].
- Softmax normaliza los “scores” a probabilidades.
- Multiplicamos por V ⇒ promedio ponderado de la información relevante.
3. Atención multi-cabeza: ver un problema desde varios ángulos #
Real-world relationships son demasiado ricas para una sola lente. Un Transformer ejecuta n proyecciones Q · K · V en paralelo (cabezas). Algunas aprenden sintaxis (sujeto-verbo), otras coreferencia (“él” → “Juan”), otras patrones de puntuación.
# PyTorch: núcleo de atención multi-cabeza (simplificado)
scores = torch.matmul(q, k.transpose(-2, -1)) / math.sqrt(self.depth) # (B, heads, T, T)
weights = F.softmax(scores, dim=-1)
context = torch.matmul(weights, v) # (B, heads, T, depth)
Finalmente, las salidas de todas las cabezas se concatenan y pasan por una capa lineal para unificar la información y devolverla al tamaño original del modelo.
4. Visualizando la atención #

En un ejemplo como nuestra frase inicial —“El gato que viste ayer se escondió debajo del sofá”— el mapa de atención podría verse así. El grosor de cada línea indica la intensidad; al predecir “sofá”, la red presta especial atención a “se escondió” y “debajo”, mientras que “gato” se vincula con “se escondió”.
5. Más allá del texto #
- Visión por computador: ViT divide una imagen en parches 16 × 16 y los trata como “palabras visuales”.
- Audio: captura dependencias a largo plazo para reconocimiento de voz o música.
- Multimodalidad: GPT-4, Gemini o Claude 3 fusionan texto, imagen y audio bajo un mismo esquema de atención.
6. Limitaciones y retos #
- Complejidad cuadrática (tiempo y memoria) \(\mathcal O(n^2)\): cada token atiende a todos los demás; la matriz n × n crece rápido. A 100 k tokens, el coste se dispara.
- Interpretabilidad parcial: los mapas ayudan, pero no revelan toda la “lógica” interna.
- Sesgos: si el entrenamiento contiene prejuicios, la atención los amplifica.
7. Conclusión #
La atención permite a los modelos aprender qué importa y cuándo, capturando relaciones de largo alcance de forma paralela y eficiente. Es, sin exagerar, uno de los avances más influyentes de la última década.
Glosario rápido #
| Término | Definición breve |
|---|---|
| Attention Score | Similitud Q·KT antes de la softmax. |
| Head | Instancia independiente de atención; sus salidas se concatenan al final. |
| Softmax | Convierte puntuaciones en distribución de probabilidad. |
| dk | Dimensión de las keys (≈ dimensión por cabeza). |
| Long-Context Tricks | Métodos Flash/Linear/Sparse Attention, RoPE, ALiBi. |
Referencias #
- Vaswani, A. et al. (2017). Attention Is All You Need. NeurIPS.
- Bahdanau, D.; Cho, K.; Bengio, Y. (2015). Neural Machine Translation by Jointly Learning to Align and Translate. ICLR.
- Dosovitskiy, A. et al. (2021). An Image Is Worth 16×16 Words. ICLR.
- Liu, L. et al. (2023). A Survey of Efficient Transformer Methods for Language Modeling. arXiv 2309.
- Beltagy, I.; Peters, M.; Cohan, A. (2020). Longformer: The Long-Document Transformer. arXiv 2004.
- $^scale] Vaswani et al., sección 3.2: justificación del factor \(\sqrt{d_k}\).
Artículos relacionados
AI Safety: Un Problema de Lenguaje
¿Nos engañamos a nosotros mismos con términos como 'alineamiento' o 'control'? Reflexión sobre los desafíos y límites de la seguridad en IA.
10 Años en IA: Un Viaje por la Evolución de la Inteligencia Artificial
Análisis detallado de los hitos más importantes en IA durante los últimos 10 años, incluyendo avances en deep learning, procesamiento de lenguaje natural y visión por computador.