Saltar al contenido principal

Cartografía Dinámica: Recubrimiento de Superficies

¿Y si los modelos de lenguaje grande (LLMs) generaran representaciones internas comprensibles a través de propiedades geométricas?

min de lectura

Los modelos de lenguaje grandes (LLMs) son cajas negras cuyo funcionamiento interno resulta difícil de interpretar. Esta investigación propone una nueva forma de conceptualizar sus representaciones internas mediante propiedades geométricas, ofreciendo una posible vía hacia la interpretabilidad.

Una Nueva Metáfora para la Comprensión de LLMs #

He estado reflexionando sobre la idea que te comenté: los estados internos de los LLMs pueden concebirse como "funciones de proyección" a algún ℝd, que intentan "aproximar" una "variedad topológica" que representa la "realidad".

La unicidad no reside en la representación específica de cada LLM. Distintas combinaciones de arquitectura, configuración inicial y datos de entrenamiento (incluyendo el orden) pueden generar modelos con respuestas similares. Lo verdaderamente único es la estructura subyacente de la variedad que se intenta aproximar (con la salvedad de posibles simetrías y equivalencias). Se puede entender como un punto de referencia al que todos los modelos aspiran, aunque de manera necesariamente incompleta y distorsionada.

El Concepto de Recubrimiento de la Realidad #

El recubrimiento de esta realidad es inevitablemente parcial (porque hay mucho que desconocemos) e impreciso (porque incluso lo que conocemos está representado con sesgos y errores). Podemos ver a los LLMs como cartógrafos dinámicos de esta superficie: la precisión de su mapa dependerá de la calidad de los datos de entrenamiento (su curación y fidelidad), de la diversidad de las fuentes (para evitar vacíos en el conocimiento) y del orden en que se presentan los ejemplos (pudiendo inducir ciertas estructuras geométricas en la representación interna del modelo).

Desde esta perspectiva, la superficie de conocimiento del LLM (su recubrimiento parcial de la realidad) no puede representarse como una figura fija, dado que opera sobre distribuciones de probabilidad internas. En su lugar, podríamos modelarla como una función de densidad en ℝd, donde suponemos la existencia de una estructura emergente. Esta función cuantificaría la "concentración" o "intensidad" del conocimiento del LLM en diferentes regiones de su espacio latente en un momento t del entrenamiento.

Aplicaciones de este Enfoque #

Más allá de ser una herramienta conceptual para describir sistemas aún no completamente interpretables, este enfoque tiene aplicaciones prácticas directas:

  • Control sobre el impacto de los datos de entrenamiento: optimización del orden y tipo de ejemplos usados para construir una representación más precisa de la realidad.
  • Alucinaciones como generalizaciones fallidas: intentos defectuosos de reconstruir la superficie del conocimiento desde un punto de contexto que se confunde con otro similar.
  • Sesgos como deformaciones geométricas: distorsiones en la estructura de la variedad M(t) que reflejan desigualdades en la distribución de datos.
  • Áreas localizadas del conocimiento: regiones donde los conceptos están más cercanos entre sí, como agrupaciones de conocimiento en medicina o metalurgia (geodésicas dentro de la superficie latente).

Incluso podríamos usar estas representaciones internas para detectar "huecos", "bordes" o "zonas oscuras" en el conocimiento de los modelos, revelando lagunas tanto en los datos de entrenamiento como en la propia estructura del conocimiento humano.

Hacia una Cartografía del Conocimiento Artificial #

Todo lo que sé sobre los mecanismos internos de los Transformers, sus limitaciones y su evolución encaja bien con esta modelización. Sin embargo, reconozco que, incluso para un matemático experto o un ingeniero con experiencia práctica, desarrollar un modelo formal preciso y computacionalmente eficiente basado en esta idea sería un desafío extremadamente complejo.