Mejorando el Acceso a la Justicia: Motor de Búsqueda Semántica para Jurisprudencia Española
Un sistema de búsqueda semántica para jurisprudencia española que mejora la precisión y accesibilidad a documentos legales mediante modelos avanzados de embeddings.
La investigación jurídica tradicional depende de sistemas de búsqueda por palabras clave que limitan el acceso a la información legal. Este proyecto desarrolla un motor de búsqueda semántica para la jurisprudencia española que supera estas limitaciones, democratizando el acceso a la justicia y facilitando el trabajo de los profesionales del derecho.
El Problema: Limitaciones de la Búsqueda Legal Tradicional #
Los sistemas tradicionales de búsqueda de jurisprudencia en España se basan en palabras clave (ej. el buscador del CENDOJ). Esto significa que si no usas los términos exactos, o si buscas conceptos semánticamente similares pero con otras palabras (sinónimos, expresiones equivalentes), es fácil perderse información crucial. Esto es una barrera tanto para profesionales del derecho como para ciudadanos.
Objetivo y Enfoque del Proyecto #
Como proyecto de Fin de Grado (TFG), me propuse diseñar, desarrollar y evaluar un motor de búsqueda semántica para la jurisprudencia española. El objetivo principal era comparar el rendimiento de métodos clásicos de recuperación (como BM25) con modelos avanzados de embeddings densos (RoBERTa-BNE, Sentence Transformers, ColBERT) para mejorar drásticamente la precisión y la accesibilidad a estos documentos legales tan importantes. Un punto clave fue desarrollar una forma novedosa y más fiable de evaluar la relevancia de los resultados.
Tecnologías y Metodología #
Corpus y Preprocesamiento #
- Recopilé y preprocesé un corpus de sentencias judiciales del CENDOJ.
- Utilicé Python con librerías como
pdfplumberpara la extracción de texto, ypandasynumpypara la manipulación y limpieza de datos. - Segmenté los documentos en párrafos para una indexación más granular.
Modelos de Recuperación de Información Evaluados #
- Sparse Retrieval (Baseline): BM25 (implementado a través de Elasticsearch), como representante de los métodos tradicionales basados en coincidencia de términos.
- Dense Retrieval (Embeddings Semánticos):
- RoBERTa-BNE y RoBERTalex (variante de RoBERTa afinada para español legal): Utilicé la librería
transformersde Hugging Face para generar embeddings contextuales a nivel de párrafo. - Sentence Transformers: Modelos optimizados para generar embeddings de frases/párrafos (ej.
paraphrase-multilingual-mpnet-base-v2). Implementado con la libreríasentence-transformers. - ColBERT (Late Interaction): Exploré este modelo avanzado que combina la riqueza semántica de BERT con una interacción tardía para mejorar la eficiencia.
- RoBERTa-BNE y RoBERTalex (variante de RoBERTa afinada para español legal): Utilicé la librería
Infraestructura de Búsqueda #
- Elasticsearch: Utilizado como motor de indexación tanto para BM25 como para almacenar y buscar los vectores de embeddings (búsqueda por similitud de coseno).
Evaluación de Relevancia (Componente "XAI-like") #
Aquí vino una de las partes más innovadoras: para superar la subjetividad y el coste de la evaluación manual experta, desarrollé un método basado en el consenso de múltiples Large Language Models (LLMs).
- Utilicé varias instancias de Llama 3.2 8B (cuantizado), a las que presentaba pares (consulta, documento recuperado).
- Cada LLM asignaba una puntuación de relevancia y una breve justificación.
- Este "comité de LLMs" permitió obtener un ground truth más robusto y escalable para las métricas de evaluación (Precision@k, MRR, NDCG).
- Esta aproximación es "XAI-like" porque usamos IA para entender y validar la calidad de otro sistema de IA (el buscador).
Resultados y Hallazgos Clave #
Rendimiento Comparativo #
- BM25 demostró ser rápido y sorprendentemente robusto para una recuperación inicial, especialmente con términos jurídicos muy específicos.
- Los modelos de embeddings densos, aunque computacionalmente más intensivos, mostraron una clara superioridad en la calidad semántica de los resultados, especialmente para el reranking (reordenar los N mejores resultados de una búsqueda inicial).
- Sentence Transformer ofreció el mejor equilibrio general entre rendimiento y coste computacional para la generación de embeddings y búsqueda semántica.
Consenso de LLMs para Evaluación #
- El método de consenso de LLMs fue eficaz para generar etiquetas de relevancia a gran escala, mostrando una alta correlación con las evaluaciones manuales de control realizadas.
- Las justificaciones de los LLMs también ofrecieron insights sobre por qué un documento era (o no) relevante, añadiendo una capa de interpretabilidad al proceso de evaluación.
Arquitectura Prometedora #
- La combinación de una recuperación inicial rápida y amplia con BM25, seguida de un reranking preciso utilizando Sentence Transformer, se perfiló como la solución más prometedora y eficiente para el sector jurídico español.
Impacto y Aprendizajes #
Impacto Potencial #
Este trabajo sienta las bases para herramientas de búsqueda legal mucho más inteligentes y eficientes en España, capaces de entender la intención del usuario más allá de las palabras clave. Esto podría democratizar el acceso a la justicia y agilizar el trabajo de los profesionales del derecho.
Aprendizajes Clave #
- La superioridad de los embeddings densos para capturar la semántica en dominios especializados como el legal.
- La viabilidad y el potencial de usar LLMs para tareas de evaluación complejas, actuando como "expertos artificiales" para crear datasets o validar resultados.
- La importancia de arquitecturas híbridas (sparse + dense) para balancear eficiencia y efectividad en sistemas de búsqueda modernos.
- Profundicé en el uso de Python para todo el pipeline (desde scraping y preprocesamiento con
pdfplumberypandas, hasta la modelización contransformers,sentence-transformers, y la interacción con Elasticsearch).
Palabras Clave: Búsqueda Semántica, Embeddings Densos, Jurisprudencia Española, Python, NLP, Machine Learning, Elasticsearch, RoBERTa, Sentence Transformers, ColBERT, Evaluación con LLMs, Reranking, TFG.
Enlaces adicionales #
Whitepapers relacionados
LLMs como Cartógrafos del Conocimiento: Una Perspectiva Geométrico-Topológica
Una propuesta teórico-conceptual que plantea un nuevo marco para entender los LLMs como cartógrafos dinámicos que construyen un mapa interno del conocimiento.
Desentrañando Decisiones Óptimas: CFR y Aprendizaje por Refuerzo en el Póker
Un análisis de cómo el algoritmo Counterfactual Regret Minimization (CFR) permite encontrar estrategias óptimas en juegos de información incompleta como el póker.