Parte 1: Estrategias para mejores resultados con RAG

Retrieval Augmented Generation, abreviado RAG, combina el potencial de los modelos de lenguaje con el conocimiento específico de una empresa. Este enfoque permite incorporar documentos y datos internos de manera dirigida en las respuestas sin perder el control sobre la propia información. De este modo, RAG se percibe cada vez más como una tecnología clave para usar modelos de lenguaje de forma segura y con soberanía de datos. En la práctica, sin embargo, pronto se hace evidente que una simple búsqueda vectorial en combinación con un LLM no es suficiente para obtener resultados realmente consistentes y de alta calidad. Para aprovechar al máximo el potencial de RAG, son necesarios métodos y optimizaciones adicionales. ...

27 de agosto de 2025 · Aaron

Ajuste fino de un modelo Llama-3.x mediante LoRA

Introducción Grandes modelos de lenguaje (Large Language Models, LLMs) como Llama 3.x se entrenan en un costoso proceso de preentrenamiento con ingentes cantidades de texto. Este proceso suele realizarse en hardware especializado como GPUs y TPUs, optimizado para el cálculo en paralelo de grandes redes neuronales. Tras completar el preentrenamiento, los parámetros del modelo quedan congelados y ya no pueden modificarse directamente durante la operación normal. Esto significa que no se puede “corregir” el modelo ni reprogramarlo mediante intervenciones simples. Contenidos como, por ejemplo, hechos sobre personalidades históricas no se almacenan en neuronas individuales accesibles de forma específica. En cambio, esa información se codifica estadísticamente en la totalidad de los pesos del modelo. Esto dificulta enormemente los cambios dirigidos, pues no hay ubicaciones claramente identificables para cada hecho. ...

6 de julio de 2025 · Aaron

Cómo una ontología mejora la calidad de las respuestas de los LLM

Introducción A más tardar con la llegada de grandes modelos de lenguaje (LLMs) como GPT, muchos se preguntan cómo proporcionar a dichos modelos información estructurada y precisa. Aunque los LLM pueden responder preguntas de forma muy convincente, muchas de sus respuestas se basan únicamente en probabilidades lingüístico-estadísticas, no en razonamientos lógicos o conocimientos explícitos de hechos. Aquí es donde el uso de una ontología aporta un valor añadido sistemático. En la siguiente publicación se muestra, mediante una misión ficticia en el ‘El Señor de los Anillos’-universo, cómo una ontología puede apoyar a un LLM en la respuesta a preguntas complejas. ...

16 de junio de 2025 · Aaron

Tutorial de Unstructured.io

Introducción Unstructured.io es un marco de código abierto para el procesamiento estructurado de documentos no estructurados como PDFs, archivos de Word, páginas HTML o correos electrónicos. Su objetivo es extraer contenidos semánticamente útiles de estos formatos heterogéneos, como encabezados, párrafos, tablas o listas, y convertirlos a un formato unificado y legible por máquina. El caso de uso principal es la preparación de datos de texto para su posterior procesamiento por sistemas de IA, especialmente para aquellos con generación aumentada por recuperación (RAG). ...

14 de junio de 2025 · Aaron

Pipeline RAG de fabricación propia

Introducción Retrieval Augmented Generation (RAG) es un método de procesamiento de lenguaje natural (PLN), en el que un modelo de lenguaje se combina con conocimiento externo para generar respuestas mejores y más precisas. Un modelo de lenguaje como GPT no solo se consulta sobre su conocimiento interno (entrenamiento), sino que también recibe información contextual de una fuente de conocimiento externa, por ejemplo, una colección de documentos o una base de datos. ...

9 de junio de 2025 · Aaron

Análisis lingüístico de texto: una canalización híbrida con Stanza, DeepSeek y Transformers + comparación con Spacy

Introducción Stanza es una biblioteca de PLN de código abierto de la Universidad de Stanford, basada en redes neuronales modernas. Permite el análisis lingüístico exhaustivo de textos en más de 70 idiomas. El objetivo de Stanza es proporcionar un sistema de canalización completo que abarque todos los pasos de procesamiento habituales: tokenización, etiquetado de categorías gramaticales (POS), lematización, análisis sintáctico (dependencias y constituyentes) y reconocimiento de entidades nombradas (NER). Stanza es adecuada tanto para fines de investigación como para aplicaciones productivas, por ejemplo en clasificación de texto, extracción de información o en el preprocesamiento de textos para Retrieval Augmented Generation (RAG). Los modelos están preentrenados, pero también pueden afinarse. Internamente, Stanza se basa en el framework PyTorch. ...

7 de junio de 2025 · Aaron

Protocolo de Contexto de Modelo (MCP)

En las aplicaciones de software clásicas, los flujos están predeterminados. Las funciones se llaman en un orden específico, las transferencias están claramente definidas y las decisiones se toman mediante reglas fijas que el desarrollador ha incrustado en el código. La propia aplicación no toma decisiones, solo sigue un proceso rígido. Cuando se quiere integrar un modelo de lenguaje como GPT en un sistema, normalmente hay que asegurarse de que toda la información necesaria se obtenga y prepare de antemano. Por ejemplo: si se necesitan datos meteorológicos actualizados, se escribe una función que consulta una API, procesa la respuesta y envía el texto al modelo. El modelo solo recibe el fragmento de texto final con los datos meteorológicos. No sabe de dónde provienen los datos, qué función los proporcionó ni si están actualizados. Tampoco toma ninguna decisión propia sobre cuándo debe llamarse una función concreta. Simplemente responde basándose en el contexto que se le ha proporcionado. ...

28 de mayo de 2025 · Aaron

Flujo de trabajo controlado por MCP en n8n

Esta publicación describe la construcción de un sistema de agentes controlado por IA en n8n, que a través del Model Context Protocol (MCP) identifica, selecciona y ejecuta herramientas externas. Objetivo Un usuario hace una entrada en lenguaje natural, p. ej.: “Dame las 10 ciudades más grandes de Alemania. En orden descendente según el área. Busca también en Internet para comparar tu resultado.” El agente detecta la intención, comprueba las herramientas disponibles, decide una selección de herramienta, realiza una búsqueda web si es necesario y genera una respuesta adecuada. El concepto de control subyacente se basa en MCP, un protocolo para la comunicación estructurada de herramientas en sistemas basados en agentes. ...

27 de mayo de 2025 · Aaron

Tutorial de RAGFlow

RAGFlow es un framework para la implementación estructurada de aplicaciones de Retrieval Augmented Generation (RAG). Ofrece una arquitectura modular en la que pasos de procesamiento individuales como la importación de documentos, el preprocesamiento de texto, la vectorización, la indexación y la generación de respuestas se pueden configurar y ejecutar por separado. Models La plataforma admite diferentes soluciones de almacenamiento para datos vectoriales y permite la conexión de varios LLM. La lista de LLM compatibles se puede encontrar aquí. ...

27 de mayo de 2025 · Aaron

Guía práctica de la CLI de Hugging Face

Esta guía se basa en la CLI de Hugging Face desde la versión 0.34.4. En esta versión la sintaxis antigua huggingface-cli se sustituye por el nuevo comando hf. He creado este recordatorio para tener una referencia breve y clara de la CLI de Hugging Face. En lugar de buscar en la documentación oficial, aquí encuentro los comandos, descripciones y ejemplos más importantes de un vistazo. ¿Qué es Hugging Face? Hugging Face es una plataforma de aprendizaje automático. En el centro está el Hugging Face Hub, un repositorio público y privado para modelos de IA, conjuntos de datos y aplicaciones (Spaces). Desarrolladoras y desarrolladores pueden compartir, descargar y reutilizar modelos allí. Además del Hub, Hugging Face ofrece bibliotecas como transformers, datasets y diffusers, que facilitan el uso práctico de modelos de IA. El Hub funciona tanto como mercado como infraestructura para el desarrollo colaborativo. ...

19 de mayo de 2025 · Aaron