¿Es realista correr un agente AI 100 por ciento local?

Sí, para tareas medianas. Con un equipo decente y un modelo abierto del tamaño correcto, puedes resumir documentos, clasificar correos, generar borradores y consultar tu base de conocimiento sin tocar la nube. Para tareas que requieren modelos enormes, todavía vas a querer enrutar a la nube esa parte.

¿Qué hardware necesito como mínimo?

Un equipo con GPU dedicada y suficiente VRAM para el modelo que elijas, o una Mac con chip M reciente y RAM unificada generosa. Sin GPU o sin RAM suficiente, los modelos útiles van a ir lentos.

Tu primer agente de escritorio que no manda datos a la nube

Q: ¿Cuándo NO va a alcanzar lo local?

Cuando necesites razonamiento muy largo, conocimiento muy actualizado, o multimodalidad fuerte. Yo recomiendo híbrido: lo sensible local, lo demás a la nube con criterio.

Respuesta corta: Para construir un agente AI que vive en tu computadora y no manda datos a APIs externas necesitas tres piezas: un modelo local corriendo en Ollama o equivalente, una capa de orquestación que decide qué tarea va a qué modelo, y una interfaz mínima para invocarlo. Hardware decente, criterio para mezclar local y nube, y aceptar que para 80 por ciento de tareas de oficina alcanza con local. El otro 20 enrutalo con cuidado.

La pregunta que recibo cada semana: "Quiero que la AI me ayude pero no quiero que mis documentos vayan a OpenAI". Bien. Es un objetivo razonable. Hoy es viable. Te cuento cómo.

Por qué un agente local importa

Hay tres razones serias para tener al menos parte de tu stack corriendo localmente:

Confidencialidad real: contratos, datos de clientes, información financiera, propiedad intelectual.
Independencia operativa: si la API externa se cae, sube de precio o cambia términos, tu agente sigue funcionando.
Costo marginal cero: una vez que el equipo está prendido, cada query no te cuesta extra. Para uso intensivo, eso paga el hardware en meses.

No estamos hablando de paranoia. Estamos hablando de criterio operativo.

Arquitectura mínima viable

Tres componentes. No más.

1. Capa de modelo local

Aquí vive el LLM corriendo en tu máquina. Las opciones más amigables hoy:

Ollama: la opción que más te recomiendo si nunca corriste un modelo local. Instalas, descargas el modelo, listo.
LM Studio: similar, con UI gráfica. Bueno para gente que prefiere clics sobre terminal.
llama.cpp: para quien quiere control fino y está cómodo en consola.

El modelo lo eliges según hardware. Modelos chicos corren en máquinas modestas con calidad razonable para tareas simples. Modelos medianos requieren GPU o Mac con chip M reciente y RAM generosa. Modelos grandes ya empiezan a pedir hardware serio.

2. Capa de orquestación

Aquí decides qué pregunta va a qué modelo, qué documentos cargar como contexto, y qué hacer con la respuesta.

No necesitas frameworks complejos para empezar. Un script en Python o Node de 100 líneas alcanza:

Recibe la tarea.
Carga el contexto relevante (un archivo, un fragmento de tu base de conocimiento).
Llama al modelo local vía la API local de Ollama.
Devuelve la respuesta y la guarda si la necesitas auditar.

Cuando el flujo crece, miras frameworks como LangChain, LlamaIndex o agnos. No los pongas el día uno.

3. Interfaz mínima

La UI puede ser:

Una terminal con un comando.
Un atajo de teclado del sistema operativo.
Una mini-app en Electron o Tauri si quieres look profesional.
Una integración a la app que ya usas (editor, chat interno, etcétera).

Empieza con terminal. Si lo usas a diario durante dos semanas, súbelo a algo más cómodo. Si no lo usas, no importa la UI.

Qué corre local y qué enruto a la nube

Esta es la decisión clave. Pocos equipos hacen 100 por ciento local porque pagas calidad. Pocos equipos hacen 100 por ciento nube cuando manejan datos sensibles.

Mi tabla mental:

Local sí o sí: documentos confidenciales, contratos, archivos de clientes, información financiera, datos personales.
Local primero, nube si no alcanza: redacción genérica, traducción, resumen de notas, generación de borradores.
Nube ok: investigación pública, búsqueda web, tareas que requieren conocimiento muy actualizado, multimodalidad fuerte (video, imagen compleja).

La orquestación se encarga de aplicar la regla automáticamente: si el contexto contiene archivos marcados como sensibles, no toca nube. Si la tarea requiere búsqueda web, va a nube y el resultado se procesa local.

Caso concreto: agente para resumir contratos

Vamos a un ejemplo real para que se aterrice. Quieres un agente que:

Lee un contrato en PDF.
Saca cláusulas críticas (penalidades, plazos, exclusividades, jurisdicción).
Genera un resumen ejecutivo de una página.

Setup:

Instalar Ollama y descargar un modelo de tamaño mediano apto para textos largos.
Script que extrae texto del PDF (librería estándar, sin servicio externo).
Prompt template con las cláusulas que te interesan.
Llamada al modelo local con el texto extraído como contexto.
Output a un Markdown que abres en tu editor.

Tiempo de construcción para alguien que ya programa: media tarde. Para alguien que está aprendiendo: un fin de semana. Cero datos salieron de tu máquina.

Costos hardware reales

No te voy a tirar precios porque varían mucho por país. La regla de pulgar:

Mac con chip M reciente y mucha RAM unificada: la opción más fácil para alguien sin experiencia en GPUs. Funciona bien con modelos medianos.
PC con GPU dedicada de gaming/pro: rendimiento por dólar suele ganar, pero hay que armarlo y configurar drivers.
Servidor en casa: si ya tienes uno, montar el modelo allí libera tu laptop y permite acceso remoto seguro vía túnel.

Antes de comprar, prueba en tu equipo actual. Modelos pequeños corren hasta en laptops modestas con calidad limitada pero funcional para muchas tareas.

Errores comunes que veo

Empezar con el modelo más grande. La gente prueba el modelo más pesado, lo siente lento, y abandona. Empieza con uno más chico, valida el flujo, después escala.
No medir calidad. Asumes que el modelo local "es peor" sin probar. A veces el local con el contexto correcto le gana al modelo grande con prompt malo.
No definir qué es sensible. Si no marcas qué archivos no salen de la máquina, la regla no se aplica. Sé explícito.
Olvidar respaldos. Tu modelo local es valioso porque está afinado a ti. Respalda los prompts, las configuraciones, los archivos de contexto.
Sobre-dimensionar la UI. Pasas tres semanas haciendo una interfaz bonita y abandonas el flujo lógico. Primero funciona, después brilla.

Cuándo NO va a alcanzar lo local

Tareas con razonamiento muy largo en cadena. Los modelos locales medianos se cansan antes que los grandes de la nube.
Conocimiento que requiere estar al día. Tu modelo local sabe lo que sabía cuando lo entrenaron. Para preguntas de actualidad, vas a tener que enrutar a algo con búsqueda web.
Multimodalidad seria. Local empieza a alcanzar pero la nube todavía gana en imagen, audio y video complejos.
Velocidad para flujos masivos. Si necesitas miles de queries por hora, la nube optimizada va a ganar al hardware doméstico.

Reconoce los límites antes de prometerle a tu equipo que "todo se hace local".

Qué hago yo

yo recomiendo esta progresión: arranca con Ollama y un modelo mediano. Construye un agente que resuelva una tarea sensible que hoy estás evitando hacer con AI por confidencialidad. Vívelo dos semanas. Si funciona, agrega un segundo agente. Si no funciona, primero arregla el flujo, no compres más hardware.

El objetivo no es purismo de privacidad. Es tener una capa que protege lo que importa, y enrutar el resto con criterio. Eso es agentes desktop adultos, no juguetería.

Tu primer agente de escritorio que no manda datos a la nube

Por qué un agente local importa

Arquitectura mínima viable

1. Capa de modelo local

2. Capa de orquestación

3. Interfaz mínima

Qué corre local y qué enruto a la nube

Caso concreto: agente para resumir contratos

Costos hardware reales

Errores comunes que veo

Cuándo NO va a alcanzar lo local

Qué hago yo

Preguntas frecuentes

¿Quieres robarte algo útil?

Tu primer agente de escritorio que no manda datos a la nube

Por qué un agente local importa

Arquitectura mínima viable

1. Capa de modelo local

2. Capa de orquestación

3. Interfaz mínima

Qué corre local y qué enruto a la nube

Caso concreto: agente para resumir contratos

Costos hardware reales

Errores comunes que veo

Cuándo NO va a alcanzar lo local

Qué hago yo

Preguntas frecuentes

Relacionado

¿Quieres robarte algo útil?