Sandra Urena
MODELOS

Claude Opus 4.6: primeras impresiones después de 2 semanas

15 dic 2025·8 min lectura·Por Sandra Urena
geeksdevs
Respuesta corta: Opus 4.6 es claramente mejor que 4.5 en sesiones largas con muchas herramientas y razonamiento sostenido. Para tareas de marketing comunes, 4.5 Sonnet sigue ganando en relación calidad-costo. Si trabajas con agentes complejos o code que requiere refactor profundo, 4.6 vale el upgrade. Para todo lo demás, todavía no.

Anthropic liberó Opus 4.6 hace un par de semanas. Lo metí a producción en flujos reales el día siguiente. Sin marketing copy, sin keynote retórica. Lo que sigue son mis impresiones después de catorce días de uso intenso, en español, en tareas que importan, no en pruebas de juguete.

Contexto rápido: qué es Opus 4.6

Opus es la línea de modelos más capaces de Anthropic. Sonnet es la línea balanceada, la que la mayoría usa en producción. Haiku es la línea rápida y barata. Opus 4.6 es la versión más nueva del modelo grande, con foco en razonamiento largo, agentes y tareas que requieren mantener mucho contexto.

El precio de Opus es notablemente mayor que el de Sonnet. Esto importa porque define cuándo conviene usarlo y cuándo no. Si vas a tirar Opus a tareas que Sonnet hace bien, estás quemando plata.

Mis tres benchmarks personales

Cuando sale modelo nuevo, no me fío de los benchmarks oficiales. Tengo tres pruebas propias que corro cada vez. Son tareas reales que hago todo el tiempo, donde sé exactamente cómo se ve un buen output y cómo se ve uno mediocre.

Benchmark 1: agente largo con muchas herramientas

Un agente que lee correos, clasifica, redacta, archiva, busca en una base privada, y termina entregando un reporte. Diez herramientas distintas, sesión que dura entre 20 y 40 minutos según el volumen. La métrica es simple: ¿completa la tarea sin pedir intervención humana en el medio?

Resultado: 4.6 completó las tres corridas sin intervención. 4.5 había completado dos de tres en la misma prueba hace meses. La diferencia se siente. Mantiene mejor el plan original a pesar de que aparezcan datos inesperados, no se desvía a inventarse subtareas, y maneja mejor los errores transitorios de las herramientas. Para agentes en producción esto es diferencia cualitativa, no marginal.

Benchmark 2: code refactor profundo

Le doy un script Python de unos cientos de líneas con malos hábitos acumulados, le pido que lo refactorice manteniendo comportamiento idéntico. La métrica: ¿corre y pasa los tests sin que yo tenga que tocar nada?

Resultado: 4.6 entregó un refactor que pasó todos los tests a la primera, incluyendo dos casos borde que 4.5 había dejado inconsistentes en una prueba anterior. La calidad del código es notablemente más limpia. Y, lo que más me sorprendió, comentó decisiones de diseño que tomó con razonamiento real, no con frases genéricas.

Benchmark 3: razonamiento de marketing largo

Le tiro un dataset de campañas con resultados, le doy contexto del mercado, le pido un análisis de qué funcionó, qué no, y qué probaría próximamente, con argumentos. La métrica: ¿el análisis se sostiene si lo critico con preguntas duras?

Resultado: aquí 4.6 ganó pero por menos margen. El análisis fue más cuidadoso, identificó dos correlaciones espurias que 4.5 había tomado como causales. Pero el delta no es enorme. Para análisis cualitativo de marketing, 4.5 sigue siendo más que suficiente para la mayoría de los casos.

Lo que cambió respecto a 4.5

Tres cosas que noté en uso real, más allá de los benchmarks. Primero, el manejo de tools en cadena es mejor. No solo mantiene el plan, sino que cuando una tool falla, no entra en pánico ni reintenta sin lógica. Segundo, el razonamiento largo se siente menos verboso. Te entrega la conclusión antes y la justifica si la pides, no al revés. Tercero, el español sigue siendo bueno, comparable a 4.5, no significativamente mejor. Aquí no hay salto.

Lo que no cambió tanto

La velocidad de respuesta percibida. Opus por definición es más lento que Sonnet. Si lo usas para chat conversacional, se siente. Para agentes en background donde no estás esperando frente a la pantalla, no importa. Para asistente que usas en vivo, importa mucho.

Tampoco cambia la sensación de marca. Sigue siendo el mismo Claude que conoces, con la misma personalidad cuidadosa, las mismas frases que ya identificas. Esto es bueno y malo. Bueno porque es predecible. Malo si esperabas algo radicalmente distinto.

Cuándo conviene 4.6 y cuándo 4.5

Conviene 4.6: agentes complejos en producción, code refactor crítico, razonamiento largo sobre datos contradictorios, análisis de documentación pesada. Conviene 4.5: copy de marketing, research común, traducciones, segmentación, automatizaciones cortas, todo lo que un Sonnet bien instruido resuelve a menor costo. Mi regla: empieza en Sonnet y sube a Opus solo cuando la tarea lo demande. La inversa, empezar en Opus por defecto, te quema presupuesto.

Qué hago yo

Esto es lo que recomiendo: si manejas agentes en producción que tocan procesos del negocio, haz el experimento esta semana. Migra uno de tus agentes críticos a Opus 4.6 una semana, mide completion rate y errores. Si el delta justifica el costo, déjalo. Si no, vuelve a Sonnet y guarda el aprendizaje. No te cases con un modelo, cásate con la métrica.

Otra cosa: no anuncies en redes que estás "usando Opus 4.6" como si fuera credencial. A nadie le importa qué modelo usas, importa qué resultados das. Quien presume modelo, suele esconder falta de resultado.

Preguntas frecuentes

¿Vale la pena pasar de Claude 4.5 Sonnet a Opus 4.6?

Solo si tu trabajo cae en razonamiento largo, agentes complejos o code crítico. Para tareas comunes de copy y research, 4.5 Sonnet sigue siendo más eficiente en costo.

¿Cuál es la diferencia más notable de 4.6?

Mantiene el contexto en sesiones largas con muchas herramientas mejor que cualquier modelo previo. Para agentes asistidos eso es un cambio cualitativo, no incremental.

¿Cuándo conviene quedarse en 4.5?

Para tareas de menos de 10 minutos, prompts cortos, generación masiva de copy o tareas donde el costo por token suma. Opus es navaja suiza pero cuesta más.

¿Cómo lo pruebo sin gastar mucho?

Toma tres tareas reales tuyas y corre cada una en 4.5 y 4.6. Compara contra una métrica decidida antes. Costo del experimento: bajo. Información ganada: alta.

¿Quieres robarte algo útil?

30 prompts curados, listos para copiar y pegar. Por perfil. Sin formularios.

Ir a Róbate Esto →