Leandro Latorre España

Ingeniero Informático | Arquitecto de IA y Soluciones | Principal Software Engineer
Puzzle abstracto — benchmark ARC-AGI-3 para inteligencia agentica

ARC-AGI-3: La IA Sigue Sin Poder Jugar

ARC-AGI-3, lanzado el 25 de marzo de 2026 por François Chollet y ARC Prize, lleva la evaluación de IA a entornos interactivos tipo videojuego donde los agentes deben explorar, inferir reglas y adaptarse sin ninguna instrucción. Resultado: los humanos resuelven el 100%. Los mejores modelos de frontera, el 0.26%. Premio de 2M$ para quien lo rompa.

March 28, 2026 · Leandro Latorre
Científica trabajando en laboratorio — gusto científico e IA

AI Can Learn Scientific Taste

Investigadores de Fudan University proponen RLCF (Reinforcement Learning from Community Feedback), un paradigma que entrena a la IA para desarrollar ‘gusto científico’: la capacidad de juzgar qué ideas de investigación tienen alto potencial de impacto, usando citas como señal de preferencia. El resultado supera a GPT-5.2 y Gemini 3 Pro.

March 22, 2026 · Leandro Latorre
Agente de IA aprendiendo mediante reinforcement learning

OpenClaw-RL: Aprendiendo de Cada Interacción en Tiempo Real

Princeton presenta OpenClaw-RL, un framework de aprendizaje por refuerzo asíncrono que permite a los agentes de IA aprender de señales del siguiente estado: respuestas de usuarios, outputs de herramientas, cambios en interfaces. Un paso hacia agentes que mejoran con el uso real.

March 16, 2026 · Leandro Latorre
Robot de seguridad representando agentes LLM comprometidos

Zombie Agents: Control Persistente de Agentes LLM Auto-Evolutivos

Un nuevo ataque persistente convierte agentes LLM auto-evolutivos en ‘zombies’ comprometidos al inyectar payloads maliciosos en su memoria a largo plazo, manteniendo control entre sesiones.

March 1, 2026 · Leandro Latorre
Representación visual de capas de una red neuronal procesando información

Think Deep, Not Just Long: Midiendo el Esfuerzo Real de Razonamiento en LLMs

Más tokens no significa mejor razonamiento. Este paper demuestra que lo que importa no es cuánto piensa un LLM, sino cómo: introduce los deep-thinking tokens y el DTR como métrica de esfuerzo real, con correlación positiva robusta frente al rendimiento.

February 28, 2026 · Leandro Latorre
Red neuronal y circuitos de seguridad en modelos de lenguaje

Jailbreaking the Matrix: Cómo Manipular LLMs desde sus Circuitos Internos

HMNS es el primer método de jailbreak que usa interpretabilidad mecanística y geometría de subespacios para manipular directamente los circuitos internos de seguridad de un LLM. Aceptado en ICLR 2026.

February 22, 2026 · Leandro Latorre
Intrinsic Stability Limits of Autoregressive Reasoning

Límites de Estabilidad del Razonamiento Autoregresivo: Por Qué los LLMs Fallan en Cadenas Largas

Este paper demuestra matemáticamente que el razonamiento autoregresivo tiene límites intrínsecos de estabilidad: la precisión decae exponencialmente con la longitud de la cadena, independientemente del tamaño del modelo.

February 14, 2026 · Leandro Latorre
AI Co-Scientist Multi-Agent Architecture

AI Co-Scientist: Google Redefine el Descubrimiento Científico con Agentes Multi-IA

Google presenta un sistema multi-agente basado en Gemini 2.0 que genera hipótesis científicas novedosas y ya ha descubierto tratamientos validados en laboratorio para fibrosis hepática.

February 9, 2026 · Leandro Latorre
s1 Test-Time Scaling Performance

s1: Escalando el Razonamiento con Solo 1,000 Ejemplos y 'Budget Forcing'

Paper de la Semana: s1 (Simple Test-Time Scaling) Paper: s1: Simple test-time scaling Autores: Muennighoff et al. (simplescaling) Publicación: Enero 2026 GitHub: simplescaling/s1 ¿Por qué es relevante? Mientras todos persiguen datasets masivos y clusters de entrenamiento gigantescos, s1 llega con una premisa rompedora: puedes lograr capacidades de razonamiento de vanguardia (SOTA) con solo 1,000 ejemplos de entrenamiento cuidadosamente curados. Este paper desafía la noción de que el razonamiento avanzado es una propiedad emergente exclusiva de modelos entrenados con RL a gran escala (como DeepSeek-R1 o OpenAI o1). En su lugar, demuestran que un modelo fuerte (Qwen2.5-32B) puede “desbloquear” estas capacidades mediante: ...

January 31, 2026 · Leandro Latorre
Evolución de los Agentes

Agentic World: ¿Son los Agentes una Amenaza o una Revolución?

Un análisis crítico sobre cómo los agentes autónomos redefinen nuestra relación con la tecnología, más allá del código.

January 25, 2026 · Leandro Latorre