
ARC-AGI-3: La IA Sigue Sin Poder Jugar
ARC-AGI-3, lanzado el 25 de marzo de 2026 por François Chollet y ARC Prize, lleva la evaluación de IA a entornos interactivos tipo videojuego donde los agentes deben explorar, inferir reglas y adaptarse sin ninguna instrucción. Resultado: los humanos resuelven el 100%. Los mejores modelos de frontera, el 0.26%. Premio de 2M$ para quien lo rompa.

AI Can Learn Scientific Taste
Investigadores de Fudan University proponen RLCF (Reinforcement Learning from Community Feedback), un paradigma que entrena a la IA para desarrollar ‘gusto científico’: la capacidad de juzgar qué ideas de investigación tienen alto potencial de impacto, usando citas como señal de preferencia. El resultado supera a GPT-5.2 y Gemini 3 Pro.

OpenClaw-RL: Aprendiendo de Cada Interacción en Tiempo Real
Princeton presenta OpenClaw-RL, un framework de aprendizaje por refuerzo asíncrono que permite a los agentes de IA aprender de señales del siguiente estado: respuestas de usuarios, outputs de herramientas, cambios en interfaces. Un paso hacia agentes que mejoran con el uso real.

Zombie Agents: Control Persistente de Agentes LLM Auto-Evolutivos
Un nuevo ataque persistente convierte agentes LLM auto-evolutivos en ‘zombies’ comprometidos al inyectar payloads maliciosos en su memoria a largo plazo, manteniendo control entre sesiones.
Think Deep, Not Just Long: Midiendo el Esfuerzo Real de Razonamiento en LLMs
Más tokens no significa mejor razonamiento. Este paper demuestra que lo que importa no es cuánto piensa un LLM, sino cómo: introduce los deep-thinking tokens y el DTR como métrica de esfuerzo real, con correlación positiva robusta frente al rendimiento.

Jailbreaking the Matrix: Cómo Manipular LLMs desde sus Circuitos Internos
HMNS es el primer método de jailbreak que usa interpretabilidad mecanística y geometría de subespacios para manipular directamente los circuitos internos de seguridad de un LLM. Aceptado en ICLR 2026.

Límites de Estabilidad del Razonamiento Autoregresivo: Por Qué los LLMs Fallan en Cadenas Largas
Este paper demuestra matemáticamente que el razonamiento autoregresivo tiene límites intrínsecos de estabilidad: la precisión decae exponencialmente con la longitud de la cadena, independientemente del tamaño del modelo.

AI Co-Scientist: Google Redefine el Descubrimiento Científico con Agentes Multi-IA
Google presenta un sistema multi-agente basado en Gemini 2.0 que genera hipótesis científicas novedosas y ya ha descubierto tratamientos validados en laboratorio para fibrosis hepática.

s1: Escalando el Razonamiento con Solo 1,000 Ejemplos y 'Budget Forcing'
Paper de la Semana: s1 (Simple Test-Time Scaling) Paper: s1: Simple test-time scaling Autores: Muennighoff et al. (simplescaling) Publicación: Enero 2026 GitHub: simplescaling/s1 ¿Por qué es relevante? Mientras todos persiguen datasets masivos y clusters de entrenamiento gigantescos, s1 llega con una premisa rompedora: puedes lograr capacidades de razonamiento de vanguardia (SOTA) con solo 1,000 ejemplos de entrenamiento cuidadosamente curados. Este paper desafía la noción de que el razonamiento avanzado es una propiedad emergente exclusiva de modelos entrenados con RL a gran escala (como DeepSeek-R1 o OpenAI o1). En su lugar, demuestran que un modelo fuerte (Qwen2.5-32B) puede “desbloquear” estas capacidades mediante: ...

Agentic World: ¿Son los Agentes una Amenaza o una Revolución?
Un análisis crítico sobre cómo los agentes autónomos redefinen nuestra relación con la tecnología, más allá del código.