La evaluación GDPval (por Gross Domestic Product value) se enfoca en las 9 industrias que más contribuyen al Producto Interno Bruto (PIB) de EE. UU. y abarca 44 ocupaciones de “trabajo de conocimiento”, desde desarrolladores de software y abogados hasta enfermeras registradas e ingenieros mecánicos.
El conjunto de datos incluye 1.320 tareas especializadas que reflejan productos de trabajo reales, como informes legales o planos de ingeniería, validadas por profesionales con un promedio de 14 años de experiencia.
Resultados tempranos: la brecha se cierra rápidamente
Los hallazgos iniciales de OpenAI revelan que los modelos de IA de frontera ya están acercándose a la calidad del trabajo producido por expertos de la industria.
En una evaluación a ciegas realizada por expertos, los modelos más avanzados demostraron un rendimiento notable:
Liderazgo: Claude Opus 4.1 fue el modelo con mejor desempeño, siendo calificado como “tan bueno o mejor” que el trabajo humano en casi la mitad de las tareas. GPT-5 también mostró un rendimiento sobresaliente, particularmente en la precisión de sus resultados.
Velocidad y costo: Los modelos de frontera pueden completar las tareas de GDPval aproximadamente 100 veces más rápido y 100 veces más barato que los expertos humanos. Si bien esta cifra se limita al tiempo de inferencia pura, subraya un potencial masivo de eficiencia.
Progreso acelerado: La plataforma ha registrado una mejora impresionante, con el rendimiento de los modelos de OpenAI en estas tareas triplicándose en tan solo un año, desde GPT-4o hasta GPT-5 (lanzado en verano de 2025).
OpenAI sostiene que estos resultados demuestran que la IA está lista para desempeñar un papel complementario crucial. Los modelos pueden asumir tareas repetitivas y bien especificadas, permitiendo a los profesionales humanos reorientar su tiempo y energía hacia las partes de su trabajo que requieren creatividad, juicio experto y habilidades interpersonales.
“GDPval destaca dónde la IA puede manejar tareas rutinarias para que las personas puedan dedicar más tiempo a las partes creativas y de gran juicio del trabajo”, señala la compañía.
Cuando la IA complementa a los trabajadores de esta manera, el efecto puede traducirse en un crecimiento económico significativo al impulsar la productividad a gran escala.
Aunque GDPval es un primer paso —y su versión actual no evalúa flujos de trabajo interactivos o tareas que impliquen navegar la ambigüedad—, la nueva evaluación proporciona una métrica objetiva para rastrear el progreso de la IA y su impacto potencial en la economía global.