INTELIGENCIA ARTIFICIAL

Publicado 02/10/2025

OpenAI evaluó la calidad del trabajo de la IA en tareas del mundo real

OpenAI ha lanzado GDPval, una nueva y rigurosa evaluación diseñada para medir el rendimiento de los modelos de Inteligencia Artificial (IA) en tareas del mundo real con valor económico directo, buscando trasladar el debate sobre el impacto de la IA del ámbito de la especulación a la evidencia cuantificable.
Compartir
Compartir por Facebook Compartir por WhatsApp Compartir por X Compartir por Telegram

OpenAI ha lanzado GDPval, una nueva y rigurosa evaluación diseñada para medir el rendimiento de los modelos de Inteligencia Artificial (IA) en tareas del mundo real con valor económico directo, buscando trasladar el debate sobre el impacto de la IA del ámbito de la especulación a la evidencia cuantificable.

La evaluación GDPval (por Gross Domestic Product value) se enfoca en las 9 industrias que más contribuyen al Producto Interno Bruto (PIB) de EE. UU. y abarca 44 ocupaciones de “trabajo de conocimiento”, desde desarrolladores de software y abogados hasta enfermeras registradas e ingenieros mecánicos.

 

El conjunto de datos incluye 1.320 tareas especializadas que reflejan productos de trabajo reales, como informes legales o planos de ingeniería, validadas por profesionales con un promedio de 14 años de experiencia.

 

 

 

Resultados tempranos: la brecha se cierra rápidamente

 

Los hallazgos iniciales de OpenAI revelan que los modelos de IA de frontera ya están acercándose a la calidad del trabajo producido por expertos de la industria.

En una evaluación a ciegas realizada por expertos, los modelos más avanzados demostraron un rendimiento notable:

 

  • Liderazgo: Claude Opus 4.1 fue el modelo con mejor desempeño, siendo calificado como “tan bueno o mejor” que el trabajo humano en casi la mitad de las tareas. GPT-5 también mostró un rendimiento sobresaliente, particularmente en la precisión de sus resultados.

  • Velocidad y costo: Los modelos de frontera pueden completar las tareas de GDPval aproximadamente 100 veces más rápido y 100 veces más barato que los expertos humanos. Si bien esta cifra se limita al tiempo de inferencia pura, subraya un potencial masivo de eficiencia.

  • Progreso acelerado: La plataforma ha registrado una mejora impresionante, con el rendimiento de los modelos de OpenAI en estas tareas triplicándose en tan solo un año, desde GPT-4o hasta GPT-5 (lanzado en verano de 2025).

 

 

 

OpenAI sostiene que estos resultados demuestran que la IA está lista para desempeñar un papel complementario crucial. Los modelos pueden asumir tareas repetitivas y bien especificadas, permitiendo a los profesionales humanos reorientar su tiempo y energía hacia las partes de su trabajo que requieren creatividad, juicio experto y habilidades interpersonales.

 

GDPval destaca dónde la IA puede manejar tareas rutinarias para que las personas puedan dedicar más tiempo a las partes creativas y de gran juicio del trabajo”, señala la compañía.

 

Cuando la IA complementa a los trabajadores de esta manera, el efecto puede traducirse en un crecimiento económico significativo al impulsar la productividad a gran escala.

 

Aunque GDPval es un primer paso —y su versión actual no evalúa flujos de trabajo interactivos o tareas que impliquen navegar la ambigüedad—, la nueva evaluación proporciona una métrica objetiva para rastrear el progreso de la IA y su impacto potencial en la economía global.