OpenAI evaluó la calidad del trabajo de la IA en tareas del mundo real

OpenAI ha lanzado GDPval, una nueva y rigurosa evaluación diseñada para medir el rendimiento de los modelos de Inteligencia Artificial (IA) en tareas del mundo real con valor económico directo, buscando trasladar el debate sobre el impacto de la IA del ámbito de la especulación a la evidencia cuantificable.

La evaluación GDPval (por Gross Domestic Product value) se enfoca en las 9 industrias que más contribuyen al Producto Interno Bruto (PIB) de EE. UU. y abarca 44 ocupaciones de “trabajo de conocimiento”, desde desarrolladores de software y abogados hasta enfermeras registradas e ingenieros mecánicos.

El conjunto de datos incluye 1.320 tareas especializadas que reflejan productos de trabajo reales, como informes legales o planos de ingeniería, validadas por profesionales con un promedio de 14 años de experiencia.

Resultados tempranos: la brecha se cierra rápidamente

Los hallazgos iniciales de OpenAI revelan que los modelos de IA de frontera ya están acercándose a la calidad del trabajo producido por expertos de la industria.

En una evaluación a ciegas realizada por expertos, los modelos más avanzados demostraron un rendimiento notable:

Liderazgo: Claude Opus 4.1 fue el modelo con mejor desempeño, siendo calificado como “tan bueno o mejor” que el trabajo humano en casi la mitad de las tareas. GPT-5 también mostró un rendimiento sobresaliente, particularmente en la precisión de sus resultados.
Velocidad y costo: Los modelos de frontera pueden completar las tareas de GDPval aproximadamente 100 veces más rápido y 100 veces más barato que los expertos humanos. Si bien esta cifra se limita al tiempo de inferencia pura, subraya un potencial masivo de eficiencia.
Progreso acelerado: La plataforma ha registrado una mejora impresionante, con el rendimiento de los modelos de OpenAI en estas tareas triplicándose en tan solo un año, desde GPT-4o hasta GPT-5 (lanzado en verano de 2025).

OpenAI sostiene que estos resultados demuestran que la IA está lista para desempeñar un papel complementario crucial. Los modelos pueden asumir tareas repetitivas y bien especificadas, permitiendo a los profesionales humanos reorientar su tiempo y energía hacia las partes de su trabajo que requieren creatividad, juicio experto y habilidades interpersonales.

“GDPval destaca dónde la IA puede manejar tareas rutinarias para que las personas puedan dedicar más tiempo a las partes creativas y de gran juicio del trabajo”, señala la compañía.

Cuando la IA complementa a los trabajadores de esta manera, el efecto puede traducirse en un crecimiento económico significativo al impulsar la productividad a gran escala.

Aunque GDPval es un primer paso —y su versión actual no evalúa flujos de trabajo interactivos o tareas que impliquen navegar la ambigüedad—, la nueva evaluación proporciona una métrica objetiva para rastrear el progreso de la IA y su impacto potencial en la economía global.

más leídas

El fundador de Mercado Libre Marcos Galperin volvió a apuntar contra el desembarco de plataformas chinas como Temu y Shein en Argentina.

MERCADOS

Galperin se queja de Temu y Shein, pero Mercado Libre vende productos chinos a “precios ultra bajos”

La industria global del salmón enfrenta un dilema estructural: cómo aumentar la producción para responder a la demanda mundial de alimentos sin profundizar el impacto ambiental sobre fiordos y ecosistemas costeros. En ese escenario, la tecnología aplicada a la acuicultura aparece como una de las claves para compatibilizar crecimiento, bienestar animal y preservación del ambiente.

MERCADOS

Tecnología offshore y acuicultura sostenible abren el debate para producir salmón en Tierra del Fuego

El Departamento de Estado abandona Calibri por considerarla “demasiado DEI” y vuelve a Times New Roman. La decisión, que ya generó polémica, abre un debate sobre ideología, accesibilidad y el sentido político detrás de los símbolos administrativos.

GOBIERNO

Estados Unidos cambia de letra para cambiar de rumbo: Marco Rubio prohíbe Calibri y desata una polémica tipográfica

El mercado laboral tecnológico en Argentina atraviesa una fase contradictoria: salarios altos en roles de élite, estancamiento en funciones operativas y un desaceleramiento del boom que dominó los últimos años.
Los datos surgen del último Index de Mercado Laboral de Bumeran.

NUEVAS TECNOLOGÍAS

Los salarios tech en Argentina 2025: cuánto se paga y por qué la brecha sigue creciendo