Hola y bienvenidos a Eye on AI. En esta edición… Un nuevo benchmark de OpenAI muestra la eficacia de los modelos para realizar tareas profesionales… California tiene una nueva ley de IA… OpenAI implementa Compras Instantáneas en ChatGPT… y la IA puede identificar a los fundadores ganadores mejor que la mayoría de los inversores de capital riesgo.
El director ejecutivo de Google , Sundar Pichai, tenía razón al afirmar que, si bien las empresas de IA aspiran a crear IA general (IAG), lo que tenemos actualmente se parece más a la IA dentada (IAJ). Pichai quería decir con esto que la IA actual es brillante en algunas cosas, incluyendo tareas que incluso los expertos humanos encuentran difíciles, mientras que también tiene un rendimiento deficiente en tareas que un humano encontraría relativamente fáciles.
Pensar en la IA de esta manera explica en parte la confusión de titulares que hemos visto últimamente sobre ella: triunfando en competiciones internacionales de matemáticas y programación , mientras que muchos proyectos de IA no logran un retorno de la inversión y la gente se queja de que la "basura" generada por la IA supone un lastre para la productividad. (Más adelante hablaremos más sobre algunos de estos estudios pesimistas. Huelga decir que, a menudo, estos titulares esconden mucho menos de lo que parece).
Una de las razones de la aparente disparidad en las capacidades de la IA es que muchos indicadores de referencia no reflejan casos de uso reales. Por eso es tan importante un nuevo indicador publicado por OpenAI la semana pasada. Denominado GDPval, este indicador evalúa los principales modelos de IA en tareas reales, seleccionados por expertos de 44 profesiones diferentes, que representan nueve sectores económicos. Los expertos tenían un promedio de 14 años de experiencia en sus campos, que abarcaban desde derecho y finanzas hasta comercio minorista y manufactura, además de gobierno y salud.
Mientras que un punto de referencia de IA tradicional puede probar la capacidad de un modelo para responder a una pregunta de opción múltiple en un examen de abogacía sobre derecho contractual, por ejemplo, la evaluación GDPval le pide al modelo de IA que elabore un memorando legal completo de 3.500 palabras que evalúe el estándar de revisión bajo la ley de Delaware que un fundador y director ejecutivo de una empresa pública, con control mayoritario, enfrentaría si quisiera que esta empresa pública adquiriera una empresa privada que también era de su propiedad.
OpenAI probó no solo sus propios modelos, sino también los de otros laboratorios líderes, como Gemini 2.5 Pro de Google DeepMind, Claude Opus 4.1 de Anthropic y Grok 4 de Grok. De estos, Claude Opus 4.1 obtuvo el mejor rendimiento consistentemente, superando o igualando el rendimiento de expertos humanos en el 47,6 % del total de tareas. (Un gran reconocimiento a OpenAI por su honestidad intelectual al publicar un estudio en el que sus propios modelos no fueron los mejores).
Hubo mucha variación entre los modelos, con Gemini y Grok a menudo capaces de completar entre un tercio y un quinto de las tareas a un nivel igual o superior al de los expertos humanos, mientras que el rendimiento de GPT-5 Thinking de OpenAI se situó entre el de Claude Opus 4.1 y Gemini, y el modelo anterior de OpenAI, GPT-4o, fue el que tuvo el peor desempeño, apenas capaz de completar el 10% de las tareas a un nivel profesional. GPT-5 fue el mejor en seguir una indicación correctamente, pero a menudo no logró formatear su respuesta correctamente, según los investigadores. Gemini y Grok parecieron tener los mayores problemas para seguir instrucciones (a veces no proporcionaban el resultado entregado e ignoraban los datos de referencia), pero OpenAI observó que "todos los modelos a veces alucinaban con los datos o calculaban mal".
Grandes diferencias entre sectores y profesiones
También hubo cierta variación entre los sectores económicos: los modelos obtuvieron mejores resultados en tareas del gobierno, el comercio minorista y el comercio mayorista y, en general, obtuvieron peores resultados en tareas del sector manufacturero.
En algunas tareas profesionales, el rendimiento de Claude Opus 4.1 fue excepcional: superó o igualó el rendimiento humano en el 81 % de las tareas realizadas a empleados de mostrador y alquiler, el 76 % de las realizadas a empleados de envíos, el 70 % de las de desarrollo de software y, curiosamente, el 70 % de las tareas realizadas a investigadores y detectives privados. (¡Olvídate de Sherlock Holmes, llama a Claude!). El pensamiento GPT-5 superó a los expertos humanos en el 79 % de las tareas realizadas por gerentes de ventas y el 75 % de las realizadas por editores (¡gulp!).
En otros casos, los expertos humanos obtuvieron una victoria contundente. Todos los modelos fueron notablemente deficientes en tareas relacionadas con el trabajo de editores, productores y directores de cine y video, y técnicos de audio y video. Así que Hollywood podría estar respirando aliviado. Los modelos también fallaron en tareas relacionadas con el trabajo de los farmacéuticos.
Cuando los modelos de IA no lograron igualar o superar el rendimiento humano, rara vez fue de forma que los expertos humanos calificaran de "catastrófica"; esto solo ocurrió en el 2,7 % de los casos con fallos del GPT-5. Sin embargo, la respuesta del GPT-5 se calificó como "mala" en otro 26,7 % de estos casos, y como "aceptable pero deficiente" en el 47,7 % de los casos en los que los resultados humanos se consideraron superiores.
La necesidad de puntos de referencia 'Centauro'
Le pregunté a Erik Brynjolfsson, el economista de la Universidad de Stanford en el Human-Centered AI Institute (HAI) que ha realizado algunas de las mejores investigaciones hasta la fecha sobre el impacto económico de la IA generativa, qué pensaba de GDPval y los resultados . Dijo que la evaluación ayuda mucho a cerrar la brecha que se ha desarrollado entre los investigadores de IA y sus puntos de referencia preferidos, que a menudo son muy técnicos pero no coinciden con los problemas del mundo real. Brynjolfsson dijo que pensaba que GDPval "inspiraría a los investigadores de IA a pensar más en cómo diseñar sus sistemas para que sean útiles en el trabajo práctico, no solo para superar los puntos de referencia técnicos". También dijo que "en la práctica, eso significa integrar la tecnología en los flujos de trabajo y, la mayoría de las veces, involucrar activamente a los humanos".
Brynjolfsson afirmó que él y su colega Andy Haupt habían estado abogando por las "Evaluaciones Centauro" , que evalúan el rendimiento de los humanos cuando se combinan con un modelo de IA y reciben su asistencia, en lugar de considerar siempre al modelo de IA como un sustituto de los trabajadores humanos. (El término proviene de la idea del "ajedrez centauro", que es como se denomina a los grandes maestros humanos asistidos por computadoras de ajedrez. Se descubrió que este emparejamiento superaba lo que los humanos o las máquinas podían hacer por sí solos. Y, por supuesto, centauro se refiere aquí al mítico mitad hombre, mitad caballo de la mitología griega).
GDPval dio algunos pasos en este sentido, analizando en un caso el ahorro de tiempo y dinero al permitir que los modelos de OpenAI probaran una tarea varias veces, y que el usuario corrigiera el resultado si no cumplía con los estándares. En este caso, se descubrió que GPT-5 ofrecía una aceleración y un coste de 1,5 veces superiores a los del experto humano que trabajaba sin asistencia de IA. (Los modelos de OpenAI menos eficaces no resultaron tan eficaces, ya que GPT-4o, de hecho, provocó una ralentización y un aumento de costes en comparación con el experto humano que trabajaba sin asistencia).
Sobre esa investigación sobre el trabajo en IA…
Este último punto, junto con la etiqueta de "aceptable pero insatisfactorio" que caracterizó una buena parte de los casos en los que los modelos de IA no igualaron el rendimiento humano, me lleva de nuevo a esa investigación sobre el "descuido de trabajo" que salió la semana pasada. Esto puede, de hecho, ser lo que está sucediendo con algunos resultados de IA en entornos corporativos, especialmente porque los modelos más capaces, como GPT-5, Claude 4.1 Opus y Gemini 2.5 Pro, solo están siendo utilizados por un puñado de empresas a escala. Dicho esto, como señaló el periodista Adam Davidson en una publicación de Linkedin , el estudio "Workslop", al igual que ese ahora infame estudio del MIT sobre el 95% de los pilotos de IA que no lograron producir ROI, tenía algunos defectos muy graves. El estudio "Workslop" se basó en una encuesta en línea abierta que formulaba preguntas muy capciosas. Fue esencialmente una "encuesta de empuje" diseñada para generar un titular que llamara la atención sobre el problema del descuido de trabajo de la IA más que una pieza de investigación intelectualmente honesta. Pero funcionó: acaparó muchos titulares, incluso en Fortune. Si uno se centra en este tipo de titulares, es muy fácil pasar por alto la otra cara de lo que está sucediendo en la IA, que es la historia que cuenta GDPval: los modelos de IA con mejor rendimiento ya están a la par con la experiencia humana en muchas tareas. (Y recuerde que GDPval hasta ahora solo se ha probado en Claude Opus 4.1 de Anthropic, no en su nuevo Claude Sonnet 4.5, lanzado ayer, y que puede trabajar continuamente en una tarea hasta 30 horas, mucho más que cualquier modelo anterior). Esto no significa que la IA pueda reemplazar a estos expertos profesionales en un futuro próximo. Como ha demostrado el trabajo de Brynjolfsson, la mayoría de los trabajos consisten en docenas de tareas diferentes, y la IA solo puede igualar o superar el rendimiento humano en algunas de ellas. En muchos casos, es necesario que un humano esté presente para corregir los resultados cuando un modelo falla (lo que, como muestra GDPval, todavía sucede al menos el 20 % del tiempo, incluso en las tareas profesionales donde los modelos funcionan mejor). Pero la IA está avanzando, a veces rápidamente, en muchos dominios, y cada vez más de sus resultados no son solo basura.