Investigadores simulan una empresa operada 100% por inteligencia artificial y los agentes solo completaron el 24% de las tareas

Un equipo de investigadores de la Universidad Carnegie Mellon (CMU) llevó adelante un experimento nunca antes practicado, montar una empresa simulada completamente dirigida y operada por agentes de inteligencia artificial. Sin humanos en ninguna etapa del proceso, donde buscaban comprobar que tan eficientes pueden ser los sistemas actuales cuando trabajan de forma autónoma en contextos laborales reales.  

La compañía ficticia, denominada The Agent Company, fue diseñada para imitar la dinámica de una oficina real. Se incluyeron roles específicos que requiere una empresa como desarrolladores de software, analistas de datos, responsables de recursos humanos, hasta personal administrativo, todos representados por modelos de lenguaje avanzados como GPT-4o, Claude Sonnet 3.5 y Gemini 2.0.

La infraestructura que utilizaron incluyó navegadores, herramientas de documentación y un entorno de simulación laboral llamado OpenHands y durante el desarrollo del experimento, se asignaron más de 100 tareas a los distintos agentes. Algunas eran sencillas (como redactar documentos o buscar información online) y otras más complejas, como depurar errores en código, coordinar tareas grupales o manejar flujos de decisiones a largo plazo. Sin embargo, el desempeño de los agentes dejó mucho que desear porque el mejor de ellos apenas logró completar el 24% de las tareas asignadas.

Un aspecto bastante llamativo fue la falta de sentido común en tareas cotidianas como, por ejemplo, cuando se pidió guardar un archivo como “answer.docx”, el agente interpretó la orden literalmente y guardó el texto como archivo plano, sin utilizar una herramienta compatible, básicamente una falta de sentido común. En otro caso, un agente debía escalar una situación al CTO si no recibía respuesta en 10 minutos, pero actuó sin que ese tiempo hubiera transcurrido, demostrando fallas al interpretar contextos temporales.

Según los investigadores, estos errores muestran que los agentes actuales aún no manejan bien instrucciones condicionales ni colaboraciones sociales básicas. Boxuan Li, uno de los autores del estudio, explicó al medio Infobae que “los modelos de lenguaje pueden resolver problemas complejos, pero fallan en tareas que un pasante resolvería en segundos”.

Además, se detectaron dificultades técnicas al momento de interpretar interfaces gráficas o leer páginas web mediante el “árbol de accesibilidad”. Como OpenHands no cuenta con procesamiento de imágenes, los agentes no pueden interactuar con estructuras visuales como lo haría un humano, limitando gravemente su capacidad para operar sistemas empresariales.

Pero no todo fue fracaso, pues en un caso puntual, un agente logró completar un complejo proyecto universitario en apenas ocho minutos y por un costo estimado de US$ 2,41. El sistema configuró entornos locales, modificó código, compiló y testeo exitosamente. Sin embargo, estos logros siguen siendo la excepción, y una minoría en todo lo que se vivió durante el experimento.

En opinión de los expertos, el mayor aprendizaje no está en lo que los agentes lograron hacer, sino en lo que no pudieron. La inteligencia artificial aún no puede reemplazar a un trabajador humano de forma integral, pero sí puede convertirse en un colaborador útil, siempre bajo supervisión. “Los humanos seguirán siendo necesarios como jefes, auditores o diseñadores de procesos”, explicó Yufan Song, coautor del estudio.

Tu opinión enriquece este artículo:

La adquisición del siglo: Netflix compra Warner Bros. y HBO (reimaginado el futuro del universo, crossing y phydigital, del entretenimiento)

(Por Maqueda, Taylor y Maurizio) Una jugada estratégica que redefine la industria, y todas las industrias, desde Hollywood, Miami, Usa, el mundo: claves técnicas, implicaciones creativas y 15 tips para entender de manera rápida la megafusión que sacude los cimientos de los medios. ¿Por qué esta adquisición es espejo de una cambio total de visión de negocios, cultura de marca y apuestas “económicas -culturales” a largo plazo. 

(Tiempo de lectura de valor: 4 minutos)

Solo 1 de cada 4 profesionales disfruta de la celebración de Navidad corporativa, mientras que la Gen Z impulsa el cambio de formato

El final de año activa las tradicionales cenas corporativas de Navidad, pero estas están cambiando. Según la encuesta de Hays realizada a más de 700 personas, la mitad de los empleados en España se muestra indiferente ante las iniciativas navideñas de su empresa; solo un 26% se siente motivado y un 25% percibe estrés o agobio. Los datos del líder global en selección y soluciones de recursos humanos muestran que el desafío no es celebrar, sino diseñar experiencias con valor real. Asimismo, la llegada de la Gen Z al mercado laboral está acelerando esta transformación, impulsando formatos más auténticos, flexibles y alineados con sus expectativas.

Como un seguro médico humano, pero para tu mascota: así funciona Medical Propet (con planes desde G. 95.000 al mes)

(Por BR) El mercado de medicina para mascotas aún es incipiente, pero empieza a dar sus primeros pasos con propuestas innovadoras como la de Medilcal Propet, la empresa creada por Víctor Amarilla, director y cofundador, y su socio, Jorge Duarte, veterinario especialista en neurología. La iniciativa busca brindar a los dueños de mascotas la tranquilidad de contar con un respaldo financiero frente a imprevistos veterinarios, un servicio cada vez más necesario ante el crecimiento de la medicina animal y los costos asociados a tratamientos especializados.