AI Evals para AI Product Managers & Testers (EVA)

AI Evals para AI Product Managers & Testers (EVA)

Asegura la calidad de tus soluciones de IA: el skill crítico de la era de los LLMs.

Lab
28 horas
En Español

7 al 30 de Julio

USD 1000USD 800
Precio early bird hasta 30 jun

Desde USD 295 para suscripciones Labs

Formación en vivo de 8 encuentros para profesionales de producto y testing que quieren incorporar la práctica de evaluación sistemática de productos de IA. Trabajamos un caso real de extremo a extremo sobre las plataformas que el mercado está usando hoy, combinando teoría aplicada, demos con herramientas operativas y trabajos prácticos para que cada participante lo pueda aprender haciendo.

¿De qué se trata?

Los productos que integran LLMs no se rompen como el software tradicional. Fallan en silencio, fallan distinto cada vez, y muchas veces fallan mejor o peor según el modelo, el prompt o el día. Esa naturaleza probabilística deja a los equipos de producto y de calidad sin la herramienta más básica que tenían: una prueba que pase o falle de forma estable. Sin evals, las decisiones de shipping se vuelven una mezcla de intuición, demos selectivas y discusiones que no se respaldan con datos.


Este programa enseña la disciplina que está reemplazando esa intuición por evidencia. A lo largo de 8 encuentros vas a aprender a generar datasets sintéticos, a leer outputs y construir taxonomías rigurosas de fallas, a combinar evals determinísticos con LLM-as-judge, a calibrar jueces contra criterio humano, a evaluar sistemas con RAG y agentes, y a operar todo esto en producción con monitoring continuo.


El programa está diseñado para dos perfiles que llegan a evals desde lugares distintos pero conviven en el mismo lenguaje. Si vienes del mundo de producto, vas a ganar el criterio cuantitativo que necesitas para decidir cuándo un sistema con IA está listo para usuarios reales. Si vienes del mundo del testing, vas a reconvertir tu disciplina de análisis sistemático de fallas en una de las habilidades más demandadas hoy: AI Quality.


La plataforma elegida para la cursada te permite cubrir la mayor parte del recorrido sin necesidad de escribir código.

Herramientas

Utilizaremos la siguiente herramienta

OpenAI Platform

¿Para quién es este programa?

Este es un programa pensado para dos audiencias que necesitan llegar al mismo lugar desde puntos de partida distintos.

Profesionales de Producto

Product Manager, Product Owner, Product Lead o roles equivalentes: si estás liderando o por liderar un producto con IA, te llevas el criterio para decidir con evidencia cuándo un sistema está listo, qué dimensiones de calidad importan en tu caso, cómo comunicar riesgo a stakeholders y cómo especificar evals de manera que tu equipo técnico los pueda implementar. Dejas de depender de demos selectivas para sostener decisiones de shipping.

Profesionales de Testing

QA Engineer, Tester, Quality Lead o roles afines: tu disciplina de análisis sistemático de fallas, calibración entre evaluadores y rigor en el reporting es exactamente la base sobre la que se construye AI Quality. Te llevas un mapa concreto para reconvertir esa experiencia en una de las habilidades más demandadas hoy: diseñar, validar y operar evaluaciones para sistemas probabilísticos.

En ambos casos asumimos experiencia previa en producto o testing. No partimos de cero: partimos de tu criterio profesional y le agregamos las herramientas y el modelo mental que la IA necesita.

Al finalizar el programa podrás:

Distinguir qué comportamientos de un sistema de IA se evalúan con criterio automatizado y cuáles requieren un juez basado en LLM.

Generar datasets de prueba diversos y representativos a partir de las dimensiones del problema, sin depender de tener tráfico real.

Leer outputs de manera sistemática y construir una taxonomía de modos de falla que alimente todo el ciclo de evaluación.

Decidir cuándo conviene una capa de evaluación liviana y cuándo el problema pide una solución de IA (LLM-as-a-judge) con criterio.

Diseñar rubricas y operar jueces basados en LLM, reconociendo y mitigando los sesgos típicos a los que están sujetos.

Validar que un juez está alineado con criterio humano antes de confiar en sus mediciones.

Diseñar suites de evaluación para sistemas RAG que cubran qué se recupera, qué se responde y qué pasa cuando no hay contexto.

Evaluar agentes y sistemas multi-paso atendiendo a la trayectoria completa, e identificar cuándo el tipo de evaluación que vienes haciendo deja de alcanzar.

Operar evals en producción: monitoreo continuo, muestreo, detección de regresiones y guardrails como capa operativa.

Comunicar calidad y riesgo a stakeholders no técnicos con respaldo cuantitativo.

Programa

1

Kick-Off

Acceso anticipado para preparar tu entorno de trabajo y familiarizarte con el caso real que recorre todo el programa: una aplicación de IA que vamos a someter, encuentro a encuentro, a un proceso de evaluación completo.
2

Fundamentos

Qué es un eval, cuándo entra en el ciclo de desarrollo de una aplicación de IA, y por qué las prácticas de QA tradicional no alcanzan para evaluar sistemas probabilísticos. El encuentro está pensado para producir el cambio de modelo mental que el resto del curso necesita: pasar de un mundo donde una prueba pasa o falla a uno donde el resultado es una distribución, los datasets viven y cambian, y la decisión nunca es solo de calidad. Trabajamos la primera habilidad práctica del curso: cómo construir un conjunto de casos de prueba diverso y representativo cuando todavía no tienes tráfico real.
3

Taxonomía de fallas

Con los casos de prueba del Encuentro 1, llega el momento de correrlos contra un modelo y observar qué pasa. Aquí se aprende la habilidad que más diferencia a alguien que sabe de evals de alguien que solo los configura: leer outputs de manera sistemática y construir una taxonomía rigurosa de modos de falla. Esta taxonomía es el insumo que alimenta todo lo que viene después.
4

Evals Determinísticas

Primera capa de automatización del programa. Aquí trabajamos los criterios que se pueden expresar sin ambigüedad y verificar sin la opinión de nadie: formato, restricciones, coincidencias contra valores de referencia. El encuentro cubre qué dimensiones de calidad caen en esta capa, cuándo conviene quedarse acá y cuándo el problema pide subir un escalón. Cierra con una habilidad central para PMs que trabajan con equipos técnicos: cómo especificar un criterio de evaluación de manera que un ingeniero lo pueda implementar sin volver a preguntar.
5

Evals Probabilísticas

El corazón del programa. Cuando un criterio es subjetivo, contextual o difícil de capturar con reglas, el camino es usar un modelo como evaluador (LLM-as-a-judge). El encuentro enseña a escribir rubricas claras, a elegir entre un juez categórico y uno numérico según la decisión que el resultado tiene que sostener, y a reconocer los sesgos típicos a los que están sujetos estos jueces (preferencia por respuestas largas, sensibilidad al orden, anclaje sobre lo familiar) junto con las técnicas concretas para mitigarlos.
6

Evaluación de Evaluadores

Un juez (LLM-as-a-judge) sin validar es una opinión disfrazada de medición. Este encuentro enseña cómo confirmar que un LLM-as-a-judge está efectivamente alineado con criterio humano: sesiones de calibración, anotación cruzada y métricas de acuerdo entre evaluadores. Cada participante itera sobre su juez hasta lograr alineación suficiente y aprende a documentar el proceso de validación. Es una habilidad muy valorada en el mercado de AI Quality y se transfiere casi directo desde la cultura de calibración del testing tradicional.
7

Evaluación de sistemas RAG

Los sistemas que recuperan información antes de generar una respuesta requieren evaluaciones específicas que no aparecen en aplicaciones puramente generativas. ¿Lo que recuperó el sistema era lo correcto? ¿La respuesta está respaldada por lo recuperado o el modelo agregó cosas? ¿Qué pasa cuando no hay información disponible y el modelo igual responde? El encuentro enseña a diseñar este tipo de evaluaciones desde una perspectiva de producto, sin entrar al detalle de implementación del retriever.
8

Evaluación de agentes

Los sistemas que usan herramientas externas o que toman múltiples pasos antes de llegar a una respuesta no se evalúan igual que una respuesta única. Lo que importa es la trayectoria completa: si el agente llegó al objetivo, si el camino fue razonable, cómo recuperó cuando algo falló en el medio. El caso del curso se extiende a este escenario y trabajamos qué cambia respecto de lo visto hasta acá. El encuentro discute con honestidad cuándo el tipo de evaluación que vienes haciendo deja de alcanzar y qué hace el mercado en esos casos.
9

Evals en producción

El cierre. Hasta acá trabajamos contra conjuntos de prueba controlados; en este encuentro pasamos al mundo real: monitoreo continuo, muestreo en producción, detección de regresiones cuando se cambia un prompt o un modelo, y guardrails como capa operativa. Cubrimos también cómo comunicar riesgo y calidad a stakeholders no técnicos, una habilidad central para PMs y para cualquier rol que tenga que justificar decisiones de shipping ante el negocio.

Preguntas frecuentes

Todo lo que necesitas saber sobre este curso

Tu instructor

Martin Alaimo

Martin Alaimo

Formador, consultor y divulgador dedicado a la creación de Productos Digitales y la Agilidad de Negocio. A la fecha, ha acompañado a más de 200 organizaciones y ha apoyado a más de 8.000 personas en procesos de evolución profesional. Su enfoque es situacional y práctico, ofreciendo una enseñanza inmersiva con experiencias innovadoras que facilitan el aprendizaje aplicable, especialmente en áreas que no suele abordar la academia clásica.

Ha participado como orador en más de 30 conferencias en Estados Unidos y 14 países de Latinoamérica y Europa, además de ser autor de 6 libros sobre producto e innovación digital.

Su libro más reciente, IA Strategy Workshop, brinda herramientas para salir de la lógica de la “feature factory” e integrar inteligencia artificial con criterio estratégico e impacto real.

Como parte de su compromiso con la innovación, es miembro organizador de Product Tank, la comunidad más grande de Product Management.

Es uno de los pocos expertos que reúne las certificaciones más altas de la industria en prácticas ágiles: Certified Scrum Trainer (CST), Certified Enterprise Coach (CEC), Certified Team Coach (CTC), Certified Agile Leadership Educator (CAL Educator), y Path to CSP Educator.

Conoce su perfil profesional completo y sus actividades de divulgación en LinkedIn.

¿Te animas a dar este paso?

No estás empezando de cero. Estás eligiendo avanzar con criterio.

Aprender mejor también es una decisión.