AI Evals para AI Product Managers & Testers (EVA)
Asegura la calidad de tus soluciones de IA: el skill crítico de la era de los LLMs.
7 al 30 de Julio
Formación en vivo de 8 encuentros para profesionales de producto y testing que quieren incorporar la práctica de evaluación sistemática de productos de IA. Trabajamos un caso real de extremo a extremo sobre las plataformas que el mercado está usando hoy, combinando teoría aplicada, demos con herramientas operativas y trabajos prácticos para que cada participante lo pueda aprender haciendo.
¿De qué se trata?
Los productos que integran LLMs no se rompen como el software tradicional. Fallan en silencio, fallan distinto cada vez, y muchas veces fallan mejor o peor según el modelo, el prompt o el día. Esa naturaleza probabilística deja a los equipos de producto y de calidad sin la herramienta más básica que tenían: una prueba que pase o falle de forma estable. Sin evals, las decisiones de shipping se vuelven una mezcla de intuición, demos selectivas y discusiones que no se respaldan con datos.
Este programa enseña la disciplina que está reemplazando esa intuición por evidencia. A lo largo de 8 encuentros vas a aprender a generar datasets sintéticos, a leer outputs y construir taxonomías rigurosas de fallas, a combinar evals determinísticos con LLM-as-judge, a calibrar jueces contra criterio humano, a evaluar sistemas con RAG y agentes, y a operar todo esto en producción con monitoring continuo.
El programa está diseñado para dos perfiles que llegan a evals desde lugares distintos pero conviven en el mismo lenguaje. Si vienes del mundo de producto, vas a ganar el criterio cuantitativo que necesitas para decidir cuándo un sistema con IA está listo para usuarios reales. Si vienes del mundo del testing, vas a reconvertir tu disciplina de análisis sistemático de fallas en una de las habilidades más demandadas hoy: AI Quality.
La plataforma elegida para la cursada te permite cubrir la mayor parte del recorrido sin necesidad de escribir código.
Herramientas
Utilizaremos la siguiente herramienta
¿Para quién es este programa?
Profesionales de Producto
Product Manager, Product Owner, Product Lead o roles equivalentes: si estás liderando o por liderar un producto con IA, te llevas el criterio para decidir con evidencia cuándo un sistema está listo, qué dimensiones de calidad importan en tu caso, cómo comunicar riesgo a stakeholders y cómo especificar evals de manera que tu equipo técnico los pueda implementar. Dejas de depender de demos selectivas para sostener decisiones de shipping.
Profesionales de Testing
QA Engineer, Tester, Quality Lead o roles afines: tu disciplina de análisis sistemático de fallas, calibración entre evaluadores y rigor en el reporting es exactamente la base sobre la que se construye AI Quality. Te llevas un mapa concreto para reconvertir esa experiencia en una de las habilidades más demandadas hoy: diseñar, validar y operar evaluaciones para sistemas probabilísticos.
En ambos casos asumimos experiencia previa en producto o testing. No partimos de cero: partimos de tu criterio profesional y le agregamos las herramientas y el modelo mental que la IA necesita.
Al finalizar el programa podrás:
Distinguir qué comportamientos de un sistema de IA se evalúan con criterio automatizado y cuáles requieren un juez basado en LLM.
Generar datasets de prueba diversos y representativos a partir de las dimensiones del problema, sin depender de tener tráfico real.
Leer outputs de manera sistemática y construir una taxonomía de modos de falla que alimente todo el ciclo de evaluación.
Decidir cuándo conviene una capa de evaluación liviana y cuándo el problema pide una solución de IA (LLM-as-a-judge) con criterio.
Diseñar rubricas y operar jueces basados en LLM, reconociendo y mitigando los sesgos típicos a los que están sujetos.
Validar que un juez está alineado con criterio humano antes de confiar en sus mediciones.
Diseñar suites de evaluación para sistemas RAG que cubran qué se recupera, qué se responde y qué pasa cuando no hay contexto.
Evaluar agentes y sistemas multi-paso atendiendo a la trayectoria completa, e identificar cuándo el tipo de evaluación que vienes haciendo deja de alcanzar.
Operar evals en producción: monitoreo continuo, muestreo, detección de regresiones y guardrails como capa operativa.
Comunicar calidad y riesgo a stakeholders no técnicos con respaldo cuantitativo.
Programa
1 Kick-Off
Kick-Off
2 Fundamentos
Fundamentos
3 Taxonomía de fallas
Taxonomía de fallas
4 Evals Determinísticas
Evals Determinísticas
5 Evals Probabilísticas
Evals Probabilísticas
6 Evaluación de Evaluadores
Evaluación de Evaluadores
7 Evaluación de sistemas RAG
Evaluación de sistemas RAG
8 Evaluación de agentes
Evaluación de agentes
9 Evals en producción
Evals en producción
Preguntas frecuentes
Todo lo que necesitas saber sobre este curso
No. La plataforma principal que usamos permite configurar la mayor parte de las evaluaciones desde la interfaz, sin necesidad de escribir código. En los encuentros donde aparece código, lo leemos y lo discutimos como especificación (algo que un PM necesita poder leer para conversar con su equipo técnico) no como tarea de implementación. Si vienes de producto vas a poder seguir el curso completo; si vienes de testing y tienes background técnico, vas a poder profundizar todo lo que quieras.
La cuenta de OpenAI y créditos que vamos a usar a lo largo del programa, con un presupuesto aproximado de USD 20 a USD 30 en total. En el Kick-Off te compartimos un tutorial paso a paso para que llegues con todo configurado.
Tu experiencia es la base sobre la que se construye este curso, no algo que te haga sobrar en él. Lo que sumas es el modelo mental específico que pide la evaluación de sistemas probabilísticos, las plataformas concretas que usa el mercado de AI Quality y la práctica de calibrar jueces de LLM, que es donde tu disciplina de calibración entre evaluadores cobra un valor enorme. Vas a reconocer mucho del lenguaje y vas a aprender a aplicarlo en un terreno nuevo.
Sí. El curso no asume formación previa en testing tradicional. Los conceptos que vienen del mundo de QA (taxonomía de fallas, calibración entre evaluadores, reporting riguroso) los introducimos desde cero, en el contexto de IA. Si ya tienes criterio de producto, el curso te equipa para combinarlo con el rigor cuantitativo que las decisiones de shipping con IA requieren.
Elegimos la plataforma del programa con dos criterios: 1) que te permitan cubrir la mayor parte del recorrido sin pelear con tooling, y 2) que sean representativas de lo que el mercado de AI Quality usa hoy: OpenAI Evals.
Tu instructor
Martin Alaimo
Formador, consultor y divulgador dedicado a la creación de Productos Digitales y la Agilidad de Negocio. A la fecha, ha acompañado a más de 200 organizaciones y ha apoyado a más de 8.000 personas en procesos de evolución profesional. Su enfoque es situacional y práctico, ofreciendo una enseñanza inmersiva con experiencias innovadoras que facilitan el aprendizaje aplicable, especialmente en áreas que no suele abordar la academia clásica.
Ha participado como orador en más de 30 conferencias en Estados Unidos y 14 países de Latinoamérica y Europa, además de ser autor de 6 libros sobre producto e innovación digital.
Su libro más reciente, IA Strategy Workshop, brinda herramientas para salir de la lógica de la “feature factory” e integrar inteligencia artificial con criterio estratégico e impacto real.
Como parte de su compromiso con la innovación, es miembro organizador de Product Tank, la comunidad más grande de Product Management.
Es uno de los pocos expertos que reúne las certificaciones más altas de la industria en prácticas ágiles: Certified Scrum Trainer (CST), Certified Enterprise Coach (CEC), Certified Team Coach (CTC), Certified Agile Leadership Educator (CAL Educator), y Path to CSP Educator.
Conoce su perfil profesional completo y sus actividades de divulgación en LinkedIn.
7 al 30 de Julio
Suscripción anual
- 2 formaciones en vivo por USD 1295
- Incluye biblioteca on-demand de webinars
- Incluye Flash Workshops sin costo adicional
- 3er formación en adelante: USD 295 c/u
¿Te animas a dar este paso?
No estás empezando de cero. Estás eligiendo avanzar con criterio.
Aprender mejor también es una decisión.