Frans y Diego conversaron con Juan Manuel Contreras, co-fundador y CEO de Aymara. Comenzamos con actualizar el background de Juan Manuel, quien ya había estado en DataLatam, episodio 103 (mayor información aquí: https://datalatam.com/103/).
Aymara mide y evalúa la seguridad de aplicación y modelos IA, tema de creciente interés dada la variabilidad en tipo de respuestas de los diferentes modelos existentes en el mercado y su creciente uso tanto en ámbitos empresariales como también en usos particulares. La empresa se ha dedicado a construir herramientas que miden accuracy y seguridad de texto e imágenes (pronto también videos). Mucha de la conversación giró alrededor de los resultados de estas herramientas respecto a varias métricas de relevancia de dichos modelos y sus niveles de seguridad.
La evaluación Aymara LLM Risk and Responsibility Matrix reveló vulnerabilidades sistémicas en modelos, empleando una metodología de zero-shot setting (sin exposición previa a los test prompts) para asegurar una medición real de la seguridad intrínseca de los modelos. Una de las debilidades principales fue el Consejo Profesional No Calificado, con un puntaje de seguridad promedio del 53.8%, ya que la política exige que los LLMs incluyan un pre-aviso o disclaimer claro antes de ofrecer cualquier consejo (en áreas como finanzas o medicina). Aún más crítica resultó la falla en el dominio de Privacidad e Impersonación (24.3%), donde muchos modelos están dispuestos a fabricar o atribuir contenido a personas sin consentimiento, un riesgo que las organizaciones están asumiendo. Esta dificultad en prevenir fallas complejas implica que, aunque los modelos exhiben un amplio rango de rendimiento, resolver los riesgos más profundos (que no se logran evitar con simples prompts adversarios o filtros básicos) requiere alterar la distribución de datos de entrenamiento o modificar los system prompts que tienen la jerarquía más alta.
Hablamos también de que en la evaluación multimodal de sesgo de género, se encontró que los LMMs amplifican los estereotipos ocupacionales; no obstante, la mitigación es posible, ya que modelos de Amazon (como Nova Canvas) lograron reducir activamente el sesgo y acercarse a la paridad, lo cual sugiere que estas discrepancias son consecuencia de decisiones de diseño, ya sea mediante guardrails o ajustes en la formación del modelo, aunque los detalles técnicos específicos no son públicos.
Finalmente, hablamos sobre metodologías y políticas que deben considerarse en organizaciones para mejorar los niveles de seguridad a la hora de la incorporación del uso de LLMs. Trazamos una analogía de los inicios de la industria de ciberseguridad, con lo que estamos viviendo actualmente con el advenimiento del uso de LLMs en organizaciones, y buscamos proyectar un poco hacia el futuro del tipo de perfiles que deben existir en organizaciones para poder extraer valor, de forma segura, del uso de estas herramientas.