Hacer que una interfaz de aprendizaje de IA sea más intuitiva

December 2024

Este estudio se realizó en el laboratorio HCI/UX en una universidad R1, que se encuentra dentro de la Facultad de Ingeniería y Computación. El director del laboratorio es profesor asociado, y el equipo de investigación de usuarios estaba formado por estudiantes de pregrado y M.S. estudiantes del departamento de TI.

Fondo

ALLURE es una interfaz de IA que ayuda a los usuarios a aprender cómo resolver varios problemas en un cubo de Rubik usando un chatbot y funciones de diseño interactivo. Los desarrolladores principales querían comentarios iniciales sobre la usabilidad de su prototipo para resolver la cruz blanca antes de expandir su plataforma.

Screenshot 2024-11-19 at 7.16.20 PM.jpeg

Resumen de resultados

Captura de pantalla de la versión prototipo de la interfaz. El cubo 3D está en rotación media con flecha y resaltador. Chatbot ofrece instrucciones escritas para resolver el Nivel 3.

El propósito y la progresión de los "niveles" no están claros.
El control deslizante de velocidad y el botón "Restablecer vista" no son intuitivos.
El chatbot no se suma a la experiencia de los usuarios ni contribuye a su capacidad para resolver la cruz blanca.

Métodos

Evaluación heurística
Cribadores
Pruebas de usabilidad
Entrevistas a usuarios

Herramientas

NVivo
Nutria.ai
Sobresalir

Restricciones

El tiempo de respuesta de este proyecto fue más corto de lo esperado (1 semana) porque los desarrolladores necesitaron más tiempo para finalizar el prototipo en la parte delantera. La facultad de investigación también necesitaba resultados y recomendaciones rápidamente para cumplir con la fecha límite de publicación.
Todos los moderadores eran estudiantes de tiempo completo, por lo que ningún miembro del equipo podía estar presente en los 10 estudios de usabilidad. Sin embargo, los estudios se grabaron en audio y se transcribieron y las pantallas de los usuarios se grabaron durante la prueba de usabilidad para que cada miembro del equipo pudiera ver.

Proceso

Se reunió con las partes interesadas(facultad de investigación) para saber qué conocimientos querían en este punto del proceso de desarrollo.

Realicé una evaluación heurística y descubrió que el botón "Resolver" en el chatbot no funcionaba correctamente.

Participantes solicitados a través de listservs universitarios y plataformas sociales, ya que los usuarios objetivo del prototipo inicial eran estudiantes mayores de 18 años.

evaluadores administrados para recopilar datos demográficos de los usuarios. Luego, seleccionamos a 10 usuarios en diferentes campos y años principales, el nivel de habilidad percibido con el cubo de Rubik y las identidades de género.

Lista de tareas revisada y preguntas de la entrevista con las partes interesadas para asegurarnos de que el diseño de nuestro estudio se alinearía con los comentarios que querían.

Realización de pruebas de usabilidad moderadas y presenciales. Se pidió a los usuarios que resolvieran una cruz blanca y verbalizaran sus pensamientos mientras se movían por la interfaz. La prueba de usabilidad concluyó una vez que el usuario resolvió con éxito la cruz blanca o declaró que había terminado.

Screenshot 2025-01-29 at 4.46.25 PM.jpeg

Screenshot 2025-01-29 at 4.58.02 PM.jpeg

Fig. 2- Experiment Design Canvas

Process

El propósito y la progresión de los "niveles", o la serie de pasos desde una configuración inicial particulara la cruz blanca—no estaba claro. Los usuarios no sabían si los niveles se complementaban entre sí o si aumentaban en dificultad, especialmente porque los niveles anteriores eran más difíciles que los niveles posteriores para algunos usuarios.
Algunas funciones de aprendizaje multimodal no eran intuitivas. ALLURE tenía un control deslizante de velocidad que controlaba el ritmo de las instrucciones del chatbot y un botón para "restablecer" el cubo 3D virtual a su posición inicial, pero los usuarios no entendían qué controlaba el control deslizante de velocidad o que el cubo tenía que modificarse antes de que pudiera volver a la vista de reinicio. A veces, los usuarios no notaron estas características hasta el final del estudio, o las ignoraron por completo.
La instrucción del chatbot no fue útil.Las entrevistas de seguimiento revelaron que algunos usuarios encontraron redundantes o innecesarias las instrucciones del chatbot junto con las instrucciones visuales. Los usuarios prefirieron las flechas, el resaltador y la animación del cubo 3D interactivo, y no sintieron que las instrucciones verbales afectaron su capacidad para resolver la cruz blanca.

El propósito y la progresión de los "niveles", o la serie de pasos desde una configuración inicial particulara la cruz blanca—no estaba claro. Los usuarios no sabían si los niveles se complementaban entre sí o si aumentaban en dificultad, especialmente porque los niveles anteriores eran más difíciles que los niveles posteriores para algunos usuarios.
Algunas funciones de aprendizaje multimodal no eran intuitivas. ALLURE tenía un control deslizante de velocidad que controlaba el ritmo de las instrucciones del chatbot y un botón para "restablecer" el cubo 3D virtual a su posición inicial, pero los usuarios no entendían qué controlaba el control deslizante de velocidad o que el cubo tenía que modificarse antes de que pudiera volver a la vista de reinicio. A veces, los usuarios no notaron estas características hasta el final del estudio, o las ignoraron por completo.
La instrucción del chatbot no fue útil.Las entrevistas de seguimiento revelaron que algunos usuarios encontraron redundantes o innecesarias las instrucciones del chatbot junto con las instrucciones visuales. Los usuarios prefirieron las flechas, el resaltador y la animación del cubo 3D interactivo, y no sintieron que las instrucciones verbales afectaron su capacidad para resolver la cruz blanca.

Screenshot 2024-10-03 at 4.58.52 PM.jpeg

Fig. 3 - One step of the UTM link management process

Findings

El propósito y la progresión de los "niveles", o la serie de pasos desde una configuración inicial particulara la cruz blanca—no estaba claro. Los usuarios no sabían si los niveles se complementaban entre sí o si aumentaban en dificultad, especialmente porque los niveles anteriores eran más difíciles que los niveles posteriores para algunos usuarios.
Algunas funciones de aprendizaje multimodal no eran intuitivas. ALLURE tenía un control deslizante de velocidad que controlaba el ritmo de las instrucciones del chatbot y un botón para "restablecer" el cubo 3D virtual a su posición inicial, pero los usuarios no entendían qué controlaba el control deslizante de velocidad o que el cubo tenía que modificarse antes de que pudiera volver a la vista de reinicio. A veces, los usuarios no notaron estas características hasta el final del estudio, o las ignoraron por completo.
La instrucción del chatbot no fue útil.Las entrevistas de seguimiento revelaron que algunos usuarios encontraron redundantes o innecesarias las instrucciones del chatbot junto con las instrucciones visuales. Los usuarios prefirieron las flechas, el resaltador y la animación del cubo 3D interactivo, y no sintieron que las instrucciones verbales afectaron su capacidad para resolver la cruz blanca.

Impacto

Los ingenieros de software realizaron los siguientes cambios en ALLURE con nuestros conocimientos:

Se cambió el nombre de los niveles a "escenarios" y se aclaró que representaban configuraciones independientes.
Se agregó una explicación del control deslizante y el botón "restablecer vista" en el tutorial
Creó cuatro versiones de la plataforma para pruebas iterativas, dos de las cuales mantuvieron el chatbot y dos de las cuales eliminaron el chatbot

Impacto

Los ingenieros de software realizaron los siguientes cambios en ALLURE con nuestros conocimientos:

Se cambió el nombre de los niveles a "escenarios" y se aclaró que representaban configuraciones independientes.
Se agregó una explicación del control deslizante y el botón "restablecer vista" en el tutorial
Creó cuatro versiones de la plataforma para pruebas iterativas, dos de las cuales mantuvieron el chatbot y dos de las cuales eliminaron el chatbot

Screenshot 2024-11-19 at 8.43.59 PM.jpeg

Next Steps

After the demand test, our options were either to move straight into an evidence test that measured progression over 6 weeks, or take 3 weeks to see if a different subject line would drive higher engagement rates.

I convinced my product manager that testing subject lines now would give us a better experience later, and we saw a 2.5% increase in engagement with another subject line.

The evidence test is currently in production. Early testing shows good but not statistically significant results yet.