Hacer que una interfaz de aprendizaje de IA sea más intuitiva

September 2022

Este estudio se realizó en el laboratorio HCI/UX en una universidad R1, que se encuentra dentro de la Facultad de Ingeniería y Computación. El director del laboratorio es profesor asociado, y el equipo de investigación de usuarios estaba formado por estudiantes de pregrado y M.S. estudiantes del departamento de TI.

Fondo

ALLURE es una interfaz de IA que ayuda a los usuarios a aprender cómo resolver varios problemas en un cubo de Rubik usando un chatbot y funciones de diseño interactivo. Los desarrolladores principales querían comentarios iniciales sobre la usabilidad de su prototipo para resolver la cruz blanca antes de expandir su plataforma.

Captura de pantalla de la versión prototipo de la interfaz. El cubo 3D está en rotación media con flecha y resaltador. Chatbot ofrece instrucciones escritas para resolver el Nivel 3.

Resumen de resultados

El propósito y la progresión de los "niveles" no están claros.
El control deslizante de velocidad y el botón "Restablecer vista" no son intuitivos.
El chatbot no se suma a la experiencia de los usuarios ni contribuye a su capacidad para resolver la cruz blanca.

Métodos

Evaluación heurística
Cribadores
Pruebas de usabilidad
Entrevistas a usuarios

Herramientas

NVivo
Nutria.ai
Sobresalir

Restricciones

El tiempo de respuesta de este proyecto fue más corto de lo esperado (1 semana) porque los desarrolladores necesitaron más tiempo para finalizar el prototipo en la parte delantera. La facultad de investigación también necesitaba resultados y recomendaciones rápidamente para cumplir con la fecha límite de publicación.
Todos los moderadores eran estudiantes de tiempo completo, por lo que ningún miembro del equipo podía estar presente en los 10 estudios de usabilidad. Sin embargo, los estudios se grabaron en audio y se transcribieron y las pantallas de los usuarios se grabaron durante la prueba de usabilidad para que cada miembro del equipo pudiera ver.

Proceso

Se reunió con las partes interesadas(facultad de investigación) para saber qué conocimientos querían en este punto del proceso de desarrollo.

Realicé una evaluación heurística y descubrió que el botón "Resolver" en el chatbot no funcionaba correctamente.

Participantes solicitados a través de listservs universitarios y plataformas sociales, ya que los usuarios objetivo del prototipo inicial eran estudiantes mayores de 18 años.

evaluadores administrados para recopilar datos demográficos de los usuarios. Luego, seleccionamos a 10 usuarios en diferentes campos y años principales, el nivel de habilidad percibido con el cubo de Rubik y las identidades de género.

Lista de tareas revisada y preguntas de la entrevista con las partes interesadas para asegurarnos de que el diseño de nuestro estudio se alinearía con los comentarios que querían.

Realización de pruebas de usabilidad moderadas y presenciales. Se pidió a los usuarios que resolvieran una cruz blanca y verbalizaran sus pensamientos mientras se movían por la interfaz. La prueba de usabilidad concluyó una vez que el usuario resolvió con éxito la cruz blanca o declaró que había terminado.

Entrevistas de seguimiento realizadaspara que los usuarios pudieran describir mejor sus sentimientos acerca de la eficacia y eficiencia de la interfaz y su satisfacción con la experiencia.

Discutimos nuestras observaciones iniciales, incluidos los puntos débiles más apremiantes que surgieron durante las pruebas de usabilidad y las entrevistas de seguimiento.

Transcripción de las entrevistas y codificación de los datos. Se realizó un análisis temático para identificar patrones en su protocolo de pensamiento en voz alta y su experiencia resolviendo la cruz blanca usando ALLURE. Los datos fueron codificados por separado por mí y otro investigador del equipo y luego fusionamos nuestros códigos para garantizar una mayor confiabilidad entre evaluadores.

A white board with red and black writing that lists common pain points on the interface and a few suggestions.

Una pizarra de las reuniones de nuestro equipo con puntos débiles y puntos de vista comunes.

Hallazgos principales

El propósito y la progresión de los "niveles", o la serie de pasos desde una configuración inicial particulara la cruz blanca—no estaba claro. Los usuarios no sabían si los niveles se complementaban entre sí o si aumentaban en dificultad, especialmente porque los niveles anteriores eran más difíciles que los niveles posteriores para algunos usuarios.
Algunas funciones de aprendizaje multimodal no eran intuitivas. ALLURE tenía un control deslizante de velocidad que controlaba el ritmo de las instrucciones del chatbot y un botón para "restablecer" el cubo 3D virtual a su posición inicial, pero los usuarios no entendían qué controlaba el control deslizante de velocidad o que el cubo tenía que modificarse antes de que pudiera volver a la vista de reinicio. A veces, los usuarios no notaron estas características hasta el final del estudio, o las ignoraron por completo.
La instrucción del chatbot no fue útil.Las entrevistas de seguimiento revelaron que algunos usuarios encontraron redundantes o innecesarias las instrucciones del chatbot junto con las instrucciones visuales. Los usuarios prefirieron las flechas, el resaltador y la animación del cubo 3D interactivo, y no sintieron que las instrucciones verbales afectaron su capacidad para resolver la cruz blanca.

A screen capture of the speed slider set to x1.

A screen capture of the "Reset View" button on the interface.

Primeros planos del control deslizante de velocidad y el botón Restablecer vista

3. People have different learning styles and preferences for how they receive information. Most users in this study found the chatbot instruction redundant or unnecessary alongside the multi-modal instruction. They preferred the arrows, highlighter, and the animation of the 3D cube, and did not feel the written instructions affected their ability to solve the white cross. Future users may prefer the written instructions, either instead of or alongside the other features. However, some users might feel more engaged if they had the option to minimize the chatbot and move through the interface using the multi-modal features alone.

Impacto

Los ingenieros de software realizaron los siguientes cambios en ALLURE con nuestros conocimientos:

Se cambió el nombre de los niveles a "escenarios" y se aclaró que representaban configuraciones independientes.
Se agregó una explicación del control deslizante y el botón "restablecer vista" en el tutorial
Creó cuatro versiones de la plataforma para pruebas iterativas, dos de las cuales mantuvieron el chatbot y dos de las cuales eliminaron el chatbot