Hacer que una interfaz de aprendizaje de IA sea más intuitiva
December 2024
Este estudio se realizó en el laboratorio HCI/UX en una universidad R1, que se encuentra dentro de la Facultad de IngenierÃa y Computación. El director del laboratorio es profesor asociado, y el equipo de investigación de usuarios estaba formado por estudiantes de pregrado y M.S. estudiantes del departamento de TI.
Fondo
ALLURE es una interfaz de IA que ayuda a los usuarios a aprender cómo resolver varios problemas en un cubo de Rubik usando un chatbot y funciones de diseño interactivo. Los desarrolladores principales querÃan comentarios iniciales sobre la usabilidad de su prototipo para resolver la cruz blanca antes de expandir su plataforma.

Resumen de resultados
Captura de pantalla de la versión prototipo de la interfaz. El cubo 3D está en rotación media con flecha y resaltador. Chatbot ofrece instrucciones escritas para resolver el Nivel 3.
-
El propósito y la progresión de los "niveles" no están claros.
-
El control deslizante de velocidad y el botón "Restablecer vista" no son intuitivos.
-
El chatbot no se suma a la experiencia de los usuarios ni contribuye a su capacidad para resolver la cruz blanca.
Métodos
-
Evaluación heurÃstica
-
Cribadores
-
Pruebas de usabilidad
-
Entrevistas a usuarios
Herramientas
-
NVivo
-
Sobresalir
Restricciones
-
El tiempo de respuesta de este proyecto fue más corto de lo esperado (1 semana) porque los desarrolladores necesitaron más tiempo para finalizar el prototipo en la parte delantera. La facultad de investigación también necesitaba resultados y recomendaciones rápidamente para cumplir con la fecha lÃmite de publicación.
-
Todos los moderadores eran estudiantes de tiempo completo, por lo que ningún miembro del equipo podÃa estar presente en los 10 estudios de usabilidad. Sin embargo, los estudios se grabaron en audio y se transcribieron y las pantallas de los usuarios se grabaron durante la prueba de usabilidad para que cada miembro del equipo pudiera ver.
Proceso
Se reunió con las partes interesadas(facultad de investigación) para saber qué conocimientos querÃan en este punto del proceso de desarrollo.
​
Realicé una evaluación heurÃstica y descubrió que el botón "Resolver" en el chatbot no funcionaba correctamente.
​
Participantes solicitados a través de listservs universitarios y plataformas sociales, ya que los usuarios objetivo del prototipo inicial eran estudiantes mayores de 18 años.
​
evaluadores administrados para recopilar datos demográficos de los usuarios. Luego, seleccionamos a 10 usuarios en diferentes campos y años principales, el nivel de habilidad percibido con el cubo de Rubik y las identidades de género.
​
Lista de tareas revisada y preguntas de la entrevista con las partes interesadas para asegurarnos de que el diseño de nuestro estudio se alinearÃa con los comentarios que querÃan.
​
Realización de pruebas de usabilidad moderadas y presenciales. Se pidió a los usuarios que resolvieran una cruz blanca y verbalizaran sus pensamientos mientras se movÃan por la interfaz. La prueba de usabilidad concluyó una vez que el usuario resolvió con éxito la cruz blanca o declaró que habÃa terminado.
​


Fig. 2- Experiment Design Canvas
Process
-
El propósito y la progresión de los "niveles", o la serie de pasos desde una configuración inicial particulara la cruz blanca—no estaba claro. Los usuarios no sabÃan si los niveles se complementaban entre sà o si aumentaban en dificultad, especialmente porque los niveles anteriores eran más difÃciles que los niveles posteriores para algunos usuarios.
-
Algunas funciones de aprendizaje multimodal no eran intuitivas. ALLURE tenÃa un control deslizante de velocidad que controlaba el ritmo de las instrucciones del chatbot y un botón para "restablecer" el cubo 3D virtual a su posición inicial, pero los usuarios no entendÃan qué controlaba el control deslizante de velocidad o que el cubo tenÃa que modificarse antes de que pudiera volver a la vista de reinicio. A veces, los usuarios no notaron estas caracterÃsticas hasta el final del estudio, o las ignoraron por completo.
-
La instrucción del chatbot no fue útil.Las entrevistas de seguimiento revelaron que algunos usuarios encontraron redundantes o innecesarias las instrucciones del chatbot junto con las instrucciones visuales. Los usuarios prefirieron las flechas, el resaltador y la animación del cubo 3D interactivo, y no sintieron que las instrucciones verbales afectaron su capacidad para resolver la cruz blanca.
-
El propósito y la progresión de los "niveles", o la serie de pasos desde una configuración inicial particulara la cruz blanca—no estaba claro. Los usuarios no sabÃan si los niveles se complementaban entre sà o si aumentaban en dificultad, especialmente porque los niveles anteriores eran más difÃciles que los niveles posteriores para algunos usuarios.
-
Algunas funciones de aprendizaje multimodal no eran intuitivas. ALLURE tenÃa un control deslizante de velocidad que controlaba el ritmo de las instrucciones del chatbot y un botón para "restablecer" el cubo 3D virtual a su posición inicial, pero los usuarios no entendÃan qué controlaba el control deslizante de velocidad o que el cubo tenÃa que modificarse antes de que pudiera volver a la vista de reinicio. A veces, los usuarios no notaron estas caracterÃsticas hasta el final del estudio, o las ignoraron por completo.
-
La instrucción del chatbot no fue útil.Las entrevistas de seguimiento revelaron que algunos usuarios encontraron redundantes o innecesarias las instrucciones del chatbot junto con las instrucciones visuales. Los usuarios prefirieron las flechas, el resaltador y la animación del cubo 3D interactivo, y no sintieron que las instrucciones verbales afectaron su capacidad para resolver la cruz blanca.

Fig. 3 - One step of the UTM link management process
Findings
-
El propósito y la progresión de los "niveles", o la serie de pasos desde una configuración inicial particulara la cruz blanca—no estaba claro. Los usuarios no sabÃan si los niveles se complementaban entre sà o si aumentaban en dificultad, especialmente porque los niveles anteriores eran más difÃciles que los niveles posteriores para algunos usuarios.
-
Algunas funciones de aprendizaje multimodal no eran intuitivas. ALLURE tenÃa un control deslizante de velocidad que controlaba el ritmo de las instrucciones del chatbot y un botón para "restablecer" el cubo 3D virtual a su posición inicial, pero los usuarios no entendÃan qué controlaba el control deslizante de velocidad o que el cubo tenÃa que modificarse antes de que pudiera volver a la vista de reinicio. A veces, los usuarios no notaron estas caracterÃsticas hasta el final del estudio, o las ignoraron por completo.
-
La instrucción del chatbot no fue útil.Las entrevistas de seguimiento revelaron que algunos usuarios encontraron redundantes o innecesarias las instrucciones del chatbot junto con las instrucciones visuales. Los usuarios prefirieron las flechas, el resaltador y la animación del cubo 3D interactivo, y no sintieron que las instrucciones verbales afectaron su capacidad para resolver la cruz blanca.
Impacto
Los ingenieros de software realizaron los siguientes cambios en ALLURE con nuestros conocimientos:
-
Se cambió el nombre de los niveles a "escenarios" y se aclaró que representaban configuraciones independientes.
-
Se agregó una explicación del control deslizante y el botón "restablecer vista" en el tutorial
-
Creó cuatro versiones de la plataforma para pruebas iterativas, dos de las cuales mantuvieron el chatbot y dos de las cuales eliminaron el chatbot
Impacto
Los ingenieros de software realizaron los siguientes cambios en ALLURE con nuestros conocimientos:
-
Se cambió el nombre de los niveles a "escenarios" y se aclaró que representaban configuraciones independientes.
-
Se agregó una explicación del control deslizante y el botón "restablecer vista" en el tutorial
-
Creó cuatro versiones de la plataforma para pruebas iterativas, dos de las cuales mantuvieron el chatbot y dos de las cuales eliminaron el chatbot

Next Steps
After the demand test, our options were either to move straight into an evidence test that measured progression over 6 weeks, or take 3 weeks to see if a different subject line would drive higher engagement rates.
​
I convinced my product manager that testing subject lines now would give us a better experience later, and we saw a 2.5% increase in engagement with another subject line.
​
The evidence test is currently in production. Early testing shows good but not statistically significant results yet.