Quando ci approcciamo all’utilizzo di un eye-tracker per scopi di ricerca di base, o di ricerca applicata (ad esempio la UX research) necessariamente dobbiamo confrontarci con alcuni dati e parametri che questi strumenti forniscono. In linea generale molti eye tracker ad oggi in commercio sono dotati di software di analisi dei dati per rendere più semplice il carico di lavoro per il ricercatore. Ovviamente, per analisi più affrondite e statisticamente fondate, sono necessari altri tool  e un approccio all’inferenza statistica. In questo articolo parliamo delle metriche più utilizzate e cosa rappresentano quando svolgiamo un esperimento di eyetracking.

Fissazioni e gaze point

I gaze point sono l’unità minima di dato estraibile con un eye tracker, letteralmente indicano dove è collocato lo sguardo (cioè dove l’utente sta guardando). In base alle diverse frequenze di aggiornamento possiamo avere un tot numero di gaze point al secondo. Un eyetracker a 60Hz elaborerà 60 gaze point al secondo, uno a 120Hz ne elaborerà 120 e così via.

Le fissazioni sono invece gruppi di gaze point che si presentano consecutivamente per un periodo delimitato di tempo (in genere il range varia dai 100 ai 300 millisecondi). In genere una fissazione indica che l’attenzione del soggetto si è focalizzata sul quel particolare punto dello schermo (generalmente occupato da un oggetto). Sono quindi utilizzate come un parametro per valutare l’attenzione.

Saccadi

I movimenti degli occhi tra una fissazione e l’altra sono detti saccadi e sono rapidi movimenti degli occhi che fanno in modo che un oggetto, prima periferico nel campo visivo, cada nella fovea ossia nel punto della retina dove abbiamo l’acuità visiva maggiore.

I movimenti saccadici sono spesso incontrollati e variano in base al tipo di compito visivo che stiamo svolgendo.

Fissazioni, Saccadi e lettura

Ad esempio durante la lettura i nostri occhi non si muovono in modo fluido. Piuttosto fissiamo lo sguardo ogni 7-9 caratteri mediamente, elaborando le informazioni che ci sono in quel punto di fissazione per poi passare alla fissazione successiva. Il numero di parole o caratteri che riusciamo a elaborare con una sola fissazione è detta visual span.

Un lettore esperto ha un visual span maggiore, quindi riesce a leggere un testo con meno fissazioni (e meno tempo) rispetto ad un lettore non esperto.

Qui sotto un video esplicativo realizzato con un eye tracker Tobii pro

Fissazioni, Saccadi e inseguimento

Se invece il nostro compito visivo è quello di inseguire un oggetto in movimento, ad esempio un auto che si sta avvicinando a noi, in questo caso non si evidenziano movimenti saccadici. Il punto di fissazione segue l’oggetto per tutto il percorso. L’unica possibilità di osservare movimenti saccadici è quando l’oggetto in movimento si sposta in modo molto veloce e difficilmente prevedibile.

Il processo visivo è un processo predittivo, il cervello calcola dove sarà un oggetto nelle frazioni di secondo successive e coordina il movimento oculare in modo da non perdere il punto di fissazione. Se però il comportamento dell’oggetto è imprevedibile (troppo rapido e non lineare) allora non riuscirà a seguire la fissazione e osserveremo movimenti saccadici.

Interpretazione delle fissazioni

Il numero di fissazioni (o di gaze point) rivolte verso un oggetto è una misura di quanto questo oggetto attiri l’attenzione dell’utente. Non definisce “il perchè” questo oggetto attiri maggiormente l’attenzione (aspetto non sempre semplice da definire). Quanto piuttosto che cosa attiri l’attenzione.

Heatmaps o mappe di calore

Le mappe di calore o heatmaps sono una rappresentazione di come si distribuiscono i gaze point. In genere, una maggiore densità di gaze point è segnalata da un colore rosso, un valore intermedio dal colore giallo e un valore basso dal colore verde. Le aree fuori dalla heatmap non hanno in genere fissazioni (o il loro numero è statisticamente irrilevante).

Le heatmaps sono uno strumento decisamente comodo per visualizzare quali elementi della scena visiva attirano l’attenzione dell’utente.

Di Tschneidr – Opera propria, CC BY-SA 4.0, https://commons.wikimedia.org/w/index.php?curid=60655049

AOI o aree di interesse

Le areee di interesse, che solitamente troviamo con il loro acronimo AOI, consentono di selezionare una regione specifica del campo visivo. In genere possono essere utilizzati per identificare una determinata immagine, un personaggio in un video, o qualsiasi oggetto sia significativo per la domanda di ricerca.

Le AOI non danno nessun valore di per sè, ma consentono di estrarre valori tramite esse. Ad esempio, se voi avete un immagine di un uomo e una donna e volete calcolare statisticamente le differenze tra le fissazioni verso l’uomo e verso la donna potete selezionare tramite le AOI l’area dell’uomo e quella della donna.

Successivamente potete contare (o meglio voi non contate nulla, il programma conta per voi) i gazepoint su ciascuna delle due AOI. Una volta ottenuti i vostri numeri potete utilizzare la statistica che preferite (es. T-Test o ANOVA) per valutare se c’è una differenza statisticamente significativa.

Tempo alla prima fissazione (TTFF)

Il tempo alla prima fissazione, in inglese Time to First Fixation (TTFF) indica quanto tempo passa da quando viene presentato uno stimolo all’utente a quando lo sguardo ricade all’interno della AOI. Come nel caso precedente la definizione della AOI varia a seconda della domanda di ricerca e dagli obiettivi dell’esperimento.

In linea generale comunque il tempo alla prima fissazione è un parametro molto utile, sopratutto se fatto su un campione ampio di cui possiamo calcolare media e deviazione standard, per capire se l’oggetto di nostro interesse viene percepito, e quanto tempo occorre per percepirlo. Aiuta inoltre a capire la gerarchia con cui una determinata immagine viene elaborata.

Tempo trascorso o tempo di permanenza

Se il tempo alla prima fissazione determina quanto tempo impiega l’utente a guardare per la prima volta una AOI, il tempo trascorso, detto anche tempo di permanenza (o Dwell Time) indica la durata complessiva delle fissazioni di una determinata area dello schermo.

Generalmente un tempo di permanenza alto è indice di interesse da parte dell’utente. Mentre un tempo di permanenza minore indica che ci sono altri elementi nella scena che attirano l’attenzione dell’utente.

Dobbiamo però stare attenti alle interpretazioni. Un conto è descrivere il comportamento visivo dell’utente, altro è inferire il suo stato emotivo (motivato, non motivato, stanco, confuso etc.). Il solo utilizzo dell’eye tracker non consente di dire molto sullo stato emotivo del soggetto. Per poter fare inferenze sullo stato motivazionale andrebbero usati anche altri strumenti (es. EEG, conduttanza cutanea, HRV, analisi dell’espressione del volto etc.).

Sequenze di fissazione

Uno strumento utilissimo degli eye tracker è quello che consente di generare una rappresentazione grafica del pattern di fissazione dell’utente. Le fissazioni vengono infatti rappresentate come cerchi sullo stimolo visivo. Ciascun cerchio ha un raggio che è proporzionale al tempo di permanenza (cerchi più grandi significano tempi di permanenza più lunghi).

Inoltre ogni cerchio è contrassegnato da un numero progressivo, per cui è possibile ricostruire non solo i tempi di permanenza, ma le sequenze temporali delle fissazioni.

Gaze_plot_eye_tracking_on_Wikipedia_with_3_participants

Di Tschneidr – Opera propria, CC BY 4.0, https://commons.wikimedia.org/w/index.php?curid=60654934

Di particolare rilevanza è l’ultima fissazione, che in genere è predittiva di cosa l’utente farà (es. cliccare un bottone). L’elaborazione di pattern specifici è invece un’attività complessa, che richiede strumenti e tecnologie di machine learning per riconoscere pattern, come per esempio GPT-3.

Numero di rivisitazioni

Quando un utente ha osservato una AOI, ha distolto l’attenzione, e poi ha riportato nuovamente l’attenzione sull’AOI allora parliamo di rivisitazione. Il numero di rivisitazione è quindi il numero di volte in cui un utente torna ad osservare una particolare area della scena visiva.

Un utente può tornare in una determinata AOI per diversi motivi, perchè è attratto da qualcosa, perchè è confuso o anche perchè è frustrato. Non si può quindi sapere cosa l’utente sta vivendo. Ma sicuramente possiamo inferire che quell’area è saliente e merita di essere indagata.

Durata della prima fissazione

Come ormai sarà semplice intuire, la durata della prima fissazione misura quanto tempo passa il soggetto a osservare il primo oggetto nella scena. In genere questa misura si accoppia con il tempo alla prima fissazione (TTFF).

Se abbiamo un TTFF basso e una durata della prima fissazione molto alta allora l’oggetto che cattura l’attenzione è particolarmente saliente.

Durata media della fissazione

La durata media della fissazione indica qual è il tempo medio di tutte le fissazioni e viene utilizzata come baseline per valutare tutte le singole fissazioni. Possiamo ad esempio calcolare la media delle fissazioni e poi selezionare solamente quelle fissazione che hanno una durata significativamente più elevata (es 2 deviazioni standard) e guardare quindi quali oggetti del campo visivo attirano maggiormente l’attenzione.

La durata media della fissazione può essere calcolata sul singolo soggetto o sul gruppo ed è un prezioso strumento che consente di valutare in termini statistici singole fissazioni.

Note

Coyne, J., & Sibley, C. (2016). Investigating the use of two low cost Eye tracking systems for detecting pupillary response to changes in mental workload. Proceedings of the Human Factors and Ergonomics Society, 37–41. https://doi.org/10.1177/1541931213601009

Essig, K., Dornbusch, D., Prinzhorn, D., Ritter, H., Maycock, J., & Schack, T. (2012). Automatic analysis of 3D gaze coordinates on scene objects using data from eye-tracking and motion-capture systems. Eye Tracking Research and Applications Symposium (ETRA), 37–44. https://doi.org/10.1145/2168556.2168561

Funke, G., Greenlee, E., Carter, M., Dukes, A., Brown, R., & Menke, L. (2016). Which Eye Tracker Is Right for Your Research? Performance Evaluation of Several Cost Variant Eye Trackers: Https://Doi.Org/10.1177/1541931213601289, 1239–1243. https://doi.org/10.1177/1541931213601289

Holmqvist, K., Nyström, M., & Mulvey, F. (2012). Eye tracker data quality: What it is and how to measure it. Eye Tracking Research and Applications Symposium (ETRA), 45–52. https://doi.org/10.1145/2168556.2168563

iMotions. (2020). 10 Most Used Eye Tracking Metrics and Terms. Retrieved July 15, 2022, from iMotions Blog website: https://web.archive.org/web/20220716193635/https://imotions.com/blog/10-terms-metrics-eye-tracking/https://imotions.com/blog/10-terms-metrics-eye-tracking/

Janthanasub, V., & Meesad, P. (2015). Evaluation of a Low-cost Eye Tracking System for Computer Input. KMUTNB International Journal of Applied Science and Technology, 1–12. https://doi.org/10.14416/J.IJAST.2015.07.001

Salvucci, D. D., & Goldberg, J. H. (2000). Identifying fixations and saccades in eye-tracking protocols. Proceedings of the Eye Tracking Research and Applications Symposium 2000, 71–78. https://doi.org/10.1145/355017.355028

Shic, F., Scassellati, B., & Chawarska, K. (2008). The incomplete fixation measure. Eye Tracking Research and Applications Symposium (ETRA), 111–114. https://doi.org/10.1145/1344471.1344500