När vi tittar på bilder ser vi först till att snabbt försöka fånga helheten innan vi går in på detaljerna. Den helhetsbild vi kan ta in visuellt är mycket större än motsvarande taktila men ändå ser vi aldrig hela bilden samtidigt, ögat ser en del i taget. Även taktilt känner man av en del i taget men den taktila avläsningen måste vara mer systematisk än den visuella. Ögat kan tillåtas flacka men inte fingertopparna.
Med snabba ögonrörelser (sackader) och stopp (fixeringar) läser vi bilden. Ögonen följer konturen på figurerna. Att det är så det går till kan man visa med hjälp av en ögonrörelsekamera som återger ögonens aktiviteter, både sackaderna och fixeringarna. Det vi ser skickas till hjärnans syncentrum och sedan vidare för analys. Det är då vi börjar tolka bilden. Oftast finns det flera rimliga tolkningar av en bild och vad vi kommer fram till beror på vår tidigare kunskap och erfarenhet. Det vi förväntar oss att se kan också lätt bli det vi tar till oss av bilden.
Det är de avbildade föremålens konturer som gör att vi kan skilja dem från varandra. I bilder är det vanligast att konturer skapas av linjer. Också när vi urskiljer något i vår omgivning är det konturerna vi söker efter. I mörker syns de inte och då har vi svårt att känna igen oss.