Scanner-ul poate converti orice imagine de pe hârtie - sau de pe o altă suprafaţă plană - într-o formă electronică acceptată de calculator . Punct cu punct, scannerul poate reproduce fotografii, desene formate din linii şi chiar colaje cu detalii mai fine decât pot fi reproduse de imprimanta cu laser. Mai mult, dacă este instalat pe calculator un program de recunoaştere optică a caracterelor (OCR), textele citite de scanner ca imagini pot fi convertite în fişiere pentru un procesor texte, o bază de date sau un sistem de editare a publicaţiilor.
Ideea care stă la baza scannerelor este elementară. Acesta detectează diferenţele de strălucire a unei imagini sau a unui obiect, folosind o matrice de senzori. În majoritatea cazurilor, scannerul foloseşte o matrice liniară de asemenea senzori, de obicei dispozitive de cuplaj de sarcină (Charge-Coupled Devices sau CCD, dispozitive care transformă un semnal luminos în semnal electric), de ordinul sutelor pe fiecare inch, întinse pe o bandă îngustă pe toată lăţimea celei mai mari imagini care poate fi scanată.
Acest rând de senzori înregistrează la un moment dat o singură linie îngustă a imaginii. Circuitele din interiorul scannerului citesc unul câte unul fiecare senzor şi creează un şir de date seriale care reprezintă strălucirea fiecărui punct de pe linia de scanare. După ce scannerul a colectat şi a aranjat datele pentru fiecare punct al liniei, senzorii trec la următoarea linie care trebuie citită.
Aproape toate scannerele impun deplasarea mecanică a senzorilor peste imagine, deşi câteva scannere cu rezoluţie mai mică folosesc tehnologii video. Pentru citirea imaginii într-un scanner mecanic, sunt folosite două strategii. Prima dintre acestea cere ca senzorii să se deplaseze peste imaginea originală; a doua deplasează imaginea originală prin faţa unor senzori imobili. În cazul unui scanner video, nu se mişcă nimic, cu excepţia unui fascicol de electroni.
Scannerele cu tambur sau (drum scanners) exemplifică ultima dintre tehnologiile amintite. Aceste scannere funcţionează invers faţă de o imprimantă.
Două modele de scannere folosesc o strategie opusă, deplasând senzorii în locul imaginii.
Scannerul cu pat (flatbed scanner,) foloseşte un mecanism automat pentru deplasarea senzorilor. Numele lui provine de la suprafaţa plată de sticlă pe care se aşează materialul ce trebuie scanat. Senzorii de scanare sunt montaţi pe o bară care se deplasează pe sub sticlă, parcurgând toată suprafaţa imaginii. Suprafaţa de sticlă permite senzorilor să "citească" imaginea.
Scannerele manuale (hand scanner) folosesc forţa umană pentru deplasarea senzorilor peste imagine. Rândul de senzori citeşte imaginea printr-o fereastră de plastic din partea de jos a scannerului.
Scannerele video reprezintă echivalentul electronic al unui copiator fotografic. Scannerul video foloseşte o cameră video obişnuită pentru capturarea imaginii. Majoritatea scannerelor video au camera montată pe un stativ, sub care se află un suport pe care se plasează imaginea de scanat. Suportul poate fi iluminat din spate, pentru a permite scanarea negativelor şi filmelor transparente, sau poate fi o suprafaţă plată pentru foi de hârtie sau obiecte tridimensionale. Cel mai ieftin model este scannerul manual, deoarece nu conţine mecanisme precise de scanare.
Scannerele diferă prin rezoluţia cu care citesc imaginile. Toate scanerele au o limită maximă mecanică a rezoluţiei. Aceasta este dată de pasul cel mai mic cu care pot fi deplasaţi senzorii. Un scanner cu posibilităţi minime începe de la 300 de pixeli pe inch şi avansează în trepte uniforme, cum ar fi 600, 1200, 2400, 4800 de pixeli pe inch. Scannerele speciale pentru diapozitive ajung la rezoluţii de ordinul a 10000 de pixeli pe inch. Deoarece reprezintă limita maximă pe care o pot atinge componentele hardware ale scannerului, această valoare este numită deseori rezoluţie hardware a scannerului.
Recunoaşterea optică a caracterelor. Textul citit de un scanner va fi stocat sub forma unor imagini de biţi, fără utilitate pentru procesoarele de texte, care folosesc codul ASCII. Se poate transforma textul din forma grafică în coduri ASCII prin două metode: prin dactilografierea fiecărui caracter sau prin recunoaşterea optică a caracterelor (Optical Character Recognition -OCR). Primele programe OCR foloseau o tehnică numită corespondenţă matricială (matrix matching). Calculatorul compară mici porţiuni din imaginea de biţi cu modele stocate într-o bibliotecă, în căutarea caracterului care semăna cel mai mult cu modelul de biţi scanat. De exemplu, litera "A" era recunoscută ca un turn cu înălţimea de 40 de biţi şi cu o bară transversală de 20 de biţi.