Software OCR: programmi di riconoscimento del testo in sintesi

Appunti scarabocchiati o la sezione sportiva del quotidiano stampato: quando si tratta di elaborare informazioni umane analogiche, ogni computer prima o poi raggiunge i suoi limiti. È qui che entra in gioco il riconoscimento ottico …

Software OCR: programmi di riconoscimento del testo in sintesi

Texterkennung mit Lupe
  1. Rivista
  2. »
  3. Articolo
  4. »
  5. Software
  6. »
  7. Software OCR: programmi di riconoscimento del testo in sintesi

Appunti scarabocchiati o la sezione sportiva del quotidiano stampato: quando si tratta di elaborare informazioni umane analogiche, ogni computer prima o poi raggiunge i suoi limiti. È qui che entra in gioco il riconoscimento ottico dei caratteri, o OCR, che riconosce automaticamente il testo da documenti e immagini scannerizzati per poterli digitalizzare ed elaborare . In questo articolo spieghiamo come funziona il riconoscimento del testo e presentiamo una panoramica dei migliori software OCR.

  • Con l’aiuto del riconoscimento ottico dei caratteri, è possibile convertire i documenti stampati in file di testo ricercabili e modificabili.
  • I programmi OCR di solito lavorano con i dizionari e sono quindi in grado di identificare le diverse lingue.
  • Un buon software di riconoscimento del testo non deve automaticamente essere costoso. Su Internet si trovano anche molti programmi freeware in grado di ottenere risultati eccellenti.

1. cos’è il software OCR e come funziona?

Mit OCR-Software vom Schreibblock auf den Computer.
Il software OCR viene utilizzato per portare i testi dal blocco di scrittura al computer.

OCR è l’acronimo di“Optical Character Recognition” (riconoscimento ottico dei caratteri) e di solito viene chiamato semplicemente riconoscimento del testo ” in tedesco. L’OCR è una tecnologia utilizzata per digitalizzare documenti scritti a mano o stampati (come pagine scansionate o biglietti da visita). Il testo può quindi essere ricercato, modificato o salvato elettronicamente in un formato più compatto .

Affinché le informazioni deidocumenti cartacei possano essere elaborate dal computer, non è sufficiente scansionarle. In questo caso, infatti, si tratterebbe semplicemente di una copia immagine (una cosiddetta grafica raster) del documento originale. È qui che entra in gioco il software OCR, che in più passaggi assembla l’insieme di punti bianchi e neri in parole e frasi logiche. In questo modo, l’immagine diventa un file modificabile e ricercabile che si può richiamare dal disco rigido o online tramite cloud e modificare con un programma di elaborazione testi .

Buono a sapersi: Il testo completo dell’OCR è necessario anche per la classificazione dei documenti (non strutturati). A questo scopo, il software riconosce gli attributi, i dati e le singole categorie di un documento e ne determina automaticamente il tipo sulla base di questi.

2. i migliori programmi di riconoscimento del testo per il 2019 a confronto

Non molto tempo fa, i software OCR erano ancora molto costosi e complicati da usare. Nel frattempo, però, è diventato da tempo uno strumento di produttività ed esiste anche un’ampia scelta di programmi potenti per utenti privati a un prezzo adeguato. In questa sezione abbiamo raccolto per voi i migliori programmi di riconoscimento del testo , dai freeware agli strumenti professionali.

2.1 FreeOCR

FreeOCR è un programma gratuito di riconoscimento del testo per Windows basato sul motore OCR open source Tesseract. Lo strumento riconosce il testo da file PDF e TIFF e può anche aprire documenti scansionati e formati immagine comuni (ad esempio BMP, JPEG, GIF o PNG). Durante la digitalizzazione viene preso in considerazione solo il testo; la formattazione viene ignorata. I file di output vengono visualizzati in una finestra e possono essere modificati, copiati negli appunti, salvati come RTF o esportati direttamente in Microsoft Word. Oltre ai testi in tedesco, FreeOCR è in grado di riconoscere anche contenuti in inglese, spagnolo o francese.

FreeOCR Screenshot der Bentuzeroberfläche
Chiara e ben strutturata: L’interfaccia utente di FreeOCR.

Buono a sapersi: Tesseract supporta numerose lingue e sistemi di scrittura, tra cui, ad esempio, molti font Fraktur asiatici. Se un pacchetto linguistico non è ancora incluso in FreeOCR, è sufficiente installarlo dal sito web di Tesseract. Il produttore fornisce anche le istruzioni per farlo.

Lostrumento utilizza il riconoscimento dei modelli per digitalizzare il testo. È anche possibile selezionare singoli passaggi o estratti. Ciò è molto utile, ad esempio, se si desidera escludere alcune parti di una pagina.

2.2 Abbyy FineReader

Abbyy FineReader è un potente pacchetto all-in-one che consente di elaborare tutta la corrispondenza cartacea delle aziende. L’applicazione offre numerose funzioni, come strumenti di scansione e conversione e vari strumenti OCR, con cui è possibile digitalizzare e gestire i documenti senza l’uso di software aggiuntivi. Il software di riconoscimento del testo può essere integrato in tutte le applicazioni di Microsoft Office e fornisce una visione originale dei documenti riconosciuti a Word.

Abbyy FineReader OCR-Software Scan
Abbyy FineReader è un programma PDF con funzionalità OCR integrata.

Lo strumento è dotato di ADTR (“Adaptive Document Recognition Technology”), che ricostruisce la struttura e la formattazione di documenti a più pagine e li mappa nel nuovo file di testo. Secondo il produttore, questo dovrebbe rendere la digitazione e la riformattazione un ricordo del passato. FineReader supporta 189 lingue e numerosi formati come PDF, HTML, DOC/DOCX, RTF, Word XML, DBF, CSV, TXT o ODT. Può anche essere utilizzato per estrarre il testo dalle immagini. È quindi possibile modificarle con gli strumenti integrati e, ad esempio, effettuare impostazioni per il contrasto e la luminosità o rimuovere la sfocatura da movimento e il rumore ISO.

Abbyy FineReader Bearbeitungsmöglichkeiten
Il programma converte i documenti da archiviare a lungo termine in file PDF e PDF/A ricercabili.

Un’altra caratteristica pratica è la possibilità di impostare macro e attività automatiche con le quali è possibile, ad esempio, completare più rapidamente le attività ricorrenti o assegnare ai documenti posizioni di archiviazione individuali.

La versione attuale di Abbyy FineReader è disponibile in tre versioni

  • Standard
  • Aziendale
  • Enterprise (licenze a volume)

sono offerti. Queste si differenziano principalmente per i processi di conversione e le opzioni di automazione.

2.3 OmniPage Ultimate

Anche lo scanner di testo OmniPage Ultimate, con le sue funzioni di conversione e la connessione al cloud, si rivolge principalmente alle aziende. L’applicazione ha una precisione OCR molto elevata e riconosce l’intero layout, indipendentemente dal fatto che contenga tabelle, colonne, grafica o numerazione. Lo strumento supporta tutte le applicazioni Office più comuni e più di 120 lingue diverse. Per la digitalizzazione è possibile utilizzare qualsiasi scanner disponibile in commercio (con driver TWAIN, WIA o ISIS) o in alternativa fotografare i documenti.

https://www.youtube.com/watch?v=7N-6n_ffGco

OmniPage Ultimate dispone anche di numerose altre funzioni, come l’evidenziazione di singoli passaggi mediante la selezione di parole chiave o l’oscuramento automatico di alcune parti del testo (ad esempio i dati personali). Le impostazioni devono essere effettuate una sola volta e lo strumento ricorda le impostazioni effettuate.

OmniPage Ultimate è in grado di elaborare file immagine nei formati TIFF, PCX, DCX, BMP, JPG, GIF, PNG e MAX e di decodificare anche i file PDF.

Particolarmente pratico: con l’aiuto della tecnologia vocale integrata, è possibile far leggere i documenti ad alta voce su dispositivi compatibili con MP3.

2.4 ReadIris

ReadIris è un software OCR che si distingue soprattutto per l’interfaccia utente semplificata e la facilità d’uso. L’attenzione si concentra sulle quattro funzioni principali

  • Importare
  • Organizzare
  • Convertire
  • Modificare

I campi corrispondenti indirizzano alla rispettiva funzione; bastano pochi clic per eseguire i singoli passaggi.

Die OCR-Software ReadIris unterstützt viele Sprachen
ReadIris supporta più di 130 lingue, tra cui il russo e l’arabo.

ReadIris supporta oltre 130 lingue (tra cui il russo, il cinese e l’arabo) e converte immagini, file PDF, documenti MS Office e file scansionati in PDF, XLSX, DOCX, ODT, ePub, RTF, HTML, TXT, TIFF, JPEG, PNG o audio su richiesta. Il layout originale del file viene mantenuto durante la conversione.

Il produttore offre il software in tre versioni: PDF, Pro e Corporate, di cui solo quest’ultima dispone di funzioni aggiuntive come la protezione e la firma dei PDF o l’elaborazione in batch dei documenti. Tutte e tre le versioni, tuttavia, sono dotate di pratiche funzioni di editing, come la riesposizione o la rimozione delle macchie, con le quali è possibile migliorare notevolmente la qualità dei documenti scansionati.

Screenshot von ReadIris Corporate
In ReadIris Corporate è anche possibile aggiungere firme digitali ai documenti.

ReadIris dispone anche di un proprio modulo di scansione ed è quindi compatibile con tutti gli scanner TWAIN (ad esempio Brother, Canon o HP) anche senza software esterno. Il software OCR è disponibile sia in versione Windows che Mac.

Suggerimento: se lavorate con Google Docs, non avete bisogno di un software OCR aggiuntivo perché la soluzione cloud office include anche un convertitore gratuito. Per utilizzare il riconoscimento del testo online, è sufficiente caricare il documento desiderato su Google Drive e fare clic con il tasto destro del mouse sul nome del file, quindi selezionare “Apri con -> Google Docs” nel menu contestuale. In questo modo si crea un documento Docs (nella stessa directory) e vi si applica automaticamente la funzione OCR.

Articoli correlati