Come funziona un motore OCR?

Pubblicato: 2022-08-06

L'estrazione e il riutilizzo dei dati da documenti scansionati, immagini della fotocamera e PDF di sole immagini può essere complicato.

Tuttavia, un motore OCR basato su ML tecnologicamente avanzato può eseguire l'attività in modo efficiente.

Questo articolo discuterà come funziona un motore OCR e perché l'SDK OCR potrebbe essere la soluzione giusta per le tue esigenze.

= Nascondi sommario
1 Che cos'è il riconoscimento ottico dei caratteri (OCR)?
1.1 Qual è l'importanza di un motore OCR?
2 Come funziona un motore OCR?
2.1 Acquisizione di immagini
2.2 Preelaborazione dell'immagine
2.3 Riconoscimento del testo
2.4 Corrispondenza del modello
2.5 Estrazione di funzionalità
2.6 Postelaborazione
3 Quali sono i casi d'uso tipici dell'OCR?
4 Quali sono i principali modi in cui i motori OCR aiutano le aziende oggi?
5 Come puoi integrare un SDK OCR?

Che cos'è il riconoscimento ottico dei caratteri (OCR)?

OCR – Optical Character Recognition – converte un'immagine di testo in un formato di testo leggibile dalla macchina abilitato all'intelligenza artificiale.

L'OCR offre enormi vantaggi rispetto alle scansioni semplici perché non è possibile modificare, cercare o contare le parole nel file immagine utilizzando un editor di testo.

Tuttavia, l'OCR può convertire l'immagine in un documento di testo, memorizzandone il contenuto come dati di testo.

Qual è l'importanza di un motore OCR?

Oggi, la maggior parte dei flussi di lavoro aziendali prevede la ricezione di informazioni dai supporti di stampa. Fatture, moduli cartacei, documenti legali scansionati e contratti stampati fanno parte dei processi aziendali.

Ci vuole molto tempo e spazio per archiviare e gestire questi grandi volumi di scartoffie.

In questo caso, l'OCR offre vantaggi nella gestione dei documenti senza carta rispetto all'intervento manuale, che è noioso e lento.

La migliore tecnologia OCR basata sull'intelligenza artificiale risolve il problema convertendo le immagini di testo in dati di testo che possono essere analizzati da altri software aziendali.

I dati elaborati vengono quindi incorporati per condurre analisi, semplificare le operazioni e automatizzare i processi, migliorando in definitiva la produttività.

Come funziona un motore OCR?

Acquisizione dell'immagine

L'acquisizione di immagini è il primo passaggio in cui uno scanner legge i documenti e li converte in dati binari. Classifica le aree chiare come sfondo e le aree scure come testo per analizzare l'immagine scansionata.

Preelaborazione delle immagini

Il processo di acquisizione viene fornito con sporco ed errori. Quindi, il motore OCR pulisce prima l'immagine e scarta gli errori prima della lettura.

Queste tecniche di pulizia:

  • Raddrizzamento o inclinazione : risolvi i problemi di allineamento durante la scansione.
  • Smacchiatura : rimuove le macchie dell'immagine digitale che smussano i bordi delle immagini di testo.
  • Le caselle e le linee vengono pulite nell'immagine.
  • Riconoscimento dello script per la tecnologia OCR multilingua.

Riconoscimento del testo

La corrispondenza dei modelli e l'estrazione delle caratteristiche sono i due tipi principali di processi degli algoritmi OCR che il software OCR utilizza principalmente per il riconoscimento del testo.

Corrispondenza del modello

Il passaggio successivo consiste nell'abbinare il modello separando un'immagine di carattere denominata glifo e confrontandola con un glifo memorizzato in modo simile.

Il processo funziona solo quando il glifo memorizzato ha un carattere e una scala simili al glifo di input.

Estrazione di funzionalità

Il passaggio successivo è l'estrazione delle funzionalità. Il processo scompone o scompone i glifi in caratteristiche come linee, anelli chiusi, direzione della linea e intersezioni di linea.

Queste caratteristiche trovano la corrispondenza migliore o il vicino più vicino tra i vari glifi memorizzati.

Post produzione

Infine, dopo l'analisi, il sistema converte i dati di testo estratti in un file computerizzato.

Quali sono i casi d'uso tipici dell'OCR?

  • Servizi bancari : la tecnologia OCR aiuta il settore bancario a elaborare e verificare i documenti per documenti di prestito, assegni di deposito e altre transazioni finanziarie. Ha migliorato la prevenzione delle frodi e migliorato la sicurezza delle transazioni.
  • Sanità : l'OCR ha rivoluzionato il settore sanitario. Elabora i record dei pazienti, inclusi trattamenti, test, cartelle cliniche e pagamenti assicurativi. Di recente ha contribuito a semplificare il flusso di lavoro e ridurre il lavoro manuale ospedaliero mantenendo aggiornati i registri.
  • Documentazione legale : la tecnologia OCR facilita importanti documenti legali approvati che possono essere scansionati e archiviati in un database elettronico per un comodo recupero. Quindi i documenti possono anche essere visualizzati e condivisi da molte persone.
  • Logistica : il settore della logistica era meno efficiente prima della tecnologia OCR. In precedenza, l'inserimento manuale dei documenti aziendali richiedeva molto tempo ed era soggetto a errori. Per previdenza, i dipendenti hanno dovuto inserire i dati in più sistemi contabili. Le aziende di logistica utilizzano l'OCR per tenere traccia di etichette, fatture, ricevute e altri documenti dei pacchi in modo più efficiente. Con Amazon Textract, il software Foresight può leggere i caratteri in modo più accurato su molti layout diversi, aumentando l'efficienza aziendale.

Quali sono i principali modi in cui i motori OCR aiutano le aziende oggi?

  • Automatizzare i flussi di lavoro
  • Trasformare i file di sola lettura in testo modificabile
  • Creazione di file udibili
  • Tradurre lingue straniere
  • Gestione di moduli e questionari
  • Ottenere un'immissione dei dati più rapida e precisa

Come puoi integrare un SDK OCR?

L'SDK OCR di FileStack aiuta a digitalizzare i documenti ed estrarre e organizzare i dati da carte di credito, passaporti, patenti di guida e ricevute fiscali senza muovere un dito.

L'OCR di FileStack organizza e semplifica il processo di acquisizione dei dati, quindi non è necessario.

Per estrarre il testo all'interno dei documenti complessi nelle immagini, FileStack ha due diverse soluzioni basate sull'apprendimento automatico che funzionano in modo accurato.

  1. Apprendimento senza supervisione con elaborazione intelligente delle immagini
  2. Segmentazione controllata

Gli strumenti avanzati di rilevamento e preelaborazione dei documenti sono l'ultima aggiunta di FileStack in grado di aumentare la precisione.

In primo luogo, l'API di FileStack carica le immagini nei suoi database. Quindi, trasformali in un formato unificato e ridimensionali a una dimensione standard.

Successivamente, vengono inseriti negli strumenti di rilevamento e preelaborazione dei documenti per rendere l'immagine più chiara per il motore OCR. I risultati generano una risposta JSON contenente tutte le informazioni dei testi estratti nell'immagine originale.

Nell'API di elaborazione, l'OCR è disponibile come operazione sincrona. Seguendo questo compito:

ocr

Di conseguenza, la risposta:

{
"documento": {
“testo_aree”: [
{
"rettangolo di selezione": [
{
“x”: 834,
“y”: 478
},
{
“x”: 3372,
“y”: 739
},
{
“x”: 3251,
“y”: 1907
},
{
“x”: 714,
“y”: 1646
}
],
"linee": [
{
"rettangolo di selezione": [
{
“x”: 957,
“y”: 490
},
{
“x”: 3008,
“y”: 701
},
{
“x”: 2977,
“y”: 1009
},
{
“x”: 925,
“y”: 797
}
],
“testo”: “Filestack può rilevare”,
"parole": [
{
"rettangolo di selezione": [
{
“x”: 957,
“y”: 490
},
{
“x”: 1833,
“y”: 580
},
{
“x”: 1802,
“y”: 888
},
{
“x”: 925,
“y”: 797
}
],
“testo”: “Filestack”
},
{
"rettangolo di selezione": [
{
“x”: 1916,
“y”: 589
},
{
“x”: 2266,
“y”: 625
},
{
“x”: 2235,
“y”: 932
},
{
“x”: 1884,
“y”: 896
}
],
“testo”: “può”
},
{
"rettangolo di selezione": [
{
“x”: 2336,
“y”: 632
},
{
“x”: 3008,
“y”: 701
},
{
“x”: 2977,
“y”: 1009
},
{
“x”: 2304,
“y”: 939
}
],
“testo”: “rileva”
}
]
},
{
"rettangolo di selezione": [
{
“x”: 860,
“y”: 858
},
{
“x”: 3330,
“y”: 1049
},
{
“x”: 3301,
“y”: 1421
},
{
“x”: 831,
“y”: 1229
}
],
“testo”: “stampato e manoscritto”,
"parole": [
{
"rettangolo di selezione": [
{
“x”: 860,
“y”: 858
},
{
“x”: 1550,
“y”: 912
},
{
“x”: 1521,
“y”: 1283
},
{
“x”: 831,
“y”: 1229
}
],
“testo”: “stampato”
},
{
"rettangolo di selezione": [
{
“x”: 1677,
“y”: 922
},
{
“x”: 2047,
“y”: 951
},
{
“x”: 2018,
“y”: 1321
},
{
“x”: 1648,
“y”: 1292
}
],
“testo”: “e”
},
{
"rettangolo di selezione": [
{
“x”: 2107,
“y”: 954
},
{
“x”: 3330,
“y”: 1049
},
{
“x”: 3301,
“y”: 1421
},
{
“x”: 2078,
“y”: 1326
}
],
“testo”: “scritto a mano”
}
]
},
{
"rettangolo di selezione": [
{
“x”: 749,
“y”: 1305
},
{
“x”: 2504,
“y”: 1486
},
{
“x”: 2469,
“y”: 1826
},
{
“x”: 714,
“y”: 1645
}
],
“testo”: “testi che utilizzano OCR”,
"parole": [
{
"rettangolo di selezione": [
{
“x”: 749,
“y”: 1305
},
{
“x”: 1233,
“y”: 1355
},
{
“x”: 1198,
“y”: 1695
},
{
“x”: 714,
“y”: 1645
}
],
“testo”: “testi”
},
{
"rettangolo di selezione": [
{
“x”: 1317,
“y”: 1364
},
{
“x”: 1910,
“y”: 1425
},
{
“x”: 1875,
“y”: 1765
},
{
“x”: 1282,
“y”: 1704
}
],
“testo”: “usando”
},
{
"rettangolo di selezione": [
{
“x”: 1972,
“y”: 1431
},
{
“x”: 2504,
“y”: 1486
},
{
“x”: 2469,
“y”: 1826
},
{
“x”: 1937,
“y”: 1771
}
],
“testo”: “OCR”
}
]
}
],
“testo”: “Filestack può rilevare\ntesti stampati e scritti a mano\nutilizzando l'OCR”
}
]
},
“testo”: “Filestack può rilevare\ntesti stampati e scritti a mano\ntramite OCR\n”,
“text_area_percentage”: 23.40692449819434
}

A seconda dei parametri di risposta, puoi ottenere la risposta OCR sulla tua immagine come segue:

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/ocr/<HANDLE>

Puoi utilizzare l'OCR in una catena con altre attività come doc_detection:

https://cdn.filestackcontent.com/security=p:<POLICY>,s:<SIGNATURE>/doc_detection=coords:false,preprocess:true/ocr/<HANDLE>

Inoltre, usa l'OCR con un URL esterno:

https://cdn.filestackcontent.com/<FILESACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/<EXTERNAL_URL>

Infine, usa l'OCR con gli alias di archiviazione:

https://cdn.filestackcontent.com/<FILESTACK_API_KEY>/security=p:<POLICY>,s:<SIGNATURE>/ocr/src://<STORAGE_ALIAS>/<PATH_TO_FILE>