Oltre l'OCR - Usare l'AI per capire i disegni tecnici complessi

L'industria meccanica ha cercato a lungo soluzioni tecnologiche per automatizzare l'estrazione dei dati dai disegni tecnici. Finora l'unica opzione era l'utilizzo dell'OCR (Optical Character Recognition). Forse avete già provato soluzioni OCR come Google Vision o Amazon Textract, ma vi siete presto resi conto:

 

L'OCR generico non è sufficiente per capire i disegni tecnici.

La soluzione OCR-only ha numerosi limiti nella comprensione di cose complesse come i disegni tecnici. Diamo uno sguardo più profondo a come gli algoritmi AI di Werk24 hanno superato l'OCR generico in diverse sfide e raggiunto l'estrazione completamente automatica dei dati dai disegni tecnici.

 

Strutturare gli elementi del testo

La più grande sfida per la lettura automatica dei disegni tecnici è capire il significato dei singoli elementi di testo e sapere quando e come raggrupparli in un formato di dati strutturato. L'OCR può solo leggere il testo ma non può capire il significato del proprio risultato.

Sui disegni tecnici, ci sono molti formati di dati complessi come Misura, GD&T e informazioni nei blocchi di titolo. La misura è spesso presentata come una dimensione nominale con la deviazione superiore e inferiore impilate l'una sull'altra. L'OCR può estrarre il testo solo da sinistra a destra e non è in grado di distinguere quale testo è la Dimensione Nominale, la Deviazione Superiore o la Deviazione Inferiore. E a causa della complessità dell'ambiente visivo, l'OCR commette anche numerosi errori nel raggruppare gli elementi corrispondenti.

Werk24 ha sviluppato modelli avanzati di Machine Learning e algoritmi AI per comprendere tutti i formati comuni di Misure con Dimensione Nominale, Tolleranza, Dimensione Fit, Filettature. Comprendendo il significato individuale di ogni elemento in base al suo contenuto, al contesto e al raggruppamento visivo, l'API di Werk24 può raggruppare gli elementi giusti in dati strutturati e restituirli come formato JSON che può essere utilizzato dalla macchina e alimentare direttamente il tuo sistema software.

Un altro esempio è il blocco del titolo, dove le didascalie (il piccolo testo che descrive il contenuto) come "Designation", "Drawing ID", "Company" è comunemente mancante. Questo rende i risultati OCR inutili, perché il computer non capisce se il testo è Designazione, ID del disegno o dettagli dell'azienda. Werk24 usa AI e ML per capire il testo individuale e accoppiare le didascalie mancanti ai risultati del testo giusto, in modo che il tuo sistema RFQ o ERP possa utilizzare direttamente tali informazioni.

Disegno tecnico Blocco del titolo Confronto tra Google Vision OCR e Werk24 JSON
 

Correzione consapevole del contesto

L'OCR può spesso fallire nel differenziare numeri o caratteri che si assomigliano, come "1", "7" e "I", "0" e "O" o "6" e "8". Questo rende l'OCR non un'opzione affidabile nell'elaborazione di disegni tecnici nella pratica reale.

La tecnologia di Werk24 capisce il significato e il contesto di ogni elemento di testo. Inoltre, fa un controllo incrociato delle etichette di misura e delle linee di misura. Questo significa che sa che una Dimensione Nominale dovrebbe essere "11" invece di "17" nella situazione in cui sembra molto ambigua e simile.

 

Comprendere i simboli speciali

Le soluzioni OCR generiche non possono leggere i simboli speciali, compresi tutti i simboli GD&T. E per alcuni simboli matematici come "Ø", "±", l'OCR generico ha risultati inaffidabili rispetto ai diversi font.

Con il proprio modello di Machine Learning addestrato, Werk24 capisce tutti i simboli speciali in Misure e Tolleranze.

 

Complesso grafico che circonda

L'OCR generico non può rilevare in modo affidabile i testi nei disegni che sono circondati da elementi grafici disordinati e intersecati come linee, simboli, annotazioni, ecc.

L'API TechRead di Werk24 legge gli elementi di testo nonostante i rumori che lo circondano. Così, quando le linee di rotazione si intersecano e interferiscono con le misure, piccoli frammenti di testo possono ancora essere letti con alta precisione.

 

Orientamento multiplo

Molte delle principali soluzioni OCR richiedono un orientamento dominante del documento. Per esempio, i testi in un articolo puntano sempre in una direzione, mentre nei disegni tecnici ci sono spesso elementi di testo con orientamenti diversi. Questo porta a molti elementi di testo che non vengono visti da OCR come Amazon Textract.

Werk24 non assume un orientamento dominante, che è di grande vantaggio quando si estraggono i dati. Invece, la tecnologia può leggere le misure da ogni elemento di testo individualmente, se è orizzontale, verticale o inclinato in un angolo


La soluzione completa di Werk24

Poiché il mercato ha cercato una soluzione tecnica sofisticata e affidabile per estrarre i dati dai disegni tecnici, Werk24 ha già soddisfatto questa esigenza con la sua API TechRead. Disponibile ora, forniamo i mezzi per ottenere automaticamente i dati importanti dai disegni tecnici, tra cui misure, tolleranze, GD&T e blocchi di titolo, assicurando che i clienti non siano più trattenuti da soluzioni OCR inadeguate. Disponibile ora, tutti i dati di produzione importanti nei disegni tecnici sono accessibili in formato JSON in pochi secondi.

Precedente
Precedente

Werk24 è citato da "Paul Kühn" come soluzione di digitalizzazione

Avanti
Avanti

Leggere in modo intelligente il blocco del titolo dei disegni tecnici