receipt-ripper.com
Os seus recibos nunca saem do seu dispositivo
A fotografia é a metade injusta da precisão do OCR. Faz-se bem e o parser faz o seu trabalho. Mal e passas os próximos dez minutos a digitar.
O OCR de recibos falha por duas razões. Ou o motor não consegue ler o que está lá, ou o que está lá não é legível (um problema de foto que podes resolver em dez segundos se souberes o que resolver). Este guia é sobre o segundo.
O Receipt Ripper aplica correção de perspetiva e redução de escala automáticas antes do OCR sequer correr, por isso a fasquia não é "qualidade de estúdio" — é "o motor de OCR consegue distinguir dígitos sem ambiguidade".
A variável mais importante é a iluminação. Um recibo térmico tem muito pouco contraste — tinta preta em papel esbranquiçado. A tua tarefa: colocá-lo no extremo fácil do espectro.
Em interior o mais fácil: uma janela de dia, tu entre a janela e o recibo. Luz brilhante, uniforme, difusa. Sem brilhos no recibo — os reflexos queimam a tinta e o OCR vê papel branco.
Branco sobre branco mata o detetor de bordas. A fase de correção encontra as bordas do papel procurando mudanças bruscas de luminância. Um recibo branco numa bancada branca não tem mudança na fronteira.
Usa uma superfície escura e mate. Uma mesa de madeira escura, um individual de mesa carvão, a capa de um livro preto. Superfícies brilhantes (granito, mármore polido, vidro) refletem luz e criam um halo.
A correção de perspetiva consegue lidar com bastante — até cerca de 40° de inclinação — mas não é grátis. Cada passo de correção amacia ligeiramente a imagem. Os melhores resultados vêm de fotos em que o telemóvel está mais ou menos paralelo ao recibo e centrado sobre ele.
Queres que o recibo seja o maior possível no enquadramento sem tocar nas bordas. Maior: mais píxeis para o OCR. Sem tocar as bordas: o detetor de cantos precisa de píxeis não-recibo à volta.
Uma margem de cerca de 10% do eixo longo funciona bem.
As câmaras frontais têm 5-7 MP na maioria dos dispositivos; as traseiras 12 MP ou mais. Para OCR, a resolução extra da câmara traseira vale mais do que o conforto do visor.
Não uses o modo "Live Photos" do iOS. Não uses scanners de documentos de terceiros que binarizam a imagem em preto e branco — deitam fora os dados em escala de cinzentos que ajudam o OCR a distinguir 8 de 3.
O flash é cara ou coroa. Em recibos desbotados pode recuperar contraste. Em recibos frescos queima a impressão e cria um brilho no meio da página, muitas vezes mesmo sobre o total.
Regra prática: tenta sem flash primeiro. Se o resultado parecer queimado ou desfocado com pouca luz, repete com flash.
Depois de largar a foto no Receipt Ripper, a tabela de revisão mostra cada campo com um indicador de confiança. Os badges amarelos são a incerteza honesta do parser — uma pista grátis de algo que não foi lido limpamente.
Um recibo que continua a analisar mal apesar de uma boa foto? Envia-no-lo — cada recibo problemático ensina algo novo ao parser.