Plataforma Identificacion de Datos en Documentos
El servicio layer-api-ocr-docs-service es una plataforma que permite la identificación de datos en documentos estructurados, tales como formularios, formatos, identificaciones, etc. Implementa un algoritmo de análisis y detección de datos específicos.
Sumario
Casos de uso
El servicio puede emplearse para extraer datos como: nombres, direcciones, montos, números de cuenta, edad, etc. Ejemplos de tipos de documentos podrían ser:
- Credencial de elector
- Identificaciones
- Pasaportes
- Recibos de nómina
- Recibos de Pago
- Certificados de nacimiento
- Formularios
Algoritmo
Para poder realizar la detección es necesario contar con una plantilla del layout del documento donde se identifiquen las secciones en que se divide el documento y los campos que se desea obtener. En términos generales el algoritmo de identificación de datos en documentos estructurados es como sigue:
- Se realiza un reconocimiento óptico de caracteres y palabras (OCR - Optical Character Recognition, IWR - Intelligent word recognition).
- Identificación de secciones del documento.
- División del documento en secciones.
- Normalización geométrica del documento empleando trasformaciones afines.
- Identificación de secciones en base a invariantes topológicas.
- Identificación de campos.
Forma de uso
Para poderlo usar se emplea una API REST que recibe un JSON indicando el tipo de documento y la imagen con el documento, dicha imagen puede ser la imagen en formato base64 o el url con la ubicación de la imagen.
Incluir nuevos tipos de documento
Para incluir nuevos tipos de documento se tiene que tener una plantilla definiendo las secciones que componen el documento, los pivotes para identificar las secciones, los campos que se desea extraer, y la estrategia de búsqueda, que puede ser geométrica o por identificación de líneas. Dichas estrategias podrían incrementarse en el futuro. Actualmente se planea incorporar una estrategia por búsqueda de expresiones regulares. Asimismo, ya se trabaja en un formato json para definir los tipos de documento, de tal forma que no sea necesario volver a desplegar el servicio, ni realizar tareas de programación para poder incorporar nuevos tipos. En un futuro cercano se podía contar con un editor para incorporar estos formatos de forma visual.
Dependencias
Para realizar el ocr se emplea actualmente "Google Cloud Vision AI". Pero se podría emplear cualquier otro sistema que incluya reconocimiento de palabras y regrese los polígonos de localización en la imagen.
Elementos que lo consumen
Actualmente se emplea en la identificación de campos del INE en videollamada.