Plataforma Identificacion de Datos en Documentos

De Plataforma COA Crowd
Saltar a: navegación, buscar

El servicio layer-api-ocr-docs-service es una plataforma que permite la identificación de datos en documentos estructurados, tales como formularios, formatos, identificaciones, etc. Implementa un algoritmo de análisis y detección de datos específicos.


Casos de uso

El servicio puede emplearse para extraer datos como: nombres, direcciones, montos, números de cuenta, edad, etc. Ejemplos de tipos de documentos podrían ser:

  • Credencial de elector
  • Identificaciones
  • Pasaportes
  • Recibos de nómina
  • Recibos de Pago
  • Certificados de nacimiento
  • Formularios

Algoritmo

Para poder realizar la detección es necesario contar con una plantilla del layout del documento donde se identifiquen las secciones en que se divide el documento y los campos que se desea obtener. En términos generales el algoritmo de identificación de datos en documentos estructurados es como sigue:

  1. Se realiza un reconocimiento óptico de caracteres y palabras (OCR - Optical Character Recognition, IWR - Intelligent word recognition).
  2. Identificación de secciones del documento.
  3. División del documento en secciones.
  4. Normalización geométrica del documento empleando trasformaciones afines.
  5. Identificación de secciones en base a invariantes topológicas.
  6. Identificación de campos.

Forma de uso

Para poderlo usar se emplea una API REST que recibe un JSON indicando el tipo de documento y la imagen con el documento, dicha imagen puede ser la imagen en formato base64 o el url con la ubicación de la imagen.

Incluir nuevos tipos de documento

Para incluir nuevos tipos de documento se tiene que tener una plantilla definiendo las secciones que componen el documento, los pivotes para identificar las secciones, los campos que se desea extraer, y la estrategia de búsqueda, que puede ser geométrica o por identificación de líneas. Dichas estrategias podrían incrementarse en el futuro. Actualmente se planea incorporar una estrategia por búsqueda de expresiones regulares. Asimismo, ya se trabaja en un formato json para definir los tipos de documento, de tal forma que no sea necesario volver a desplegar el servicio, ni realizar tareas de programación para poder incorporar nuevos tipos. En un futuro cercano se podía contar con un editor para incorporar estos formatos de forma visual.

Dependencias

Para realizar el ocr se emplea actualmente "Google Cloud Vision AI". Pero se podría emplear cualquier otro sistema que incluya reconocimiento de palabras y regrese los polígonos de localización en la imagen.

Elementos que lo consumen

Actualmente se emplea en la identificación de campos del INE en videollamada.

Documentación de Uso

Swagger del servicio