Skip to content

1treu1/Deduplicacion-de-Datos

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

24 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Deduplicacion-de-Datos

Deduplicacion de Datos usando las siguientes librerias:

  1. Pandas Dudupe:

Open In Colab Open In Github

Esta libreria permite clusterizar los registros duplicados.

Problema:

  • En Mercado libre tienen una base de datos inmensa en su ERP de SAP. Entre los datos maestros esta la informacion de los clientes. Debido a malas practicas, hay muchos registros dupicados, que hacen que la calidad de los datos no sea la esperada. Se necesita hallar todos los duplicados de la base de datos y dejar un registro unico de los clientes.

Solucion:

  • Usar Pandas Dedupe para entrenar un modelo NLP con el fin de agrupar los registros duplicados en la base de datos
  1. RecordLinKage:
Esta libreria permite cencontrar registros duplicados usando varios algoritmos de similitud semantica. Estos son algunos que maneja la libreria:

Problema:

  • En Mercado libre tienen una base de datos inmensa en su ERP de SIESA. Entre los datos maestros esta la informacion de los clientes. Debido a malas practicas, hay muchos registros dupicados, que hacen que la calidad de los datos no sea la esperada. Se necesita hallar todos los duplicados de la base de datos y dejar un registro unico de los clientes.

Solucion:

  • Usar RecordLinkage para entrenar un modelo NLP con el fin de agrupar los registros duplicados en la base de datos
  1. TheFuzz

Open In Colab Open In Github
Esta libreria permite cencontrar registros duplicados usando la distancia de Levenstein.

Problema:

  • En Mercado libre tienen una base de datos inmensa en su ERP de SALESFORCES. Entre los datos maestros esta la informacion de los clientes. Debido a malas practicas, hay muchos registros dupicados, que hacen que la calidad de los datos no sea la esperada. Se necesita hallar todos los duplicados de la base de datos y dejar un registro unico de los clientes.

Solucion:

  • Usar TheFuzz para entrenar un modelo NLP con el fin de agrupar los registros duplicados en la base de datos

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published