Deduplicacion-de-Datos

Deduplicacion de Datos usando las siguientes librerias:

Esta libreria permite clusterizar los registros duplicados.

Problema:

En Mercado libre tienen una base de datos inmensa en su ERP de SAP. Entre los datos maestros esta la informacion de los clientes. Debido a malas practicas, hay muchos registros dupicados, que hacen que la calidad de los datos no sea la esperada. Se necesita hallar todos los duplicados de la base de datos y dejar un registro unico de los clientes.

Solucion:

Usar Pandas Dedupe para entrenar un modelo NLP con el fin de agrupar los registros duplicados en la base de datos

Esta libreria permite cencontrar registros duplicados usando varios algoritmos de similitud semantica. Estos son algunos que maneja la libreria:

Problema:

En Mercado libre tienen una base de datos inmensa en su ERP de SIESA. Entre los datos maestros esta la informacion de los clientes. Debido a malas practicas, hay muchos registros dupicados, que hacen que la calidad de los datos no sea la esperada. Se necesita hallar todos los duplicados de la base de datos y dejar un registro unico de los clientes.

Solucion:

Usar RecordLinkage para entrenar un modelo NLP con el fin de agrupar los registros duplicados en la base de datos

Esta libreria permite cencontrar registros duplicados usando la distancia de Levenstein.

Problema:

En Mercado libre tienen una base de datos inmensa en su ERP de SALESFORCES. Entre los datos maestros esta la informacion de los clientes. Debido a malas practicas, hay muchos registros dupicados, que hacen que la calidad de los datos no sea la esperada. Se necesita hallar todos los duplicados de la base de datos y dejar un registro unico de los clientes.

Solucion:

Usar TheFuzz para entrenar un modelo NLP con el fin de agrupar los registros duplicados en la base de datos

Name		Name	Last commit message	Last commit date
Latest commit History 24 Commits
Pandas Dedupe		Pandas Dedupe
RecordLinKage		RecordLinKage
TheFuzz		TheFuzz
LICENSE		LICENSE
README.md		README.md

Provide feedback