Um algoritmo de deteccao de similaridade de projetos Roadmap

O algoritmo deve ser construído para cada segmento cultural. Supõe-se não fazer sentido identificar dois projetos de segmentos diferentes como similares.

Features de complexidade financeira podem ser usadas se ferramenta vier a ser usada pela equipe de análise financeira (SEFIC)
Criar novas features que descrevam o máximo possível de características de cada projeto cultural
- Features de texto contemplando a descrição do projeto, contemplando os nomes dos itens pedidos na planilha orçamentária, etc... Bag-of-words, TF-IDF, word embedding, são opções para construir estas features
- Features categóricas: produto cultural do projeto, localização do projeto, identificação do proponente, etc ...
Todas as features criadas formarão o vetor de features do projeto, uma espécie de "impressão digital" do projeto.
Definir uma métrica de similaridade, isto é, um score que diga o quanto dois vetores de features são parecidos entre si. Veja exemplos na apresentação do link abaixo. Tomar cuidado que o vetor será composto por features numéricas, textuais, categóricas... Talvez uma métrica que seja a combinação de várias métricas para cada subconjunto de features seja a solução.
Construir a base de projetos analisados, composta pelos vetores de features de todos os projetos de um segmento cultural, que já passaram pela análise de resultados.
Construir a base de projetos a analisar, composta pelos vetores de features de todos os projetos de um segmento cultural, que estão aptos a passar pela análise de resultados.
Use as duas bases para calcular a matriz de similaridade, uma tabela onde as linhas representam projetos aptos para análise e as colunas representam os projetos já analisados. Desta forma, a posição (i,j) guarda o valor da métrica de similaridade entre o projeto i e o projeto j.
Armazenar a matriz de similaridade entre projetos.
O algoritmo pode ser usado finalmente, da seguinte forma: para o projeto i em questão, buscar na linha i da matriz os k maiores valores de similaridade (k projetos que já foram analisados e que são similares com i). Retornar estes projetos para o usuário.
Cada vez que um projeto termina sua análise de resultados ou um projeto se torna apto a ser analisado, deve-se recalcular a matriz por meio da volta aos passos 5 a 7.

http://www.inf.ufsc.br/~r.mello/ine5454/Similaridade.pdf

https://www.ime.usp.br/~dhgoya/forense_paper.pdf

Home

Reuniões

Estudos

Documentação

Documentação dos Endpoints

Outros

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Um algoritmo de deteccao de similaridade de projetos Roadmap

Clone this wiki locally