Skip to content

Um algoritmo de deteccao de similaridade de projetos Roadmap

Victor Moura edited this page Nov 11, 2019 · 1 revision

O algoritmo deve ser construído para cada segmento cultural. Supõe-se não fazer sentido identificar dois projetos de segmentos diferentes como similares.

  1. Features de complexidade financeira podem ser usadas se ferramenta vier a ser usada pela equipe de análise financeira (SEFIC)
  2. Criar novas features que descrevam o máximo possível de características de cada projeto cultural
    • Features de texto contemplando a descrição do projeto, contemplando os nomes dos itens pedidos na planilha orçamentária, etc... Bag-of-words, TF-IDF, word embedding, são opções para construir estas features
    • Features categóricas: produto cultural do projeto, localização do projeto, identificação do proponente, etc ...
  3. Todas as features criadas formarão o vetor de features do projeto, uma espécie de "impressão digital" do projeto.
  4. Definir uma métrica de similaridade, isto é, um score que diga o quanto dois vetores de features são parecidos entre si. Veja exemplos na apresentação do link abaixo. Tomar cuidado que o vetor será composto por features numéricas, textuais, categóricas... Talvez uma métrica que seja a combinação de várias métricas para cada subconjunto de features seja a solução.
  5. Construir a base de projetos analisados, composta pelos vetores de features de todos os projetos de um segmento cultural, que já passaram pela análise de resultados.
  6. Construir a base de projetos a analisar, composta pelos vetores de features de todos os projetos de um segmento cultural, que estão aptos a passar pela análise de resultados.
  7. Use as duas bases para calcular a matriz de similaridade, uma tabela onde as linhas representam projetos aptos para análise e as colunas representam os projetos já analisados. Desta forma, a posição (i,j) guarda o valor da métrica de similaridade entre o projeto i e o projeto j.
  8. Armazenar a matriz de similaridade entre projetos.
  9. O algoritmo pode ser usado finalmente, da seguinte forma: para o projeto i em questão, buscar na linha i da matriz os k maiores valores de similaridade (k projetos que já foram analisados e que são similares com i). Retornar estes projetos para o usuário.
  10. Cada vez que um projeto termina sua análise de resultados ou um projeto se torna apto a ser analisado, deve-se recalcular a matriz por meio da volta aos passos 5 a 7.

http://www.inf.ufsc.br/~r.mello/ine5454/Similaridade.pdf

https://www.ime.usp.br/~dhgoya/forense_paper.pdf

Clone this wiki locally