-
Notifications
You must be signed in to change notification settings - Fork 0
Um algoritmo de deteccao de similaridade de projetos Roadmap
Victor Moura edited this page Nov 11, 2019
·
1 revision
O algoritmo deve ser construído para cada segmento cultural. Supõe-se não fazer sentido identificar dois projetos de segmentos diferentes como similares.
- Features de complexidade financeira podem ser usadas se ferramenta vier a ser usada pela equipe de análise financeira (SEFIC)
- Criar novas features que descrevam o máximo possível de características de cada projeto cultural
- Features de texto contemplando a descrição do projeto, contemplando os nomes dos itens pedidos na planilha orçamentária, etc... Bag-of-words, TF-IDF, word embedding, são opções para construir estas features
- Features categóricas: produto cultural do projeto, localização do projeto, identificação do proponente, etc ...
- Todas as features criadas formarão o vetor de features do projeto, uma espécie de "impressão digital" do projeto.
- Definir uma métrica de similaridade, isto é, um score que diga o quanto dois vetores de features são parecidos entre si. Veja exemplos na apresentação do link abaixo. Tomar cuidado que o vetor será composto por features numéricas, textuais, categóricas... Talvez uma métrica que seja a combinação de várias métricas para cada subconjunto de features seja a solução.
- Construir a base de projetos analisados, composta pelos vetores de features de todos os projetos de um segmento cultural, que já passaram pela análise de resultados.
- Construir a base de projetos a analisar, composta pelos vetores de features de todos os projetos de um segmento cultural, que estão aptos a passar pela análise de resultados.
- Use as duas bases para calcular a matriz de similaridade, uma tabela onde as linhas representam projetos aptos para análise e as colunas representam os projetos já analisados. Desta forma, a posição (i,j) guarda o valor da métrica de similaridade entre o projeto i e o projeto j.
- Armazenar a matriz de similaridade entre projetos.
- O algoritmo pode ser usado finalmente, da seguinte forma: para o projeto i em questão, buscar na linha i da matriz os k maiores valores de similaridade (k projetos que já foram analisados e que são similares com i). Retornar estes projetos para o usuário.
- Cada vez que um projeto termina sua análise de resultados ou um projeto se torna apto a ser analisado, deve-se recalcular a matriz por meio da volta aos passos 5 a 7.
Reuniões
- 2018.04.04: Entendendo o Salic
- 2018.04.11: Entendendo o Salic
- 2018.04.16: Andamento salic-ml
- 2018.04.24: Ciclo de trabalho da Sefic
- 2018.04.27: Possíveis melhorias para o Salic
- 2018.05.04: Itens de pesquisa salic-ml
- 2018.05.07: Planejamento salic-ml
- 2018.07.17: Iniciação Fase 2
- 2018.07.18: Brainstorming de features
- 2018.07.18: Planejamento Arquitetura
- 2018.11.22: Validação das métricas de complexidade financeira
Estudos
- Processo Salic
- Integração do Salic ML ao Salic
- Acesso ao DB do Salic via VPN
- Obtenção de dados do Salic
- Estratégias para disponibilizar grandes datasets para a comunidade
- Dados sobre finanças dos projetos no Salic
- Referências de Aprendizagem de Máquina
- Arquitetura ML
- Arquitetura SALIC-ML Produto
Documentação
Outros
- Estimação de métricas de Complexidade Financeira
- Estratégias para disponibilizar grandes datasets para a comunidade
- Implementando algoritmos de ML em prod
- Itens para o relatório 4 - Frente ML Pesquisa
- Itens para o relatório 5 - Frente ML Pesquisa
- Medium SalicML - Similaridade entre projetos culturais
- Medium - O sistema de a
- Obtendo datasets
- Planning arquitetura - 18.07.18
- Plano de comunicação
- Protocolo antigo de comunicação entre API e frontend
- Relatório de entrega - Jan a Mar 2019
- Um algoritmo de detecção de similaridade de projetos - Roadmap
- Roadmap do SalicML
- Sobre a metodologia
- Validação de dados utilizados em aplicações do SalicML