Neste repositório foram realizados estudos sobre como trabalhar com dados de muitas dimensões em um modelo de machine learning. Para isso foram aplicados métodos para remover dimensões desnecessárias, agrupar dimensões, entre outros.
Nome | Descrição |
---|---|
Modelo inicial - Baseline | Definindo a baseline de comparação |
Explorando os dados | Verificando a distribuição de cada característica, separada por sua classificação, para considerar como isso impacta no modelo |
Dados correlacionados | Verificando características que possuem correlação entre si |
Automatizando a seleção de característica | Utilizando a classe SelectKBest, do sklearn, para selecionar as melhores características |
Seleção de característica com validação cruzada | Utilizando a classe RFECV, do sklearn, para definir quantas e quais características maximizam o desempenho do modelo |
Visualizando dados no plano | Reduzindo a dimensionalidade dos dados para que possam ser facilmente visualizados em gráficos |
Base de dados inicial | Base de dados inicial |
Commits | Histórico de Commits |