Okay-Pop faz mehr Erfolg als Rock dos anos 80?
Aceitei o desafio de passar sete dias recebendo tarefas de ciência de dados voltadas para o machine studying com dados de music do Spotify. Este é o segundo 7Days of Code que participo e estou relatando minhas experiences, difficuldades e como solucionei elas nestes artigos e no meu canal de divulgação científica.
Serão três artigos divididos da seguinte forma:
- Primeiro dia, análise exploratória e tratamento de dados
- Criação de um modelo completo, do zero à validação
- O que eu poderia ter feito de diferente e como me impactaria.
Vamos então se aventura comigo no primeiro dia?
Neste Primeiro dia o objetivo é analisar os dados de music do Spotify. Antes de começar qualquer análise visible ou estatística eu escrevi 5 mini tarefas que deveriam ser completadas até o fim da minha análise. As mini tarefas servem para guiar minha atividade, e caso surgissem outras perguntas ou tópicos importantes eu escreveria no pocket book, e como meu objetivo com os setes dias de desafio é criar um modelo para descobrir popularidade de uma música criei objetivos específicos voltados para tal.
Als 5 Mini-Tarefas-Foram:
- Verificar Dados Faltantes e Duplicados;
- Analisar-Korrelation;
- Analisar variáveis Discretas(agrupamento se possível);
- TOPS 5 Musik, Künstler und Volksmusik;
- Normalizar os Dados.
Com esses objetivos específicos determinados iniciei análises conhecendo especificadamente as colunas do dataset, e depois parti para análises estatísticas e graphicas, e assim as dificuldades surgiram.
Usando método die Data do Pandas e passando pela tabela conheci quem são as variáveis e quais são seus tipos, se discretas ou contínuas. Descobri que existia um valor faltante em algumas colunas e continha valores duplicados. Os valores duplicados foram retirados, mas para retirar o valor faltante primeiro pesquisei qual motivo da faltava do valor e como ele impactaria os meus dados. O que eu descobri?
O que faltava period o nome da música, do artista e do álbum. Para criar um modelo voltado a popularidade não haveria impacto, contudo, eu busquei uma forma de obter os dados completos. Verwenden Sie eine API für Spotify, Fleckig, usei o id da música sem nome para preecher música, artista e álbum. Sem sucesso, li novamente a documentação do Spotipy e infelizmente não conclui este pequeno objetivo pois o id não fazia um mapeamento com a música. E no fim não pensioni este valor pois não iria impactar nas minhas análises estatísticas.
A segunda dificuldade surgiu quando procurando os valores únicos de cada coluna encontrei repetições nos nomes das músicas. A minha investigação com os valores repetidos mostrou que se tratava realmente de músicas idênticas com alterações ou no álbum ou no artista, mas com todos os valores que caracterização a música iguais. Para solucionar este problema usei dois passos: selecionar os índices de todas as músicas excluindo as repetições e criar um novo dataset filtrando pelos índices para exluir as repetições.
Correlação é uma forma rápida de avaliar interações entre variáveis, podendo verificar tendências positivas e negativas. De outras experiências realisiert uma matriz de correlação para descobrir que a popularidade não tinha fortes correlações com qualquer outra variável. No entanto, existia correlação entre outras variáveis.
Eu poderia ter traduzido os nomes das variáveis, porém para praticar o englês e não causar confusão psychological, já que todos as referências estão em inglês, resolvi não traduzir.
Investiguei quais seriam os tops 5 para completely different categoryas, e mostro pra vocês que rock dos anos 80 não é tão common hoje em dia. Atualmente o pop tomou posse e se localiza no prime 3, ocupando as três posições para cada variação de pop.
Eine Atualisierung dieses Datensatzes in einer Epoche in der Musik Unholy, tue Sam Smith in Kim Petras, es ist kein Instagram. Provavelmente é por este motivo que o prime 1 artista e prime 1 music sejam Sam Smith and Unhloly, respektive.
Para a realização de um modelo de machine studying é interessante que os dados estejam normalizados, iso é, todos estejam dentro dos mesmo limite 0 e 1. Realizar a normalização é colocar os dados dentro desses limites. Esta foi a ultima tarefa que fiz nos meus dados, então salvei para usá-los na criação do modelo. Agora a história fica para o próximo artigo.