segunda-feira, 2 de dezembro de 2013

Fazendo Big Data do Twitter com o R Studio

Ontem comecei a aprender a linguagem de programação R para cálculos estatísticos e visualizações de dados. Seu código fonte está disponível sob a licença GNU GPL e é hoje  amplamente usada entre estatísticos e data miners para desenvolver software de estatística e análise de dados.

Estou estudando com o excelente livro-texto 'An Introduction to Data Science', desenvolvido por Jeffery Stanton para a Pós em Data Science da Universidade de Syracuse. Ele está disponível em formato .pdf no site Teach Data Science.


Na verdade, estou usando o R Studio, um IDE (ambiente de desenvolvimento integrado) open source para R.


Dentro do R Studio, existe o pacote twitteR, criado por Jeff Gentry, que oferece uma interface muito simples para extrair listas de tweets, selecionados por algum critério, diretamente do Twitter para dentro de R. Após obtida, essa lista pode facilmente ser transformada em um dataframe.

Como um exercício, extraí para o R Studio tweets contendo a palavra 'Ulbra' (não apenas a hashtag #Ulbra), obtendo 299 tweets nos últimos 7 dias (restrição imposta aos APIs que acessam a timeline do Twitter).

Após algumas preparações no texto dos tweets, realizadas com recursos do twitteR, mandei-o construir a nuvem de tags (tag cloud) correspondente:






Infelizmente, não consegui ainda fazê-lo trabalhar corretamente com palavras acentuadas em português, mas já dá para ter uma ideia de quais assuntos os tuiteiros andam falando com relação à Ulbra.

O próximo passo é fazer análises de sentimento desses tuítes.

Nenhum comentário:

Postar um comentário