segunda-feira, 17 de junho de 2013

Big Data ou Admirável Gado Novo?

Voltando à ferramenta Google Correlate que eu já havia abordado em post anterior, andei fazendo mais algumas experiências, com resultados curiosos:

Por exemplo, introduzi dados temporais gerados com a função do Excel 'fração do ano' que retorna a fração de dias que resta do ano em qualquer data. Ela produz um gráfico em forma de dente-de-serra, com máximo em 1 de janeiro e mínimo em 31 de dezembro.

O termo de busca que melhor se correlacionou (com um R^2 de 0.8907) foi 'mother of the bride' (mãe da noiva), seguido de 'bride dresses' (vestidos de noiva), 'flower girl dresses' (vestidos para aia) e outros relacionados com a cerimônia de casamento, como se vê da lista abaixo.

Temos de busca no Google cujas frequências melhor se correlacionam com os dados temporais 'fração do ano'

O gráfico abaixo mostra a correlação com o termo 'mother of the bride' (mãe da noiva)

Gráfico da correlação entre dados temporais de 'fração do ano' e 'mother of the bride' no Google Correlate
Parece que nos EUA, a maior preocupação no Ano Novo é com vestidos de casamento, etc.

Quando usei os mesmo dados para o Brasil, obtive que os termos de busca que melhor se relacionam são 'emprego', 'carteirinha' (de estudante), 'queda de cabelo', 'alistamento militar', etc.

Temos de busca no Google cujas frequências melhor se correlacionam no Brasil com os dados temporais 'fração do ano'
com o correspondente gráfico

Gráfico da correlação entre dados temporais de 'fração do ano' e 'emprego' no Google Correlate no Brasil

Parece que as preocupações de Ano Novo dos brasileiros são bem diferentes das dos norte-americanos.

Outra experiência que fiz foi com os dados 'winter wave' do próprio Google Correlate, cujo gráfico é uma cossenoide com máximo no início do inverno e mínimo no início do verão.

Os termos que melhor se correlacionam são 'Nordica' e 'Dalbello' (conhecidas marcas de esquis), seguidos por 'wedding soup' (uma típica sopa italiana de natal), 'colds' (resfriado), etc.

Temos de busca no Google cujas frequências melhor se correlacionam com os dados temporais 'winter wave'
com o gráfico
Gráfico da correlação entre dados temporais de 'winter wave' e 'Nordica' no Google Correlate
O mesmo conjunto de dados aplicado ao Brasil resulta em termos associados a destinos de férias de verão, etc.

Temos de busca no Google no Brasil cujas frequências melhor se correlacionam com os dados temporais 'winter wave'
com o gráfico

Gráfico da correlação entre dados temporais de 'winter wave' e 'Punta del Este' no Google Correlate no Brasil
Aproveitando a ideia, produzi os dados inversos, isto é, 'summer wave', que inseridos no Google Correlate, resultam nos termos de busca 'golf course' (percurso de golfe), 'tent' (tenda), 'dunk tank' (jogo de parques de diversão que faz uma garota cair num tanque d'água quando se acerta) e outros relacionados a atividades de férias de verão.

Temos de busca no Google cujas frequências melhor se correlacionam com os dados temporais 'summer wave'
com o gráfico abaixo para percurso de golfe.

Gráfico da correlação entre dados temporais de 'summer wave' e 'golf course' no Google Correlate
Aplicando os mesmos dados 'summer wave' para o Brasil, obtemos termos de busca principalmente associados a 'festa do peão', etc.

Temos de busca no Google no Brasil cujas frequências melhor se correlacionam com os dados temporais 'summer wave'
com o gráfico para 'peão'

Gráfico da correlação entre dados temporais de 'summer wave' e 'peão' no Google Correlate no Brasil
Outra experiência foi uma série de dados senoidal com máximo no início da primavera do hemisfério norte (início do nosso outono) que, no Brasil, correlaciona aos termos de busca 'queda de cabelo' (!?), 'vestibular de meio de ano', 'moda outono', etc.

Temos de busca no Google no Brasil cujas frequências melhor se correlacionam com os dados temporais 'spring wave'

Finalmente, outra experiência foi com uma série de dados senoidal com máximo no início do outono do hemisfério norte (início da nossa primavera) que, no Brasil, correlaciona aos termos de busca 'moda verão', 'moda primavera', 'inscrição vestibular', etc.


Concluo, com tudo isso, que, embora tenhamos plena liberdade de escolha em nossas buscas no Google, afinal somos, em conjunto, muito previsíveis.

Eh, ôô, vida de gado

como cantava Zé Ramalho em seu Admirável Gado Novo!