sexta-feira, 17 de maio de 2013

Big Data (errado) na capa da VEJA desta semana

Como muitos já devem ter visto, a revista VEJA desta semana destaca o Big Data na capa.


Podia ser interessante, mas começa mal.

A figura estranha na capa é o norte-americano A. J. Jacobs.

Não sei de onde a VEJA tirou que ele é o "Mr. Big Data" (podem procurar no Google)!

Graças ao TinEye, descobri que essa imagem aparece no livro The Human Face of Big Data do fotógrafo Rick Smolan que reúne histórias e fotos relacionadas à 'Revolução da Big Data'.



O Jacobs foi incluído no livro por sua história de gostar de monitorar dezenas de suas variáveis corporais, tais como sua pulsação, pressão, qualidade de sono, passos dados, humor, etc.

Embora o Jacobs deva estar gerando grandes quantidades de dados, ele não está fazendo grandes análises deles e, por isso, não se qualifica para Big Data, e, certamente, muito menos para Mr. Big Data!

Para quem pretendia entender o que é o Big Data, a VEJA forneceu apenas a visão que se resume aos famosos três V's: grande Volume de dados, grande Velocidade possível e necessária para processá-los e sua Variedade, por provir de fontes diversas, tais como emails, blogs e redes sociais, arquivos de vídeo, etc.

Esta é a versão hype (oba-oba) e distorcida de que as grandes fabricantes (IBM, Microsoft, etc.) estão usando para vender equipamentos e serviços caríssimos para as empresas desavisadas que querem, com eles, ficarem 'modernas'.

A VEJA se esqueceu de falar dos outros dois V's igualmente importantes:
  • Veracidade: é necessário que os dados sejam autênticos e façam sentido (HURWITZ et al., 2013, p. 16);
  • Valor: é fundamental que os dados acrescentem valor ao seu utilizador (BEULKE, 2011), para que o enorme investimento necessário para o Big Data não seja uma despesa inútil.
Mas, pior, ainda, a VEJA também não discutiu uma série de mitos sobre o Big Data (ver, por exemplo, CRAWFORD, 2013), tais como

  • a falsa 'garantia' de que os dados serão anonimizados antes de serem processados, já que já foi demonstrado que geralmente é possível desanonimizar os dados por cruzá-los com outras bases de dados;
  • a falsa promessa de que o Big Data vai mudar nossas vidas para melhor, sabendo que muito do que se faz com ele é aperfeiçoar os mecanismos de nossa incitação ao consumo;
  • a falsa ideia de que Big Data é o futuro da Ciência, o quinto paradigma, de que "com dados suficientes, os números falam por si", descartando a necessidade de modelos, teorias, análise crítica, etc. Na verdade, os números, poucos ou muitos, nunca falam; é a mente humana que lhes dá significado.
    Big Data como um novo paradigma
    Fonte: (ZHU, 2013)
Um dos exemplos mais famosos é o Google Flu Trends (tendências da gripe), baseado no trabalho de Ginsberg et al. (2009), publicado na prestigiosa revista Nature, em que esses autores utilizaram-no para rastrear afecções semelhantes à gripe na população dos EUA.

No entanto, em 2013, o Google previu um surto de gripe com quase o dobro da intensidade reportada pelas autoridades norte-americanas. Vários pesquisadores sugerem que uma ampla cobertura da mídia sobre a severa temporada de gripe, incluindo uma declaração de emergência de saúde pública pelo estado de Nova York, teria provocado um grande aumento nas pesquisas relacionadas à gripe por pessoas que não estavam doentes e, com isso, causado um processo de realimentação nas previsões do Google (BUTLER, 2013).

Por outro lado, um exemplo bem sucedido de Big Data Science é o da recente identificação do Bóson de Higgs pelo LHC, o qual teve que utilizar um sistema Hadoop de computação distribuída, típico de Big Data, para gerenciar todos os dados.

Não vislumbro motivo para que a produção de dados digitais tenda a diminuir. Com isso, ainda que a moda do Big Data seja substituída pela next big thing, certamente a Ciência e a Economia necessitarão de algum tipo de análise dessas enormes massas de dados.

Da minha experiência, observo que produzir perguntas é um desafio maior do que obter respostas a elas com essas ferramentas do Big Data.

Aqui, acredito, é que os profissionais de Ciências são mais necessários.

Acredito, também, que, com ferramentas públicas e gratuitas, tais como o Microsoft GeoFlow, o Google Trends, o Google Correlate e outras que vierem a surgir em breve, os estudantes, futuros profissionais de Ciências, podem se familiarizar com os desafios científicos e éticos propostos pelo Big Data.

Referências

  • BEULKE, D. Big Data Impacts Data Management: The 5 Vs of Big Data [Blog post]. Disponível em: <http://davebeulke.com/big-data-impacts-data-management-the-five-vs-of-big-data/>. Acesso em: 7/5/2013.
  • BUTLER, D. When Google got flu wrong. Nature, v. 494, n. 7436, p. 155–156, 2013. Disponível em: <http://www.nature.com/news/when-google-got-flu-wrong-1.12413>. Acesso em: 16/5/2013.
  • CRAWFORD, K. Think Again: Big Data. Foreign Policy, 9. May. 2013. Disponível em: <http://www.foreignpolicy.com/articles/2013/05/09/think_again_big_data>. Acesso em: 13/5/2013.
  • GINSBERG, J.; MOHEBBI, M. H.; PATEL, R. S. et al. Detecting influenza epidemics using search engine query data. Nature, v. 457, n. 7232, p. 1012–4, 2009. Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/19020500>. Acesso em: 28/4/2013.
  • HURWITZ, J.; NUGENT, A.; HALPER, F.; KAUFMAN, M. Big Data for Dummies. Hoboken, NJ: John Wiley & Sons, 2013.
  • ZHU, J. Big Data for Social Science Research: Hypes, Myths, and Realities. 21. Jan. 2013. Kowloon Tong, Hong Kong: City University of Hong Kong. Disponível em: <http://com.cityu.edu.hk/COMDOC/Seminar/ppt/2013/seminarPPT-2013-01-21.pdf>

sexta-feira, 10 de maio de 2013

Big Data ou Big Brother?

Estava lendo hoje o relatório Big Data, Big Impact: New Possibilities for International Development, publicado em 2012 pelo Fórum Econômico Mundial, de Davos.

Nele, argumenta-se que os dados provenientes de telefones celulares tem interesse especial, porque, para muitas pessoas de baixa renda, esta é a sua única forma de tecnologia interativa e, ao mesmo tempo, com ela é mais fácil de identificar os indivíduos aos dados. Com isso, esses dados poderiam pintar um quadro sobre as necessidades e comportamentos dos usuários individuais, em vez de simplesmente sobre a população como um todo.

Esse documento cita também uma pesquisa, segundo a qual, quando os operadores de telefonia móvel observam uma redução do tempo de antena em uma determinada região, isso tende a indicar uma perda de renda nessa população muito antes que essa informação apareça nos indicadores oficiais.

Em outra pesquisa citada, conversas relacionadas com a alimentação no Twitter não só mostraram correlações muito fortes com a inflação dos preços dos alimentos, como puderam indicar onde e como as pessoas já estavam mudando seu comportamento em função disso.

Segundo Kikpatric, no auge da crise financeira global de 2009, o Secretário-Geral das Nações Unidas criou a iniciativa Global Pulse, como um laboratório de pesquisa de desenvolvimento, para descobrir se o Big Data e sua análise em tempo real poderiam ajudar a tornar a formulação de políticas mais ágil e eficaz.

O relatório Big Data afirma que a Global Pulse está se envolvendo ativamente no que seu diretor, Robert Kirkpatrick, chama de ‘filantropia de dados’, onde empresas parceiras são incentivadas a compartilhar dados anonimizados para uso do setor público para proteger as populações vulneráveis.

Confesso que me assustei um pouco com a conclusão do relatório:

"Apesar dos desafios [da falta de especialistas e resistência das empresas em compartilhar os dados] e riscos [com privacidade e segurança], as oportunidades disponíveis para melhor servir as pessoas nos mercados emergentes devem compensar esses riscos" [grifo meu].

E mais ainda quando li que Kikrpatric afirma que

"Big Data é uma matéria prima pública, e devemos trabalhar juntos para encontrar maneiras de aproveitá-la para um massivo impacto social, tanto de forma segura quanto responsável. Para que isso aconteça, a ‘filantropia de dados’ tem que se tornar uma prioridade do setor privado" [grifo meu].

Ou seja, devemos permitir -- compulsoriamente até, se for o caso -- a abertura de nossos dados pessoais de identificação e comunicação, abrir mão da nossa privacidade e segurança, porque 'eles', o Grande Irmão, garantem que vai ser bom para todos nós!



Veja também meu post O que a Ciência pode aprender com o Google?