sexta-feira, 17 de maio de 2013

Big Data (errado) na capa da VEJA desta semana

Como muitos já devem ter visto, a revista VEJA desta semana destaca o Big Data na capa.


Podia ser interessante, mas começa mal.

A figura estranha na capa é o norte-americano A. J. Jacobs.

Não sei de onde a VEJA tirou que ele é o "Mr. Big Data" (podem procurar no Google)!

Graças ao TinEye, descobri que essa imagem aparece no livro The Human Face of Big Data do fotógrafo Rick Smolan que reúne histórias e fotos relacionadas à 'Revolução da Big Data'.



O Jacobs foi incluído no livro por sua história de gostar de monitorar dezenas de suas variáveis corporais, tais como sua pulsação, pressão, qualidade de sono, passos dados, humor, etc.

Embora o Jacobs deva estar gerando grandes quantidades de dados, ele não está fazendo grandes análises deles e, por isso, não se qualifica para Big Data, e, certamente, muito menos para Mr. Big Data!

Para quem pretendia entender o que é o Big Data, a VEJA forneceu apenas a visão que se resume aos famosos três V's: grande Volume de dados, grande Velocidade possível e necessária para processá-los e sua Variedade, por provir de fontes diversas, tais como emails, blogs e redes sociais, arquivos de vídeo, etc.

Esta é a versão hype (oba-oba) e distorcida de que as grandes fabricantes (IBM, Microsoft, etc.) estão usando para vender equipamentos e serviços caríssimos para as empresas desavisadas que querem, com eles, ficarem 'modernas'.

A VEJA se esqueceu de falar dos outros dois V's igualmente importantes:
  • Veracidade: é necessário que os dados sejam autênticos e façam sentido (HURWITZ et al., 2013, p. 16);
  • Valor: é fundamental que os dados acrescentem valor ao seu utilizador (BEULKE, 2011), para que o enorme investimento necessário para o Big Data não seja uma despesa inútil.
Mas, pior, ainda, a VEJA também não discutiu uma série de mitos sobre o Big Data (ver, por exemplo, CRAWFORD, 2013), tais como

  • a falsa 'garantia' de que os dados serão anonimizados antes de serem processados, já que já foi demonstrado que geralmente é possível desanonimizar os dados por cruzá-los com outras bases de dados;
  • a falsa promessa de que o Big Data vai mudar nossas vidas para melhor, sabendo que muito do que se faz com ele é aperfeiçoar os mecanismos de nossa incitação ao consumo;
  • a falsa ideia de que Big Data é o futuro da Ciência, o quinto paradigma, de que "com dados suficientes, os números falam por si", descartando a necessidade de modelos, teorias, análise crítica, etc. Na verdade, os números, poucos ou muitos, nunca falam; é a mente humana que lhes dá significado.
    Big Data como um novo paradigma
    Fonte: (ZHU, 2013)
Um dos exemplos mais famosos é o Google Flu Trends (tendências da gripe), baseado no trabalho de Ginsberg et al. (2009), publicado na prestigiosa revista Nature, em que esses autores utilizaram-no para rastrear afecções semelhantes à gripe na população dos EUA.

No entanto, em 2013, o Google previu um surto de gripe com quase o dobro da intensidade reportada pelas autoridades norte-americanas. Vários pesquisadores sugerem que uma ampla cobertura da mídia sobre a severa temporada de gripe, incluindo uma declaração de emergência de saúde pública pelo estado de Nova York, teria provocado um grande aumento nas pesquisas relacionadas à gripe por pessoas que não estavam doentes e, com isso, causado um processo de realimentação nas previsões do Google (BUTLER, 2013).

Por outro lado, um exemplo bem sucedido de Big Data Science é o da recente identificação do Bóson de Higgs pelo LHC, o qual teve que utilizar um sistema Hadoop de computação distribuída, típico de Big Data, para gerenciar todos os dados.

Não vislumbro motivo para que a produção de dados digitais tenda a diminuir. Com isso, ainda que a moda do Big Data seja substituída pela next big thing, certamente a Ciência e a Economia necessitarão de algum tipo de análise dessas enormes massas de dados.

Da minha experiência, observo que produzir perguntas é um desafio maior do que obter respostas a elas com essas ferramentas do Big Data.

Aqui, acredito, é que os profissionais de Ciências são mais necessários.

Acredito, também, que, com ferramentas públicas e gratuitas, tais como o Microsoft GeoFlow, o Google Trends, o Google Correlate e outras que vierem a surgir em breve, os estudantes, futuros profissionais de Ciências, podem se familiarizar com os desafios científicos e éticos propostos pelo Big Data.

Referências

  • BEULKE, D. Big Data Impacts Data Management: The 5 Vs of Big Data [Blog post]. Disponível em: <http://davebeulke.com/big-data-impacts-data-management-the-five-vs-of-big-data/>. Acesso em: 7/5/2013.
  • BUTLER, D. When Google got flu wrong. Nature, v. 494, n. 7436, p. 155–156, 2013. Disponível em: <http://www.nature.com/news/when-google-got-flu-wrong-1.12413>. Acesso em: 16/5/2013.
  • CRAWFORD, K. Think Again: Big Data. Foreign Policy, 9. May. 2013. Disponível em: <http://www.foreignpolicy.com/articles/2013/05/09/think_again_big_data>. Acesso em: 13/5/2013.
  • GINSBERG, J.; MOHEBBI, M. H.; PATEL, R. S. et al. Detecting influenza epidemics using search engine query data. Nature, v. 457, n. 7232, p. 1012–4, 2009. Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/19020500>. Acesso em: 28/4/2013.
  • HURWITZ, J.; NUGENT, A.; HALPER, F.; KAUFMAN, M. Big Data for Dummies. Hoboken, NJ: John Wiley & Sons, 2013.
  • ZHU, J. Big Data for Social Science Research: Hypes, Myths, and Realities. 21. Jan. 2013. Kowloon Tong, Hong Kong: City University of Hong Kong. Disponível em: <http://com.cityu.edu.hk/COMDOC/Seminar/ppt/2013/seminarPPT-2013-01-21.pdf>