sexta-feira, 17 de maio de 2013

Big Data (errado) na capa da VEJA desta semana

Como muitos já devem ter visto, a revista VEJA desta semana destaca o Big Data na capa.


Podia ser interessante, mas começa mal.

A figura estranha na capa é o norte-americano A. J. Jacobs.

Não sei de onde a VEJA tirou que ele é o "Mr. Big Data" (podem procurar no Google)!

Graças ao TinEye, descobri que essa imagem aparece no livro The Human Face of Big Data do fotógrafo Rick Smolan que reúne histórias e fotos relacionadas à 'Revolução da Big Data'.



O Jacobs foi incluído no livro por sua história de gostar de monitorar dezenas de suas variáveis corporais, tais como sua pulsação, pressão, qualidade de sono, passos dados, humor, etc.

Embora o Jacobs deva estar gerando grandes quantidades de dados, ele não está fazendo grandes análises deles e, por isso, não se qualifica para Big Data, e, certamente, muito menos para Mr. Big Data!

Para quem pretendia entender o que é o Big Data, a VEJA forneceu apenas a visão que se resume aos famosos três V's: grande Volume de dados, grande Velocidade possível e necessária para processá-los e sua Variedade, por provir de fontes diversas, tais como emails, blogs e redes sociais, arquivos de vídeo, etc.

Esta é a versão hype (oba-oba) e distorcida de que as grandes fabricantes (IBM, Microsoft, etc.) estão usando para vender equipamentos e serviços caríssimos para as empresas desavisadas que querem, com eles, ficarem 'modernas'.

A VEJA se esqueceu de falar dos outros dois V's igualmente importantes:
  • Veracidade: é necessário que os dados sejam autênticos e façam sentido (HURWITZ et al., 2013, p. 16);
  • Valor: é fundamental que os dados acrescentem valor ao seu utilizador (BEULKE, 2011), para que o enorme investimento necessário para o Big Data não seja uma despesa inútil.
Mas, pior, ainda, a VEJA também não discutiu uma série de mitos sobre o Big Data (ver, por exemplo, CRAWFORD, 2013), tais como

  • a falsa 'garantia' de que os dados serão anonimizados antes de serem processados, já que já foi demonstrado que geralmente é possível desanonimizar os dados por cruzá-los com outras bases de dados;
  • a falsa promessa de que o Big Data vai mudar nossas vidas para melhor, sabendo que muito do que se faz com ele é aperfeiçoar os mecanismos de nossa incitação ao consumo;
  • a falsa ideia de que Big Data é o futuro da Ciência, o quinto paradigma, de que "com dados suficientes, os números falam por si", descartando a necessidade de modelos, teorias, análise crítica, etc. Na verdade, os números, poucos ou muitos, nunca falam; é a mente humana que lhes dá significado.
    Big Data como um novo paradigma
    Fonte: (ZHU, 2013)
Um dos exemplos mais famosos é o Google Flu Trends (tendências da gripe), baseado no trabalho de Ginsberg et al. (2009), publicado na prestigiosa revista Nature, em que esses autores utilizaram-no para rastrear afecções semelhantes à gripe na população dos EUA.

No entanto, em 2013, o Google previu um surto de gripe com quase o dobro da intensidade reportada pelas autoridades norte-americanas. Vários pesquisadores sugerem que uma ampla cobertura da mídia sobre a severa temporada de gripe, incluindo uma declaração de emergência de saúde pública pelo estado de Nova York, teria provocado um grande aumento nas pesquisas relacionadas à gripe por pessoas que não estavam doentes e, com isso, causado um processo de realimentação nas previsões do Google (BUTLER, 2013).

Por outro lado, um exemplo bem sucedido de Big Data Science é o da recente identificação do Bóson de Higgs pelo LHC, o qual teve que utilizar um sistema Hadoop de computação distribuída, típico de Big Data, para gerenciar todos os dados.

Não vislumbro motivo para que a produção de dados digitais tenda a diminuir. Com isso, ainda que a moda do Big Data seja substituída pela next big thing, certamente a Ciência e a Economia necessitarão de algum tipo de análise dessas enormes massas de dados.

Da minha experiência, observo que produzir perguntas é um desafio maior do que obter respostas a elas com essas ferramentas do Big Data.

Aqui, acredito, é que os profissionais de Ciências são mais necessários.

Acredito, também, que, com ferramentas públicas e gratuitas, tais como o Microsoft GeoFlow, o Google Trends, o Google Correlate e outras que vierem a surgir em breve, os estudantes, futuros profissionais de Ciências, podem se familiarizar com os desafios científicos e éticos propostos pelo Big Data.

Referências

  • BEULKE, D. Big Data Impacts Data Management: The 5 Vs of Big Data [Blog post]. Disponível em: <http://davebeulke.com/big-data-impacts-data-management-the-five-vs-of-big-data/>. Acesso em: 7/5/2013.
  • BUTLER, D. When Google got flu wrong. Nature, v. 494, n. 7436, p. 155–156, 2013. Disponível em: <http://www.nature.com/news/when-google-got-flu-wrong-1.12413>. Acesso em: 16/5/2013.
  • CRAWFORD, K. Think Again: Big Data. Foreign Policy, 9. May. 2013. Disponível em: <http://www.foreignpolicy.com/articles/2013/05/09/think_again_big_data>. Acesso em: 13/5/2013.
  • GINSBERG, J.; MOHEBBI, M. H.; PATEL, R. S. et al. Detecting influenza epidemics using search engine query data. Nature, v. 457, n. 7232, p. 1012–4, 2009. Disponível em: <http://www.ncbi.nlm.nih.gov/pubmed/19020500>. Acesso em: 28/4/2013.
  • HURWITZ, J.; NUGENT, A.; HALPER, F.; KAUFMAN, M. Big Data for Dummies. Hoboken, NJ: John Wiley & Sons, 2013.
  • ZHU, J. Big Data for Social Science Research: Hypes, Myths, and Realities. 21. Jan. 2013. Kowloon Tong, Hong Kong: City University of Hong Kong. Disponível em: <http://com.cityu.edu.hk/COMDOC/Seminar/ppt/2013/seminarPPT-2013-01-21.pdf>

sexta-feira, 10 de maio de 2013

Big Data ou Big Brother?

Estava lendo hoje o relatório Big Data, Big Impact: New Possibilities for International Development, publicado em 2012 pelo Fórum Econômico Mundial, de Davos.

Nele, argumenta-se que os dados provenientes de telefones celulares tem interesse especial, porque, para muitas pessoas de baixa renda, esta é a sua única forma de tecnologia interativa e, ao mesmo tempo, com ela é mais fácil de identificar os indivíduos aos dados. Com isso, esses dados poderiam pintar um quadro sobre as necessidades e comportamentos dos usuários individuais, em vez de simplesmente sobre a população como um todo.

Esse documento cita também uma pesquisa, segundo a qual, quando os operadores de telefonia móvel observam uma redução do tempo de antena em uma determinada região, isso tende a indicar uma perda de renda nessa população muito antes que essa informação apareça nos indicadores oficiais.

Em outra pesquisa citada, conversas relacionadas com a alimentação no Twitter não só mostraram correlações muito fortes com a inflação dos preços dos alimentos, como puderam indicar onde e como as pessoas já estavam mudando seu comportamento em função disso.

Segundo Kikpatric, no auge da crise financeira global de 2009, o Secretário-Geral das Nações Unidas criou a iniciativa Global Pulse, como um laboratório de pesquisa de desenvolvimento, para descobrir se o Big Data e sua análise em tempo real poderiam ajudar a tornar a formulação de políticas mais ágil e eficaz.

O relatório Big Data afirma que a Global Pulse está se envolvendo ativamente no que seu diretor, Robert Kirkpatrick, chama de ‘filantropia de dados’, onde empresas parceiras são incentivadas a compartilhar dados anonimizados para uso do setor público para proteger as populações vulneráveis.

Confesso que me assustei um pouco com a conclusão do relatório:

"Apesar dos desafios [da falta de especialistas e resistência das empresas em compartilhar os dados] e riscos [com privacidade e segurança], as oportunidades disponíveis para melhor servir as pessoas nos mercados emergentes devem compensar esses riscos" [grifo meu].

E mais ainda quando li que Kikrpatric afirma que

"Big Data é uma matéria prima pública, e devemos trabalhar juntos para encontrar maneiras de aproveitá-la para um massivo impacto social, tanto de forma segura quanto responsável. Para que isso aconteça, a ‘filantropia de dados’ tem que se tornar uma prioridade do setor privado" [grifo meu].

Ou seja, devemos permitir -- compulsoriamente até, se for o caso -- a abertura de nossos dados pessoais de identificação e comunicação, abrir mão da nossa privacidade e segurança, porque 'eles', o Grande Irmão, garantem que vai ser bom para todos nós!



Veja também meu post O que a Ciência pode aprender com o Google?

sexta-feira, 26 de abril de 2013

O que a Ciência pode aprender com o Google?

Desde os tempos de Francis Bacon que a Ciência segue o proclamado método científico: um fenômeno chama a atenção de um cientista que formula uma teoria, uma tentativa de explicação desse fenômeno, dessa teoria, deriva hipóteses e previsões que podem ser testadas experimentalmente; caso os resultados sejam satisfatórios, a teoria é considerada uma boa explicação do fenômeno numa relação causal, ou seja, tais e quais fatores, intervindo numa certa relação, causam o fenômeno.

O Google, a gigante das pesquisas na web, tem seu grande trunfo em descobrir quais as 'melhores' páginas para cada determinado assunto; e faz bilhões de dólares com seus acertos. No entanto, o Google é como um papagaio que repete palavras sem saber seu significado: a máquina por trás dessa pesquisa não tem recursos de análise semântica, isto é, não faz a menor ideia do significado do texto da página, e também não faz análise causal do porquê seus utilizadores preferem uma página do que outra. Usando uma simples estatística, o Google simplesmente atribui um grau maior de relevância nas listas de resultados às páginas mais visitadas e com maior tempo de permanência do leitor. É dessa mesma maneira que o Google consegue traduzir Klingon para Farsi quase tão bem quanto francês para alemão, sem realmente "conhecer" nenhum desses idiomas.

Só hoje li o interessante artigo The End of Theory: The Data Deluge Makes the Scientific Method Obsolete (O Fim da Teoria: O Dilúvio de dados torna o método científico obsoleto) na Wired, onde Chris Anderson, editor chefe da revista, argumenta que, na nossa atual era de petabytes de informação, aquela clássica abordagem - hipótese, modelo, teste - está se tornando obsoleta.

Agora que podemos analisar amostras imensas, quando não o próprio universo de dados, a tendência seria cada se vez mais se fazer Ciência à maneira do Google: as correlações aí observadas adquiririam validade por si só e poderiam dispensar causalidades, modelos coerentes, teorias unificadas ou qualquer explicação mecanicista de todo!

Segundo o autor, seria a hora de perguntar: o que a Ciência pode aprender com o Google?

Veja também meu post Em tempos de Big Data, grande educação?

Já é tempo da Física reconhecer que o tempo é real.


Embora todos estejamos bem conscientes da passagem do tempo, o conceito de tempo nunca foi bem explicado pela Ciência.

Alguns físicos chegam a afirmar que o tempo é uma ilusão da nossa mente.

Uma das características mais marcantes do tempo é a de que podemos recordar os eventos passados mas, salvo as alegações de alguns gurus e videntes, não conseguimos aceder aos eventos futuros.

Isso é o que se chama de irreversibilidade do tempo: as frutas amadurecem e se estragam, nós envelhecemos, etc.; nunca vemos algo assim acontecer na sequência inversa.

No entanto, o misterioso nisso é que as equações que descrevem muitos desses fenômenos são simétricas com relação à variável tempo, isto é, descreveriam igualmente bem os fenômenos inversos.

Estava lendo hoje o interessante artigo de opinião It's time physics recognised that time is real (Já é tempo da Física reconhecer que o tempo é real) na New Scientist desta semana, no qual o físico Lee Smolin, do Instituto Perimeter, Canadá, descreve seu trabalho, juntamente com o filósofo brasileiro Roberto Mangabeira Unger da Universidade de Harward e a cosmóloga Marina Cortês da Universidade de Edinburgo, na visão de que "as leis físicas verdadeiramente fundamentais são temporalmente assimétricas, tornando a irreversibilidade do tempo uma condição fundamental do universo".

Uma das vantagens desta abordagem é que ela não só teria a capacidade de explicar fatos básicos sobre o nosso universo que de outra forma parecem ser inexplicáveis, como o faria de maneiras testáveis ​​por experimentação.

Isso tornaria o tempo realmente real.

segunda-feira, 22 de abril de 2013

em tempos de Big Data, grande educação?

No mesmo dia em que li a notícia na Folha de São Paulo de que as duas maiores companhias de ensino privado do país, a Kroton e a Anhanguera Educacional, vão se unir para criar um gigante no ensino privado, li também, um post no blog Research Google, da gigante das buscas, que estão disponibilizando um curso sobre pesquisas avançadas em forma de “MOOC” (Massive Open Online Course, isto é, curso aberto online massivo) para dezenas de milhares de alunos em cada classe!

Estamos no tempo do Big Data, mas será que nos encaminhamos para uma grande Educação?

A problemática produção científica brasileira

Três matérias na seção Ciência do jornal Folha de São Paulo de hoje discutem a problemática produção científica brasileira.

São eles:
Não é de hoje que se comenta que a produção científica brasileira é produzida para 'fazer volume', cumprir metas de produção para garantir a continuidade de financiamentos, voltada para o público interno, predominantemente em português, com pouco impacto na comunidade científica internacional, etc.

Infelizmente, muitos pesquisadores ainda reclamam que não sabem inglês suficiente para uma publicação internacional, que ficam muito caras as traduções, que as publicações estrangeiras tem 'preconceito' com autores de terceiro mundo, etc.

Por outro lado, veem com temor a possibilidade de se consolidar o terrível Fator de Impacto como parâmetro de avaliação da 'importância' de um periódico científico e da 'qualidade' de um artigo.

Mas, enquanto parte dessa comunidade recua apavorada e barulhenta, outra parte se profissionaliza e conquista reconhecimento e espaço mundiais.

É sua escolha de qual delas quer fazer parte.