Contornos - Educação e Pesquisa: Controle corporativo de dados compromete pesquisas na era da web

segunda-feira, 5 de novembro de 2012

Controle corporativo de dados compromete pesquisas na era da web



Este é um artigo publicado originalmente no jornal New York Times em maio de 2012 (clique aqui para ver o artigo, em inglês). Utilizei-o no meu TCC para tratar sobre a posse de dados primários de pesquisas que envolvam dados de usuários de redes sociais. Esses dados acabam sendo propriedade de empresas (Facebook, Google etc) as quais produzem pesquisas com base nesses dados, porém não admitem disponibilizá-los para a comunidade científica. Para diversos cientistas, esses dados privados estariam ameaçando os próprios fundamentos da pesquisa científica.

Quando os cientistas publicam suas pesquisas, eles também disponibilizam os dados subjacentes para que os resultados possam ser verificados por outros cientistas. É assim, pelo menos, que o sistema deveria funcionar. Mas ultimamente, os cientistas sociais têm se posicionado contra uma exceção que é, fazendo jus ao seu nome, enorme. Trata-se dos "grandes volumes de dados", enormes conjuntos de informações coletadas por pesquisadores de empresas como Facebook, Google e Microsoft a partir de padrões de chamadas de celular, mensagens de texto e cliques na internet registrados por milhões de usuários ao redor do mundo.
As empresas muitas vezes se recusam a tornar públicas essas informações, às vezes por razões de concorrência e às vezes para proteger a privacidade dos clientes. Porém, para muitos cientistas, a prática é um convite à má ciência, ao sigilo e mesmo a possíveis fraudes.
A questão se mostrou candente no mês passado em uma conferência científica realizada em Lyon, na França, quando três cientistas do Google e da Universidade de Cambridge se recusaram a liberar os dados que haviam compilado para um artigo sobre a popularidade dos vídeos do YouTube em diferentes países.
O presidente do painel de conferências ¿ Bernardo A. Huberman, físico que dirige o grupo de computação social no HP Labs, em Palo Alto ¿ reagiu irritado. No futuro, disse ele, a conferência não deveria aceitar trabalhos de autores que não disponibilizassem os seus dados ao público. Ele foi saudado por aplausos da plateia.
Em fevereiro, Huberman tinha publicado uma carta na revista Nature alertando para o fato de que os dados privados estavam ameaçando os próprios fundamentos da pesquisa científica. "Se um outro conjunto de dados não validar os resultados obtidos com os dados privados", perguntou, "como saberemos se é porque eles não são universais ou se é porque os autores cometeram um erro?".
Ele acrescentou que o controle corporativo de dados pode vir a dar acesso preferencial a um grupo de cientistas de elite, provenientes das maiores corporações. "Se essa tendência continuar", escreveu ele, "vamos ver um pequeno grupo de cientistas tendo acesso a repositórios de dados privados e desfrutando de uma atenção injusta da comunidade, em detrimento de pesquisadores igualmente talentosos cuja única falha é a falta das 'conexões' certas a dados privados".
O Facebook e a Microsoft se recusaram a comentar o assunto. Hal Varian, economista-chefe do Google, afirmou simpatizar com a ideia de dados abertos, mas acrescentou que as questões de privacidade eram significativas.
"Essa é uma das razões pelas quais o padrão geral do Google é tentar liberar dados para todos ou para ninguém", disse ele. "Eu tenho trabalhado para incentivar as empresas a divulgarem mais dados sobre suas atividades. A ideia é de que é possível disponibilizar dados proprietários agregados de uma maneira que não coloque ameaças à privacidade."
O debate só deverá se intensificar à medida que as grandes empresas com altos recursos fizerem mais pesquisas sobre seus usuários. "Na era da internet", disse Andreas Weigend, físico e ex-cientista-chefe da Amazon, "a pesquisa saiu das universidades para os Googles, Amazons e Facebooks do mundo".
Contudo, embora os cientistas sociais e de dados estejam de acordo quanto à importância da replicação de resultados experimentais, há menos consenso quanto ao que deve ser feito e como lidar com as preocupações referentes à privacidade.
Nos principais periódicos de ciências sociais, há poucas orientações claras sobre o compartilhamento de dados. "O American Journal of Sociology não dispõe atualmente de uma posição formal sobre os dados proprietários", escreveu seu editor, Andrew Abbott, sociólogo da Universidade de Chicago, por e-mail. "Também não dispõe atualmente de políticas formais que imponham o compartilhamento de dados."
O problema não é limitado às ciências sociais. Uma análise recente mostrou que 44 entre 50 periódicos científicos de renome instruíam seus autores quanto ao compartilhamento de dados, mas que menos de 30% dos trabalhos publicados integralmente por eles respeitavam essas instruções. Uma análise de requisitos de compartilhamento de dados genéticos publicada em 2008 revelou que 40 entre 70 periódicos pesquisados tinham políticas, que eram "fracas" em 17 deles.
A política de compartilhamento de dados da revista Science diz: "Todos os dados necessários para compreender, avaliar e ampliar as conclusões do manuscrito devem estar disponíveis para qualquer leitor da revista Science". Contudo, no caso de um artigo publicado em 2010 com base em dados de padrões de telefonia celular , um acordo legal com o provedor de dados impediu os pesquisadores de revelarem até mesmo o país de origem.
Ginger Pinholster, porta-voz da Associação Americana para o Avanço da Ciência, que publica a revista, reconheceu que a Science, em "raras ocasiões", permite exceções às diretrizes de proteção de privacidade da publicação. "Disponibilizar informações sobre os movimentos em determinados locais" poderia fornecer informações pessoais, disse ela, "e os autores também tiveram que prometer privacidade para obter as informações da companhia telefônica". A revista não destacou a exceção à política quando publicou o artigo.
Da mesma forma, um artigo publicado em abril de 2011 na revista PLoS One afirmou que a pesquisa tinha sido "baseada em registros de 72,4 milhões de chamadas e 17,1 milhões de mensagens de texto acumulados ao longo do período de um mês", mas não identificou quem havia fornecido a informação.
Um dos fundadores do PLoS, Michael Eisen, biólogo celular da Universidade da Califórnia, em Berkeley, e defensor vigoroso da "ciência aberta", pareceu lamentar o ocorrido com o artigo em uma mensagem enviada por e-mail. "É antiético com as normas básicas da ciência fazer afirmações que não podem ser validadas porque os dados necessários são proprietários", escreveu ele.
A questão foi prenunciada em um ensaio publicado em 2009 pela Science, cujos autores incluíam Albert-László Barabási, físico da Universidade Northeastern, que também era um dos autores dos artigos controversos daScience e da PLoS One.
"Talvez os desafios mais espinhosos existam no que diz respeito aos dados, no que diz respeito ao acesso e à privacidade", escreveram eles. Eles chamaram atenção para o fato de que mesmo conjuntos de dados anônimos podem ser imperfeitos, e defenderam a formação de novos modelos de colaboração entre indústria e academia para auxiliar na pesquisa e salvaguardar a privacidade.
No ano passado, a Fundação Nacional de Ciência disse que os pesquisadores que recebem seus financiamentos "deveriam" compartilhar dados com outros pesquisadores. Muitos cientistas concordam que é assim que as coisas deveriam ser.
"A resposta óbvia é que é preciso haver mais acesso aos dados", disse Alex Pentland, diretor do Laboratório de Dinâmica Humana do Instituto de Tecnologia de Massachusetts. "Isso está começando a acontecer, à medida que os governos e a indústria percebem que precisam compreender melhor as potencialidades e os limites dos grandes volumes de dados. Nós, por exemplo, vamos anunciar uma enorme divulgação multinacional de dados sobre telefonia em breve."

Por John Markoff 

Um comentário:

  1. É, Val... Esse assunto merece muito mais atenção do que lhe está sendo dado.

    Aqui na USP, ontem mesmo, nos deparamos com pelo menos três questões que envolvem dados que se tornaram privados por algum motivo, motivos diferentes, situações diferentes, implicações maiores ou menores, mas que necessitam ser resolvidas para que nosso trabalho prossiga.

    Muitas vezes os dados estão disponíveis mas não podem ser utilizados sem autorização, em outras os dados estão totalmente bloqueados e restritos para fins externos.

    Enquanto isso a Ciência tem que progredir, as pesquisas tem que continuar, então acabam indo em direção aos temas de mais fácil acesso. Para quem tem uma noção de Ciências Sociais, sabe que os dados mais restritos em geral são os mais interessantes... E ficamos estucados.

    Rafael

    ResponderExcluir