Você é o que você gosta

O que suas ações nas mídias sociais dizem sobre você.

Na sexta-feira, o Facebook baniu a Cambridge Analytica (CA). Temos falado sobre o papel que a abordagem de publicidade exclusiva da CA desempenhou nas eleições presidenciais de 2016, logo após a eleição. Essa proibição muito mais recente ocorreu devido a uma violação do protocolo de gerenciamento de dados (que abrange amplamente como os dados são obtidos, transferidos e armazenados) – NÃO devido à maneira como esses dados foram usados. Um pesquisador acadêmico (Aleksandr Kogan) obteve os dados pedindo aos usuários que optassem por um aplicativo projetado para estimar as personalidades dos usuários de seus padrões de comportamento no Facebook. O problema começou quando o Dr. Kogan escolheu fornecer os dados para outra pessoa. A CA foi banida do Facebook não porque acessou e usou os dados, mas porque não passou pelos canais apropriados para fazê-lo. O Facebook descobriu a quebra no protocolo de gerenciamento de dados e solicitou que a CA excluísse os dados. A CA concordou, mas, em seguida, o Facebook descobriu de um denunciante que eles haviam mentido, e agora a CA é banida.

Blogtrepreneur/flickr

Fonte: Blogtrepreneur / Flickr

Mas o que está recebendo mais atenção é como esses dados foram usados. Até que ponto os comportamentos on-line aparentemente inócuos podem ser usados ​​para prever as características dos usuários é chocante para a maioria das pessoas. Essa previsão e segmentação ocorrem todos os dias, sempre que você se envolver em um comportamento que possa ser vinculado à sua identidade (on-line, através de perfis de mídia social que rastreiam pessoas em sites comparando endereços de e-mail ou cookies de sites ou no mundo real). compras feitas em diferentes lojas, usando cartões bancários e de crédito diferentes, combinadas por agências de relatórios de crédito). A maior parte dessa previsão acontece em segundo plano, com os consumidores raramente pensando nisso, e o consentimento para a coleta e o uso de dados existe nas letras miúdas dos acordos de usuários que a maioria de nós clica sem pensar.

O que seus gostos dizem sobre você

Compreendemos facilmente que algo como orientação política pode ser adivinhado ao ver que uma pessoa gosta ou segue certos políticos ou organizações. Se um pesquisador inferisse orientação política por políticos que uma pessoa apoia, nós chamaríamos isso de dados válidos . Ou seja, a medida (apoiada pelos políticos) está claramente relacionada à coisa que estamos tentando prever (orientação política).

O que é menos intuitivo é que a maioria – se não todos – de seus atributos pessoais pode ser adivinhada (mesmo que imperfeitamente) por qualquer informação que seja conhecida sobre você. As medidas não precisam ser válidas para fornecer estimativas precisas. Se pudermos estabelecer que uma coisa está consistentemente relacionada a outra, não importa se essa ligação é óbvia ou causal. Tudo o que importa é que o link existe e agora podemos usá-lo para fazer previsões. Isso é comumente chamado de abordagem empírica, ou ascendente, ou baseada em dados, para a medição. Juntar muitas dessas informações fracas (mas diferentes de zero) nos permite fazer inferências válidas. Este é um exemplo do princípio de agregação : mais dados são sempre melhores, mesmo que alguns ou todos os dados sejam de baixa qualidade. Naturalmente, você precisa de dados menos de alta qualidade para obter a mesma precisão de previsão; mas se dados de alta qualidade podem ser suspeitos (por exemplo, preocupações sobre mentir em medidas diretas, válidas para o rosto) ou apenas flat out não estão disponíveis (por exemplo, medidas detalhadas de milhões de usuários de internet), muitos Os dados de qualidade funcionam bem.

Um artigo de alguns anos atrás, liderado por Michal Kosinski (bem resumido por Stephen Colbert), demonstrou como tais medidas não válidas para a face poderiam ser construídas a partir de gostos do Facebook. Usando um computador para testar todas as combinações possíveis de cada um, como prever cada traço de personalidade ou resultado demográfico, os pesquisadores conseguiram estimar com eficiência a personalidade, a orientação sexual, a afiliação política e muito mais dos usuários. Uma vez que esses algoritmos são desenvolvidos em um grupo de pessoas em que os pesquisadores sabem o status real dos resultados em que estão interessados ​​(muitas vezes chamados de amostra de treinamento ou desenvolvimento), eles podem ser aplicados a pessoas novas em que os resultados são desconhecidos. Você pode experimentá-lo usando seus próprios dados do Facebook ou do Twitter. (Este site não é afiliado com o pesquisador implicado no escândalo da CA, e não há razão para suspeitar que essas pessoas fizeram ou farão qualquer coisa desfavorável com suas informações; mas ainda consideram que sempre que você der a alguém acesso aos seus dados, eles têm dados.)

Executar o meu perfil no Facebook através do algoritmo de previsão mostra com precisão que sou feminina (uma das minhas principais previsões: gostar de Vin Diesel), competitiva (porque gosto da Sephora) e muito inteligente (com a qual eu concordo; porque gosto Will Smith). Mas não é perfeito. O algoritmo adivinha incorretamente que eu sou infeliz (eu juro que não sou; porque eu gosto de Rob Zombie). Também é interessante como essa abordagem leva a que os mesmos indicadores sejam usados ​​para informar múltiplos traços: minha preferência pela Starbucks e por Barack Obama aparece como fator contribuinte em quase todas as previsões sobre mim. O objetivo desses algoritmos não é a previsão perfeita para cada pessoa, no entanto. Trata-se de coletar e usar dados em grande escala, para que, em média, anúncios políticos e corporativos possam ser direcionados com mais eficiência (economizando dinheiro e maximizando o impacto) e, do ponto de vista acadêmico / científico, economizemos tempo dos participantes Fazendo-lhes centenas de perguntas que poderiam ser estimadas a partir de seus dados existentes, desde que eles estejam dispostos a compartilhá-las.

Referências

Kosinski, Stillwell, & Graepel (2013). Traços e atributos privados são previsíveis a partir de registros digitais do comportamento humano. Anais da Academia Nacional de Ciências.