Um Novo Tipo de Clarivoyance

Um pai entrou em uma loja Target perto de Minneapolis alguns anos atrás, agarrando um punhado de cupons que Target enviou a sua filha adolescente, promovendo roupas de bebê, roupas de maternidade e berços. "Você está tentando encorajar [minha filha] a engravidar?", O homem reclamou do gerente.

De acordo com um relatório de Charles Duhigg do New York Times , o gerente do Target pediu desculpas pelo erro embaraçoso no local, e até mesmo chamou o homem a se desculpar pela segunda vez. Havia apenas um problema: Target não estava com erro depois de tudo. A rapariga em questão, sem o conhecimento de seus pais, estava gravida.

O grupo de marketing da Target intuiu que a garota estava esperando porque seus padrões de compra mudaram recentemente de maneiras que predisseram – com base na análise Big Data de Target – que ela estava entrando em seu segundo trimestre. A análise de dados do alvo descobriu, por exemplo, que as mulheres que mudam abruptamente da compra de loções perfumadas para não perfumadas costumam grávidas de quatro meses (as mulheres grávidas geralmente não gostam de cheiros fortes). Assim, o Target começou a enviar cupons a essas mulheres, promovendo todas as coisas que eles precisariam quando eles deram à luz.

Mesmo, como no caso de Minnesota, para as mulheres que ainda eram legalmente crianças.

Além de servir como um relato cauteloso sobre o uso de novas tecnologias sem pensar nas implicações, a história do Target ilustra dois conceitos importantes sobre o comportamento humano.

Primeiro, um comportamento (loções de comutação) pode prever de forma confiável outro, ação posterior (parto). Outro exemplo, descrito em um artigo de 2013 na revista Nature , mostrou que o volume de pesquisas na internet para o termo "dívida" proporcionou uma previsão estatisticamente significativa de recessões a curto prazo nos preços das ações.

O gráfico abaixo compara o volume das visualizações de páginas da Wikipedia do termo "dívida" com a Dow Jones Industrial Average. O interesse da pesquisa na Wikipedia em "dívida" realmente tem algumas previsões de previsão do valor das recessões do mercado. Aqui, o comportamento de busca na internet previu o comportamento de venda no mercado de ações. (Talvez as pessoas preocupadas com a dívida busquem o termo antes de vender ações para pagar.)

Eric Haseltine/Wikipedia
Fonte: Eric Haseltine / Wikipedia

Este exemplo ilustra a segunda lição importante decorrente da experiência de loção perfumada do Target: muito alto "N" (grande número de amostras), através do poder das estatísticas inferenciais, pode revelar relações sutis, mas consistentes, entre um comportamento humano e outro. A análise da "dívida" apresentada acaba de mais de 200 mil visualizações de páginas da Wikipédia.

Uma maneira de pensar sobre as previsões de "Big-Data" derivadas da web é que a internet, juntamente com redes privadas de dados semelhantes aos da Target, instrumentaram completamente a espécie humana, fornecendo métricas e percepções sobre comportamentos em uma escala sem precedentes. Por exemplo, além das reservas maciças de dados privados acumulados por Target, Walmart, Amazon, Google e outros, quase 3,5 bilhões de pessoas agora usam a Web, deixando uma variedade de registros de seu uso para análise de dados grandes.

Um exemplo recente intrigante do poder que o Big Data colocou nas mãos de cientistas comportamentais está no campo da ciência política. Muito foi feito recentemente dos erros de pesquisa que produziram tanta surpresa na vitória eleitoral do presidente Trump. Mas para aqueles com os narizes enterrados em Big Data, a eleição não foi nenhuma surpresa.

Observe o relacionamento entre o volume de buscas do Google (e para 2016, páginas da Wikipédia) para os candidatos presidenciais antes das eleições em 2004, 2008, 2012 e 2016, e os eventuais vencedores de cada eleição.

Eric Haseltine/Google Trends/Wikipedia
Fonte: Eric Haseltine / Google Trends / Wikipedia

Em todas as quatro eleições, o vencedor no interesse da pesquisa na internet antes das eleições (pessoas que buscavam um candidato ou verificando-as na Wikipédia) também foi o vencedor da eleição. Presumivelmente, o nível de curiosidade dos eleitores em relação a um candidato está ligado à sua probabilidade de votar por esse candidato.

É importante observar, neste ponto, que as correlações Big Data estão longe de serem perfeitas. Em seu livro Spurious Correlations , Tyler Vigen, graduado da Harvard Law School e consultor de gestão, ilustra uma verdade profunda sobre estatísticas: a correlação não provou causalidade.

Por exemplo, Vigen mostra que existe uma correlação quase perfeita entre o consumo de margarina per capita e a taxa de divórcio no Maine. No entanto, alguns argumentariam que o consumo de margarina causa o divórcio, ou vice-versa.

Fonte: Tyler Vigen

Com um "N" extremamente elevado de fontes de dados (literalmente, bilhões de bancos de dados diferentes acessíveis apenas na Web), correções aleatórias como esta não estão destinadas a acontecer, elas certamente acontecerão.

Outras correlações "espúrias" que Vigen descobriu incluem:

  • Consumo de queijo per capita e o número de pessoas que morrem ficando enroladas em seus lençóis (um surpreendente 600+ por ano).
  • Pessoas que se afogaram depois de cair de um barco de pesca e casamentos em Kentucky.
  • Número de letras na palavra vencedora no Scripps National Spelling Bee e o número de mortes por picadas de aranha venenosa.

Uma das correlações espúrias de Vigen que me interessou foi o forte vínculo entre as vendas de carros japoneses na América e os suicídios por automóveis nos EUA.

Tyler Vigen
Fonte: Tyler Vigen

No seu rosto, essa correlação de vendas / suicídios de 93,5 por cento parece ser o tipo de artefato que você esperaria quando "mergulhar" um padrão de séries temporais individuais (por exemplo, vendas de carros anuais) em um oceano de dados contendo tudo, desde suicídios até consumo de queijo para a taxa de casamento anual em Kentucky – algo nesse oceano de dados está vinculado, por chance aleatória, para combinar esse padrão.

Mas a história da ciência é rica com exemplos de descobertas aleatórias que, a primeira vista, não faziam sentido. Forte evidência para o big bang apareceu pela primeira vez como "ruído" inexplicado em um receptor de telecomunicações. A prova da teoria de Einstein sobre a relatividade geral foi finalmente encontrada em uma estranha anomalia no tempo do ponto distante (perihelio) da órbita de Mercúrio ao redor do sol. A penicilina foi descoberta quando Fleming observou um ponto morto inesperado em uma placa de Petri de bactérias.

Assim como a lei de grandes números determina que a análise "Big Data" descobre uma infinidade de correlações aleatórias, a mesma lei também determina que, ocasionalmente, a observação aleatória descobrirá resultados inesperados – como um ponto morto em uma placa de Petri – que merecem uma olhar mais de perto.

Tendo trabalhado em uma empresa automobilística americana durante o período de ascensão japonesa nas vendas de automóveis, ocorreu-me que a correlação de vendas de carro / suicídio de carro pode não ser tão aleatória depois de tudo. Por um lado, o aumento das vendas de carros japoneses ocorreu à medida que as vendas de automóveis da marca americana diminuíram, potencialmente desencadeando a depressão em uma força de trabalho demorada americana.

Para explorar essa possibilidade, comparei as vendas de carros da marca americana (linha azul abaixo) ao longo do mesmo período de análise da Vigen. A comparação sugere uma ligação plausível entre o volume de vendas de carros japoneses e os suicídios dos EUA.

Tyler Vigen/USDT/Eric Haseltine
Fonte: Tyler Vigen / USDT / Eric Haseltine

Quando as vendas de carros de marca americanos aumentaram em relação às vendas de carros japoneses de 2000 a 2001, os suicídios de carro na América diminuíram cerca de um ano depois. Quando as vendas de automóveis americanos começaram a diminuir em 2001, os suicídios americanos por carro subiram um ano depois, em 2002. Um ano depois, as vendas de automóveis da marca americana começaram um declínio acentuado em 2005, os suicídios relacionados a carros deram um salto acentuado.

Uma das possíveis razões para que os suicídios de carros na América aumentassem após uma desaceleração nas vendas de carros americanos é que tais desacelerações colocam as pessoas fora do trabalho na indústria automotiva e as milhares de empresas que dependem da indústria. Um artigo recente no American Journal of Preventative Medicine descobriu que as recessões econômicas provavelmente aumentarão os suicídios. Drs. Webb e Kapur, escrevendo na Lancet Psychiatry , mostraram que mais de 40 mil suicídios por ano estavam associados ao desemprego global em 2006 e 2007 e que a recessão de 2008 foi responsável por mais 4,000 suicídios naquele ano.

No gráfico abaixo, a linha marrom no fundo representa o emprego total dos EUA no setor automotivo. Os empregos dos EUA realmente se evaporaram à medida que as vendas de carros japoneses aumentaram.

Tyler Vigen/USDT/Eric Haseltine
Fonte: Tyler Vigen / USDT / Eric Haseltine

Finalmente, os dados do CDC indicam que durante o declínio de 10 anos nas vendas de automóveis da marca norte-americana, a taxa de suicídio na América (linha verde abaixo) aumentou de forma constante.

Tyler Vigen/USDT/USDL/CDC/Eric Haseltine
Fonte: Tyler Vigen / USDT / USDL / CDC / Eric Haseltine

Apesar da possibilidade de uma conexão real entre as vendas de carros japoneses e os suicídios por automóveis nos EUA, o forte declínio nos suicídios de carros em 2009, quando também houve grandes quedas no emprego na indústria automobilística e nas vendas de automóveis japoneses, sugere que a relação entre o carro vendas, desemprego e suicídio por carro não é simples.

Vale ressaltar que o número de suicídios por carro a cada ano (cerca de 100) pode ser muito pequeno para tirar conclusões firmes sobre os vínculos com o desemprego, as vendas de carros ou qualquer outra coisa.

Além disso, a dificuldade de determinar se um acidente de carro determinado realmente foi um suicídio mais nuvens a imagem. Dado que a taxa de suicídio dos EUA aumentou em 2009, enquanto os suicídios relatados por automóveis caíram precipitadamente, a confiabilidade do suicídio por estatísticas de automóveis é suspeita. Estudos de Phillips e colegas que mostram um aumento nas mortes de trânsito alguns dias após os suicídios bem divulgados sugerem fortemente que os suicídios pelo carro, especialmente os suicídios de "cópias" que seguem rapidamente os relatórios de suicídios de mídia de massa, são significativamente subestimados.

Apesar de todas estas advertências, a história de vendas / suicídios do carro vale a pena prestar atenção, porque nos ensina a não descartar correções inesperadas de Big Data.

Quando você parar de pensar sobre isso, descobertas inesperadas – como a descoberta da penicilina – têm um enorme potencial para serem trocadores de jogos, precisamente porque não se encaixam na nossa compreensão atual do mundo. Então, quando tropeçamos com o inesperado, temos a oportunidade de mudar radicalmente nossa compreensão da natureza … e de nós mesmos.

Nesse espírito, aqui está algo inesperado sobre as perspectivas econômicas futuras para a América. No gráfico abaixo, a linha azul mostra o Produto Interno Bruto dos EUA (PIB, um índice de produção econômica) ao longo dos últimos 12 anos, enquanto a linha vermelha irregular representa o volume de buscas do Google para "Feliz aniversário tardio". Eu tenho atrasado propositalmente os dados do PIB 6 meses atrás do "Aniversário" buscam mostrar que existe uma correlação muito alta (0,96) entre o PIB e as pessoas "Aniversário tardio feliz" 6 meses antes (há uma correlação tão alta com "Happy Belated" e "Feliz aniversário feliz").

Google Correlate
Fonte: Google Correlation

Em outras palavras, para este conjunto de dados pelo menos, o volume de pesquisas relacionadas com saudações de aniversário (provavelmente pessoas que procuram saudações de aniversário on-line) é um forte preditor principal de produção de US $ 6 meses.

Essa correlação é espúria, como a conexão entre os afogamentos de barcos de pesca e os casamentos no Kentucky, ou é substantivo? A intuição diz que a correlação é falsa.

Ramon Espelt Photography/Shutterstock
Fonte: Ramon Espelt Photography / Shutterstock

Mas eu posso pensar em maneiras que o link pode ser significativo. Por exemplo, quando as pessoas são consumidas com preocupação em ser demitidas nos próximos seis meses, eles são menos propensos a levar tempo para enviar cumprimentos de aniversário? Os pesquisadores do Google, em conjunto, saberiam mais de onde a economia está indo do que os economistas? E essa percepção pode aparecer em mudanças no comportamento de pesquisa do Google bem antes das estatísticas econômicas?

Vale a pena ponderar … especialmente dado que (veja a parte direita do gráfico) as buscas para "Feliz aniversário tardio" recentemente fizeram um mergulho muito íngreme.