Dados pequenos

Vamos reverter nossa estratégia de coleta de dados.

Atualmente, o movimento de Big Data continua a ganhar ímpeto: aproveite todas as fontes de dados disponíveis para nós por meio de dispositivos móveis, sensores aéreos e remotos, câmeras, microfones, redes de sensores sem fio e similares. Os dados estão lá, apenas esperando para serem colhidos, a fim de detectar tendências e encontrar correlações. O enorme volume de dados nos obriga a usar várias formas de pesquisa e análise baseadas em computador, incluindo Machine Learning. A abordagem do Big Data é empolgante, pois nos permite considerar grandes quantidades de informações. A abordagem Big Data também é inquietante à medida que encaramos nossa insignificância e admitimos que os algoritmos e as máquinas inteligentes sabem muito mais do que podemos.

Anteriormente, descrevi algumas razões para ficar desconfortável com o Big Data, a maneira como a análise de Big Data seguirá as tendências existentes, mas perderá mudanças sutis, mas importantes, na situação que tornam essas tendências obsoletas. Esse ensaio também levantou a questão dos dados perdidos. As pessoas às vezes percebem que algo NÃO aconteceu, e a ausência de um evento nos ajuda a entender a situação. O Big Data geralmente abrange eventos que aconteceram e ignora eventos que não ocorreram, embora essas não ocorrências possam ser significativas.

Este ensaio, no entanto, não é sobre limitações em Big Data.

Em vez disso, quero sugerir que nos movamos na direção oposta: tentando coletar o mínimo possível de dados, idealmente, apenas um único ponto de dados, mas um ponto de dados que gere uma decisão. Em vez de se afogar na sobrecarga de dados, há momentos em que a observação correta colocará pontos de vista ambíguos em foco.

Aqui estão alguns exemplos.

1. (Este exemplo vem de Trevor Hadley, ex-analista do governo dos EUA). Em 2015, a CIA estava tentando decidir se a Rússia e a China realizariam exercícios navais conjuntos no Mar Mediterrâneo. Não houve declarações oficiais. As tendências não eram claras, a evidência era inconclusiva. Então, um analista de fora, um super-chefe, imaginou o que seria necessário para reabastecer uma flotilha chinesa e começou a caçar por meio de pedidos de compra on-line de empresas que vendem navios em Chipre. Ele encontrou novas encomendas, enormes encomendas, para arroz e macarrão, onde nenhuma existia anteriormente. Só por segurança, ele também investigou os avisos da Guarda Costeira local para os navegantes e descobriu evidências corroborantes. Mas foi o arroz e macarrão que fez o truque. Caso encerrado.

2. (Este exemplo também vem de Trevor Hadley.) Em 2011, os franceses pretendiam intervir na guerra civil na Líbia? Os franceses negaram que estivessem mesmo considerando tal intervenção, mas a comunidade de inteligência havia aprendido a não levar a sério tais negações. Havia razões para esperar que os franceses interviessem. Tentativas de fazer uma previsão falharam. Um mercado de previsão não ajudava. Em seguida, um analista de inteligência identificou uma declaração obscura em uma diretriz da função pública francesa, um memorando propondo modificações nos regulamentos de seguro de vida para membros das forças armadas francesas, listando os países onde as forças armadas francesas estavam atualmente ativas – incluindo a Líbia! O memorando foi retirado do site em poucos dias e substituído por uma versão que omitia a Líbia, mas já era tarde demais. (Vários meses depois, a presença das forças francesas lutando na Líbia foi confirmada.) Caso encerrado.

3. O governo dos EUA queria prever como o Reino Unido votaria no Brexit. (Assim como muitos, muitos outros países.) Os analistas se debruçaram sobre as pesquisas, procurando por alguma informação que pudesse inclinar a balança, mas os sinais simplesmente não estavam suficientemente claros. Então, um observador observou que os padrões da União Européia exigiriam que as donas de casa britânicas usassem um método diferente para fazer chá. Os bules atuais para ferver a água eram simplesmente muito ineficientes em termos de energia, elevando desnecessariamente a pegada de carbono. A UE precisava de um dispositivo mais eficiente para ferver a água, mas isso levaria cinco vezes mais tempo! Que efeito isso teria em convidar um vizinho para uma chávena rápida? Caso encerrado.

4. Em 1990, a comunidade de inteligência dos EUA estava tentando prever se Saddam Hussein realmente pretendia invadir o Kuwait. Alguns sentiram que ele estava se preparando para atacar. Outros duvidaram que ele seria tão imprudente. Eles viram seu movimento de 30 mil soldados na fronteira do Iraque com o Kuwait como uma tática de intimidação destinada a intimidar o Kuwait a fazer concessões. Os tipos usuais de evidência não resultaram em nenhum julgamento conclusivo. Os egípcios acreditavam que haveria uma solução pacífica das queixas de Saddam Hussein contra o Kuwait. O mesmo fez o embaixador dos EUA no Iraque. E assim fizeram os kuwaitianos – mesmo depois de o Iraque ter colocado todas aquelas tropas em sua fronteira, o Kuwait não mobilizou seu exército de 18.000 soldados e permitiu que muitos saíssem de licença. O que Saddam Hussein iria fazer? Um analista de inteligência dos EUA, trabalhando no Departamento de Energia, observou que os militares iraquianos haviam requisitado mais de 10 mil caminhões civis. A remoção de todos esses caminhões teria efeitos paralisantes na economia iraquiana, interrompendo todos os tipos de atividades comerciais. E este comando de caminhão foi mantido em segredo – não tinha sido anunciado publicamente. Não podia intimidar os kuwaitianos porque eles não tinham ideia de que tinham sido feitos. Por que Saddam Hussein faria tal coisa a menos que de repente decidisse que precisava dos caminhões para uma ação militar? Caso encerrado.

5. O problema de aceleração de fuga da Toyota. Este problema fez com que a Toyota acelerasse de forma incontrolável, apesar dos esforços frenéticos do piloto para pressionar o freio e desacelerar o carro. O caso recebeu atenção nacional. Alguns achavam que o problema resultava de tapetes grossos que prendiam o pedal do acelerador, mas o defeito principal parecia ser uma falha no software. A Toyotas contém mais de cem milhões de linhas de código, portanto, alguns bugs de software parecem inevitáveis. Centenas de casos de aceleração fugitiva foram convocados. A Toyota foi forçada a pagar bilhões de dólares em multas e assentamentos. No entanto, a comunidade de fatores humanos teve um diagnóstico diferente: os motoristas estavam erroneamente pressionando o pedal do acelerador, achando que era o pedal do freio. Quando o carro acelerou em vez de desacelerar, os motoristas perceberam que os freios haviam falhado e que a aceleração não era intencional e incontrolável. Os pilotos pressionaram naturalmente o pedal com mais força e mais, acreditando que era o freio, apenas para ver a aceleração piorar. Não há uma maneira fácil de provar essa explicação, com muitos debates de ida e volta sobre os dados. Mas acontece que existem dois argumentos matadores. Uma delas é que, examinando as caixas pretas nos automóveis, os investigadores descobriram que o pedal do freio não estava deprimido nos casos de aceleração descontrolada. O segundo argumento matador vem de um podcast de Malcolm Gladwell na primeira temporada de sua série Revisionist History. Gladwell providenciou para que a revista Car & Driver pusesse um Toyota Camry na pista de testes. Os motoristas treinados esmagaram o pedal do acelerador até o chão e, então, com o pedal do acelerador ainda amassado no chão, pisaram no freio. O carro parou. Julgamento após o julgamento, o carro parou. Sem problemas, sem gritaria, sem fumaça. Os freios facilmente dominaram o acelerador. Não há necessidade de rever as estatísticas. Não há necessidade de rever as centenas de milhões de linhas de código. Caso encerrado.

Esses exemplos sugerem que menos é mais. Que a qualidade da informação é mais importante que a quantidade.

O termo “Small Data” é usado de várias maneiras diferentes nos dias de hoje. Existe até um livro de pesquisa de marketing de Martin Lindstrom, Small Data: As pequenas pistas que revelam grandes tendências . E uma entrada da Wikipedia. Aqui estão alguns atributos que identifiquei em relação a Small Data.

Primeiro, a maioria das referências contrastam Small Data to Big Data afirmando que Small Data é uma conexão pessoal com uma quantidade limitada de informações, enquanto Big Data é sobre a necessidade de máquinas inteligentes separarem o volume de todos os tipos de sinais disponíveis. .

Em segundo lugar, Big Data é basicamente sobre correlações, enquanto Small Data é sobre relações causais.

Terceiro, a conexão pessoal promovida pelo Small Data depende do envolvimento da experiência e experiência de uma pessoa.

Em quarto lugar, a abordagem de pequenos dados destina-se a promover percepções (ver Klein, 2013) e a transformar as mentalidades. Bonde explica isso explicitamente, que Small Data tem a intenção de nos ajudar a obter insights que possamos colocar em prática.

Quinto, quase todo mundo concorda que Big Data e Small Data não são mutuamente exclusivos ou em competição. Nós podemos usar ambas as abordagens.

Em sexto lugar, há uma divergência sobre como procurar itens significativos de Small Data. Alguns sugerem que devemos começar com Big Data e depois reduzir a saída, criando logs e outros artefatos. Não estou entusiasmado com essa estratégia. Em vez disso, acho que o poder do Small Data surge quando usamos nossos modelos mentais para perceber ou encontrar as informações críticas. Os cinco exemplos neste ensaio ilustram a descoberta hábil de dados críticos, em vez de condensar a saída de um exercício de Big Data.

Em sétimo lugar, há momentos em que podemos apoiar os tomadores de decisão selecionando alguns casos representativos de uma população muito maior e, em seguida, dar detalhes sobre esses casos. Por exemplo, se um político está ponderando como um aumento no preço da gasolina afetará pessoas de baixa renda, pode ser útil definir três indivíduos específicos, diz um homem idoso de renda fixa que usa transporte público, uma mãe solteira entre dois ou três empregos, e um aposentado voluntário com um grupo da igreja para levar os fiéis a vários eventos sociais, médicos e relacionados ao bem-estar.

Oitavo, é preciso conhecimento para perceber os pontos críticos de dados quando os encontramos. São necessários modelos mentais razoavelmente sofisticados para avaliar como o ponto de dados pode ser colocado em prática – para ver o que ele nos proporciona.

Um risco da abordagem de Small Data é que ela pode ser mal utilizada para selecionar exemplos e anedotas que transmitem uma impressão enganosa. Portanto, a abordagem de dados pequenos deve ser usada no contexto das evidências existentes. A abordagem de dados pequenos não elimina a obrigação dos analistas de pesquisar as variáveis ​​relevantes. Escrevi “Caso encerrado” no final de cada um dos cinco exemplos, mas na verdade os pesquisadores procuraram apropriadamente dados adicionais para confirmar ou não as suas especulações. A abordagem de pequenos dados, no entanto, pode reduzir a tendência de acumular mais e mais dados apenas para satisfazer necessidades compulsivas de completude. A abordagem de dados pequenos valoriza a significância dos dados sobre sua acumulação.

Os exemplos deste ensaio sugerem que devemos reformular nossos esforços para coletar informações. Em vez de aspirar todas as informações disponíveis, podemos fazer bem em direcionar nossa coleta de informações para o sensemaking e a descoberta. Podemos procurar pistas realmente diagnósticas, anomalias e dados perdidos – eventos esperados que não aconteceram. Podemos estar à procura de “diferenças que fazem a diferença”.

Referências

Martin Lindstrom, Small Data: As pequenas pistas que revelam grandes tendências. Nova Iorque: St. Marten’s Press.

Klein, G. (2013). Vendo o que os outros não sabem: as maneiras notáveis ​​de obter insights . Nova Iorque: PublicAffairs.