Pesquisar e analisar PDFs, imagens com texto, documentos escritos à mão e até áudios em português de um jeito fácil e rápido é a promessa do Pinpoint, ferramenta lançada pelo Google em agosto. A Associação Brasileira de Jornalismo Investigativo (Abraji) é a curadora do projeto no Brasil, disponibilizando duas grandes coleções de documentos de interesse público na plataforma. O acesso à plataforma desenvolvida para jornalistas é gratuito.
As duas primeiras coleções oriundas dessa parceria tecnológica trazem documentos da CPI da Pandemia e do inquérito 4.828, que investiga manifestações antidemocráticas. Além de facilitar o acesso a essas informações, a ideia é também permitir que os jornalistas possam usar todas as funcionalidades da ferramenta.
O Pinpoint utiliza o mesmo motor de inteligência artificial da busca do Google para identificar automaticamente nomes de pessoas, locais e até empresas mencionadas nos documentos e nos áudios. Com isso, profissionais de imprensa podem ganhar tempo e eficiência.
→ Coleção sobre a CPI da Pandemia
→ Coleção sobre inquéritos dos atos antidemocráticos
A coleção da CPI da Covid exemplifica como o Pinpoint pode facilitar uma cobertura. A comissão do Senado tornou público milhares de arquivos relacionados à investigação da pandemia. E, talvez, a principal dificuldade dos jornalistas seja encontrar informações relevantes em meio a dezenas de milhares de páginas.
Para conhecer todos os documentos que trazem informações sobre o ex-ministro da Saúde Eduardo Pazuello, por exemplo, basta digitar o nome dele na caixa de buscas do Pinpoint. Ou seja, em fração de segundos a ferramenta do Google retira uma agulha do palheiro.
Na tela do Pinpoint, também é possível filtrar os documentos em um menu, ao lado direito, por nomes de pessoas, empresas e instituições, além de localizações geográficas (cidades, UFs, nomes de rodovias, CEPs etc.). E ainda dá para combinar esses filtros. Depois, ao clicar no documento, o programa abre o arquivo com a informação filtrada em destaque.
Nos documentos da CPI, há ainda vídeos que os senadores receberam. O Pinpoint ainda não é compatível com esse tipo de arquivo, mas a Abraji enviou somente os áudios (MP3) desses materiais. Com isso, a ferramenta transcreve automaticamente as gravações. E o melhor: você pode pesquisar por palavra-chave.
Até 18 de agosto, a comissão já havia recebido 2.187 conjuntos de documentos – sendo que muitos deles têm mais do que apenas um arquivo dentro dos links. É importante frisar que nem todos estarão na coleção da Abraji. Primeiro, porque ainda não subimos todos os arquivos disponíveis. Segundo, porque vários documentos são sigilosos – por envolverem a quebra de sigilo telefônico e bancário de investigados, por exemplo. Por fim, porque nem todos os arquivos são legíveis pelo Pinpoint.
A coleção com documentos sobre a CPI da Pandemia conta, no total, com mais de 2.900 arquivos únicos no Pinpoint da Abraji.
A ferramenta do Google utiliza uma tecnologia chamada OCR (um acrônimo em inglês para Reconhecimento Ótico de Caracteres), que permite a pesquisa por palavra-chave nos seguintes tipos de arquivo:
Alguns desses arquivos, como os de imagem e áudio, são convertidos automaticamente em PDF. Embora o Pinpoint possibilite a pesquisa em planilhas (CSV, XLS etc.), não é possível visualizar o conteúdo desses arquivos dentro da ferramenta. Por isso, é preciso abri-los fora da plataforma.
A CPI foi instalada em 27 de abril, com prazo de três meses de funcionamento. No entanto, foi prorrogada por mais 90 dias. Com isso, os trabalhos devem seguir até o começo de novembro. Dessa maneira, esta coleção da Abraji estará em constante atualização. Até junho, a comissão já havia recebido cerca de 1,5 terabytes de arquivos, o que mostra a dificuldade de analisar todas essas informações rapidamente.
Assim como o Google, o Pinpoint também possibilita o uso de operadores de busca avançada. Por exemplo, você pode usar aspas para pesquisar um termo exato: “tratamento precoce”. Caso esteja buscando por documentos que contenham simultaneamente mais de um termo, use o operador AND (cloroquina AND azitromicina, por exemplo). Para pesquisas em documentos que contenham uma ou outra palavra-chave, o caminho é utilizar OR. Por exemplo: Mandetta OR Pazuello. Detalhe importante: utilize AND e OR em letras maiúsculas. E use o símbolo de menos para excluir palavras de uma pesquisa: Covaxin -Precisa. Esta pesquisa serve para encontrar todos os documentos que façam menção à vacina indiana, sem constar a empresa que estava intermediando a venda do imunizante, por exemplo.
A outra coleção que a Abraji disponibilizou agora é a do inquérito 4.828, que apurava manifestações que defendiam o fechamento do Congresso e do STF. Os alvos da investigação eram parlamentares e ativistas bolsonaristas. O inquérito foi aberto no ano passado, a partir de pedido da Procuradoria-Geral da República (PGR). O caso estava em segredo de justiça, mas o ministro Alexandre de Moraes retirou o sigilo dos documentos em junho passado, depois que a PGR pediu o arquivamento da investigação. Recentemente, um outro inquérito foi aberto, e Moraes decretou a prisão preventiva do ex-deputado Roberto Jefferson. Aqui é possível ver as movimentações do processo.
O Google ainda conta com parceiros para curadoria do Pinpoint em outros países. The Washington Post, Big Local News e DocumentCloud também são curadores do projeto. E várias redações ao redor do mundo já usam a ferramenta. Inclusive, o norte-americano The Boston Globe recentemente foi premiado com um Pulitzer em reportagem que se valeu do Pinpoint durante a investigação.
Mensalmente a equipe da Abraji vai divulgar duas novas coleções de arquivos de interesse público no Pinpoint da Abraji. Acompanhe nosso site e redes sociais para mais informações. A Abraji esclarece que não há nenhuma avaliação de mérito nas informações contidas nas coleções que disponibiliza. As informações são de assuntos de interesse público e jornalístico e são apenas o ponto de partida de uma investigação jornalística. Indícios de condutas ilícitas devem ser verificados com fontes e mais dados e o fato de qualquer pessoa ser investigada não significa que ela é culpada.
Todos os dados devem ser checados, inclusive com os políticos e empresas citados. Sempre deve-se ter cuidado com pessoas e empresas homônimas. A Abraji não se responsabiliza pelos defeitos ou vícios que possam existir nas fontes de dados públicas usadas para criar as coleções no Pinpoint. Dúvidas e sugestões sobre o projeto escreva para pinpoint.abraji@abraji.org.br.
________________
Por Eduardo Goulart de Andrade. Conteúdo publicado originalmente no site oficial da Abraji.
A criptografia transparente da CipherTrust ajuda as organizações a atender às exigências de conformidade e…
Evento consagra Kleber Soares na categoria Melhor do Evento pelo domínio do estilo Colorido
Com foco em capacitação e inclusão escolar, professora cria projeto para apoiar educadores e famílias…
A empresa acumula em 2024 mais de R$ 15 milhões em contratos, o que reforça…
O Data & AI for Business, evento que conta com a parceria da Microsoft e…
Com aplicação precisa e menos invasiva, a técnica traz mais segurança usando cânulas em vez…