FGV usa IA para criar sistema inédito de garimpo de texto

InovaçãoProjetos

A ferramenta resulta da colaboração entre diversas organizações e usa inteligência artificial (IA) para reunir coleções históricas fragmentadas em um banco de dados comum facilitando a pesquisa final.

O Centro de Pesquisa e Documentação de História Contemporânea do Brasil (CPDOC) e a Escola de Matemática Aplicada (EMAp) da Fundação Getulio Vargas, em parceria com a Columbia University, criaram a ferramenta History Lab  que vai permitir aos pesquisadores pesquisar e compilar informações ligadas às relações internacionais e a diferentes Estados, como Brasil, Reino Unido e Estados Unidos, numa quantidade de dados sem precedentes.

“Os arquivos virtuais estão cada vez mais fragmentados, com dezenas de coleções espalhadas pela web, cada uma com diferentes metadados e recursos de pesquisa. Agrupamos coleções múltiplas e as unimos em um único banco de dados, o maior conjunto de documentos não classificados processados e disponíveis para qualquer pessoa fora do governo”, indica Renato Rocha Souza, professor e pesquisador da EMAp.

O robô que usa IA criado no projeto lê arquivos digitais e faz uma análise probabilística e estatística dos mesmos, sem que haja limitações quanto à quantidade, identificando as palavras relacionadas entre si no universo de documentos e criando grupos temáticos coesos. Este processo feito por humanos poderia levar anos ou mesmo décadas para realizar.

“Através das linhas de programação e dos algoritmos desenvolvidos pelo grupo de pesquisadores da FGV, onde se encontram cientistas da informação e historiadores, a ferramenta foi dotada de inteligência artificial para identificar e agrupar documentos correlacionados” refere Alexandre Moreli, professor do CPDOC.

A ferramenta teve resultados tão surpreendentes que foi objeto de interesse do Departamento de Estado dos Estados Unidos (DoS) e de seus Serviços de Inteligência. É que um dos objetivos do History Lab é, também, facilitar o trabalho de verificação de divulgação de documentos através do exame automático do conteúdo de cada informação arquivada e da identificação de seu grau de sigilo, determinando se deve ou não ser liberado ao público.

“Além dessa preocupação com documentos históricos, eles ficaram interessados em nossa tecnologia por causa dos recentes vazamentos de dados para o governo russo e para o WikiLeaks. Somente em 2015, o DoS gastou US$ 16 bilhões para proteger informações. Um exemplo é um documento sobre a sensibilidade do governo japonês em relação às inspeções dos EUA sobre suas instalações nucleares. Esse documento não estava classificado, mas deveria ter sido originalmente definido como confidencial”, relata Souza.

No futuro, a ferramenta  vai expandir as coleções processadas agregando documentos de outros países, além de disponibilizar outras ferramentas aos pesquisadores.

“A equipe da FGV continuará a aperfeiçoar os recursos existentes, perseguindo inovações como o reconhecimento automático de pessoas em fotografias históricas ou a sincronização áudio-texto de entrevistas de História Oral. Trata-se de uma expertise que poderá ser aproveitada tanto por instituições mantenedoras de arquivos e pela administração pública, como por empresas ou outros interessados que pretendam gerir e explorar conjuntos de informação em escalas cada vez maiores”, observa Moreli.


Clique para ler a bio do autor  Clique para fechar a bio do autor