Como extrair dados do Currículo Lattes de forma automática?

Um software para extrair dados do Currículo Lattes e de outras bases de produção científica não é nenhuma novidade no âmbito acadêmico. Programas como o Extrator Lattes CNPq e o ScriptLattes ajudam sobremaneira nessa tarefa.

Ocorre que muitos destes software não fazem um trabalho completo, tendo o profissional de realizar as demais etapas de forma manual. Pensando nisso, o bibliotecário da Universidade de São Paulo (UPS), Tiago Marçal Murakami, desenvolveu o Coletaprod, um software livre que contorna alguma dessas limitações.

Como se sabe, o conhecimento sobre a produção cientifica de uma instituição de ensino superior é fundamental para determinar não só a sua qualidade acadêmica, mas para responder a oportunidades que surgem através de editais de fomento e/ou projetos de pesquisa.

Nessa entrevista à Biblioo, Murakami fala sobre as funcionalidades do Coletaprod. Segundo ele, no seu programa “os registros são individuais, como registros de bibliotecas e, com isso, foi possível criar um sistema de busca para que o bibliotecário trabalhe com registros delimitados”. Confira:

Você desenvolveu um software, Coletaprod, bastante útil aos bibliotecários e outros profissionais da informação. Qual a sua utilidade?

A ideia básica é facilitar a vida de quem precisa coletar dados de produção científica. Ele foi criado para o uso das bibliotecas da USP, em que elas precisam acompanhar a produção dos seus docentes. Então basicamente ele processa dados de diversas fontes. O Lattes é a principal, embora também processe Web of Science, Scopus, Incites, Scival. Mas também pode ser aproveitado em estudos bibliométricos nestas fontes.

Num campo de busca você coloca o nome de um pesquisador e em outro campo filtra a busca por base (o Lattes, por exemplo) e o software busca toda a produção da pessoa?

Primeiramente, é necessário subir o XML do Lattes. Cada produção do pesquisador vira um registro no banco de dados. Essa é uma vantagem em relação à outras ferramentas que processam Lattes, mas geram relatórios. O resultado é quase um catálogo de biblioteca, em que é possível pesquisar nos registros, facetar os resultados e filtrar por facetas.

Quais os outros softwares, por exemplo, têm função similar e quais as dificuldades que eles enfrentam e que o teu software se propõe a resolver?

O ScriptLattes é o mais conhecido. É um ótimo software. Mas gera um relatório no final. O Coletaprod foi criado com outra finalidade. No caso da busca por produção, um relatório ainda força o bibliotecário a comparar manualmente o resultado com os registros que já possui. Ajuda, mas ainda é necessário um trabalho manual.

No caso do Coletaprod, os registros são individuais, como registros de bibliotecas e, com isso, foi possível criar um sistema de busca para que o bibliotecário trabalhe com registros delimitados, e ainda, no caso de uma instituição que mantenha um repositório, por exemplo, é possível comparar os registros do repositório com os coletados pelo Coletaprod automaticamente e com isso, permitir que o bibliotecário foque principalmente nos registros que ainda não estão no repositório, otimizando bastante o tempo.

E ainda, no caso da USP, foi possível reaproveitar os metadados para exportar um pré-registro no formato aceito pelo sistema, facilitando o preenchimento que não tem que começar do zero.

O seu software está operando em nível experimental na USP ou ele já pode ser utilizado por outras instituições?

Ele foi planejado para ser usado por qualquer instituição. Ainda tem algumas configurações que só funcionam na USP por conta das especificidades, mas no geral, pode ser usado em qualquer outra instituição.

Uma das dificuldades de manter um software é manter uma boa documentação e comigo não é diferente. Por isso, é importante ter feedbacks para que eu consiga tornar a documentação mais simples e ele possa ser usado em mais instituições.

Pra finalizar, queria te perguntar o seguinte: uma das maiores dificuldades dos softwares livres é manter a sua manutenção. Como você pretende contornar esse problema?

Este é um eterno problema em relação aos softwares livres e com esse não é diferente. A relevância de um software é que muda um pouco esse cenário. Quando ele se torna importante para uma instituição, a chance dela querer participar da manutenção é maior e com isso é possível criar uma comunidade atuante, que mantenha o desenvolvimento constante. Isso não é simples.

Infelizmente não tenho como imaginar se poderei manter ele para sempre, mas sempre estarei atento a oportunidades de melhoria. Sempre que surgir uma nova demanda, vou estudar e ver se consigo implementar. Fica como um desafio pessoal. Mas se algum dia tiver uma comunidade em torno dele, estarei realizado.

Abaixo um vídeo tutorial com o próprio Murakami: