Problema: "Itens sem ano"

Issue #14 resolved
Former user created an issue

Olá Jesús e colaboradores,

estou utilizando o scriptlattes com a nova adequação, de baixar os c. lattes em formato html, depois removendo a extensão e tem funcionado bem, contudo tenho notado uma problema. aparecem alguns registros em uma "Serie1" que são os "Itens sem ano", quando na realidade os registros que lá estão agrupados são datados.

há alguma recomendação para que o script rode com maior precisão? desconfio que isso seria uma falha de coleta, pois tentei rodar com a versão mais atual e a antiga 8.10 e os resultados foram os mesmos. fiz testes mudando de navegador (chrome e firefox), baixar em htm, html, página completa e mostrando os não as informação complementares do c. lattes, mas não resolveu.

se houver um caminho das pedras agradeço imensamente saudações,

Prof. Pedro Andretta Universidade Federal de Rondônia

Comments (13)

  1. Gilberto Kaihami

    Eu percebi o mesmo problema hoje.

    Eu estou olhando agora o codigo, amanhã eu devo dar uma resposta pra você!

    Gilberto Kaihami

  2. Angelo Loula

    Acho que encontrei pelo menos um dos problemas com a obtenção do ano. No arquivo artigoEmPeriodicos.py, em init, após a execução da linha

    self.ano = partes[2].strip().rstrip(".")
    

    em alguns casos ainda não seja o ano puro, mas com texto sobre número de citações e assim self.ano fica com algo do tipo '2013. Citações:11|6' consertei isso adicionando em seguida

    if '.' in self.ano:
        self.ano = (self.ano.partition("."))[0]
    

    isso reduziu muito o número de itens sem ano que estava obtendo, mas ainda tem alguns sem ano, vou continuar testando

  3. Jesús P. Mena-Chalco

    Caros, desculpem a demora em resposta. Por favor, vejam a última versão develop. Acredito que agora o problema dos "itens sem ano" foi corrido.

  4. Angelo Loula

    Baixei a versão do brach develop do bitbucket, executei o script e o problema persisti nesta versão.

  5. Jesús P. Mena-Chalco

    Por favor, pode dar maior informação que possa nos ajudar a identificar o erro e melhorar o programa?

  6. Angelo Loula

    Desculpe a demora em responder. Estou retomando agora. Tenta rodar o scriptlattes com meu lattes (0704248561279452). Para os artigos em periódicos que possuem informação de citações no lattes, a aquisição de ano não funciona adequadamente.

    Em artigoEmPeriodicos.py, tem as seguintes linhs

    # Processando o resto (tudo menos autores)
                partes = partes[2].rpartition(", ")
                self.ano = partes[2].strip().rstrip(".")
    

    Se houver informação de citações no lattes, o resultado de self.ano fica '2004. Citações:6|4', por exemplo.

  7. Angelo Loula

    Encontrei também alguns casos em que a obtenção do ano não funciona porque o script não separa apropriadamente os autores. O script artigoEmPeriodicos.py espera que os autores (menos que 25) possam ser separados do restante pela presença de espaço+ponto+espaço, mas encontrei casos em que falta o espaço antes do ponto. Veja o item 26 da lista de artigos em periodico deste currículo (lattes 8080697890419252).

    a separação do nome dos autores para o

  8. Angelo Amancio Duarte

    Olá Jesús,

    Acabo de baixar a versão do scriptlattes e identifiquei o problema de algumas referências sem ano. Como vi que já existe um fio dessa reclama cão preferi interagir por aqui.

    Serei grato se puder dar uma revisada no código para sanar o problema.

  9. virginiac

    Olá,

    Rodei a versão develop e verifiquei que o problema dos itens sem ano ainda ocorre. Os itens sem ano não aparecem mais como uma série nos gráficos, mas ainda são listados ao final da página em "Itens sem ano" e somados ao total.

    Como observado pelo Angelo Loula acima, em artigos de períodicos o problema acontece nas referências que possuem "Citações". Editei o html dos currículos retirando as citações do final das referências que possuiam e ele passou a identificar os anos. Mas fazer esta edição nos htmls é trabalhosa.

    Nos demais tipos de materiais não consigo identificar o que pode causar o problema.

    Vcs ainda irão tentar corrigir isto? O ScriptLattes é muito útil e é uma pena que o CNPq incentive a iniciativa.

  10. Igor Machado

    Prezados, acredito que consegui fazer a devida correção, o ano não estava carregando certo devido ao número de citações (a variável ano ficava assim: "2018. Citações 10", ao invés de "2018"). Fiz outra correção no XML de saída, que indicava o volume como nome do periódico. Acho que meu editor Atom (ou foi o git, não sei) indicaram algumas mudanças de espaços vazios, não entendi por que, pois baixei o projeto zerado e só mudei duas ou três linhas. Se acharem que está de acordo, peço que aceitem o pull request. Abraços.

  11. André Luís de Gasper

    Olá Igor

    deu certo sim! testei e resolveu, mas agora ele não reconhece mais o qualis (diz que não pode detectar) e dá este erro: Traceback (most recent call last): File "scriptLattes.py", line 64, in <module> novoGrupo.identificarQualisEmPublicacoes() # obrigatorio File "/home/prppg/Dropbox/DPI/scriptlattes/scriptLattes/grupo.py", line 394, in identificarQualisEmPublicacoes self.separarQualisPorAno() File "/home/prppg/Dropbox/DPI/scriptlattes/scriptLattes/grupo.py", line 399, in separarQualisPorAno tabelas = self.qualis.qualisPorAno(membro) File "/home/prppg/Dropbox/DPI/scriptlattes/scriptLattes/qualis/qualis.py", line 78, in qualisPorAno tiposQualis = publicacao.qualis.values() AttributeError: 'NoneType' object has no attribute 'values'

  12. Log in to comment