2

GitHub - turicas/salarios-magistrados: Baixa as planilhas de salários de magistr...

 6 years ago
source link: https://github.com/turicas/salarios-magistrados
Go to the source link to view the article. You can view the picture content, updated content and better typesetting reading experience. If the link is broken, please click the button below to view the snapshot at that time.

Salários Magistrados - CNJ

Script que baixa todas as planilhas de salários de magistrados do site do CNJ, extrai a aba "Contracheque", faz algumas limpezas e exporta tudo para CSV.

Licença

A licença do código é LGPL3 e dos dados convertidos Creative Commons Attribution ShareAlike. Caso utilize os dados, cite a fonte original e quem tratou os dados, como: Fonte: Conselho Nacional de Justiça, dados tratados por Álvaro Justen/Brasil.IO. Caso compartilhe os dados, utilize a mesma licença.

Dados

Caso você não queira/possa rodar o script, acesse diretamente os dados convertidos no Brasil.IO.

Se esse programa e/ou os dados resultantes foram úteis a você ou à sua empresa, considere fazer uma doação ao projeto Brasil.IO, que é mantido voluntariamente.

Erros nos Dados

Nem todas as planilhas puderam ser convertidas. Verifique o arquivo erros.csv para entender quais erros existem nos dados originais e como isso se propaga para os dados gerados pelo script.

Encontrou algum erro na conversão que o script faz? Crie uma issue nesse repositório.

Rodando

Esse script depende de Python 3.7+ e de algumas bibliotecas. Instale-as executando:

pip install -r requirements.txt

Para rodar:

./run.sh

Esse script irá rodar dois scripts, um que baixa as planilhas e outro que as extrai e gera o resultado. Você pode rodá-los independentemente também:

# Baixa planilhas e gera `data/output/planilha.csv`:
scrapy runspider --loglevel=INFO -o data/output/planilha.csv download_files.py
gzip data/output/planilha.csv

# Lê `data/output/planilha.csv.gz` e gera outros arquivos em `data/output`:
python parse_files.py

Um diretório data será criado, onde:

  • data/download: planilhas baixadas;
  • data/output: arquivos de saída (CSVs compactados).

About Joyk


Aggregate valuable and interesting links.
Joyk means Joy of geeK