Strumenti Utente

Strumenti Sito


cinque_per_mille

Distribuzione del cinque per mille in Italia

Volevo fare alcune analisi statistiche sulla distribuzione in Italia del cinque per mille. Gli elenchi disponibili sul sito web dell'Agenzia delle Entrate (relativi all'anno 2008) esistono solo in formato PDF, che non può essere facilmente utilizzato per fare analisi sui dati, perché non contiene dati grezzi, ma loro elaborazioni. Dunque ho dovuto ingegnarmi per tornare ai dati grezzi.

Io ho semplicemente aperto i file PDF con Evince (un lettore PDF liberamente disponibile in ogni distribuzione di GNU/Linux) e copia-incollato tutto il loro contenuto in un file di testo (i file .txt). Poi ho utilizzato gli script Python allegati per pulire il testo e formattare in modo comodamente utilizzabile i dati contenuti (nei file .csv).

Lo script “decodifica.py” è in grado di decodificare quasi ogni file, ad eccezioni di “sportive5x1000_esclusi.txt”, che segue una sintassi leggermente diversa. Per questo file bisogna utilizzare “decodifica_sportie_escluse.py”.

I file generati sono separati da spazi e possiedono le seguenti colonne:

  • Numero progressivo
  • Codice fiscale
  • Numero di scelte
  • Importo relativo alle scelte espresse (in euro)
  • Importo proporzionale alle scelte generiche (in euro)
  • Importo totale (in euro)
  • (solo per “sportive5x1000_esclusi.txt”) Motivo dell'esclusione
    • D: soggetti decaduti dal beneficio per mancata produzione della dichiarazione sostitutiva
    • E: soggetti esclusi a seguito di controllo
  • Denominazione

Scaricare i dati

Tutti i dati, compresi i sorgenti degli script utilizzati per trattarli, sono disponibili per il download.

Correttezza dei dati

Ovviamente, pur ritenendo che i file .csv generati siano sostanzialmente fedeli ai PDF dai quali sono partito, il procedimento che ho utilizzato è perlopiù euristico, dunque molto soggetto ad errori. Dunque non posso offrire alcuna garanzia sulla correttezza del mio lavoro.

Sono comunque interessato a sapere di eventuali errori che siano stati trovati, magari anche per correggere i miei script.

Disponibilità di dati grezzi alla sorgente

Sarebbe bello se, anche per un motivo di trasperenza e di correttezza, l'Agenzia delle Entrate pubblicasse gli stessi dati in formato facilmente utilizzabile da un computer, in modo che sia possibile (e facile) fare analisi statistiche ed elaborazioni senza doversi inventare i trucchi sporchi che ho dovuto utilizzare io. Purtroppo, che mi risulti, questo ancora non avviene, anche a causa della scarsa cultura che abbiamo a proposito della trasparenza e verificabilità di ciò che fa il nostro Stato. :-(

cinque_per_mille.txt · Ultima modifica: 2010/11/28 12:20 da giovanni