L’analisi statistica dei dati gestionali spesso si scontra con il problema dei dati mancanti, vale a dire proprio di quei dati di cui bisogna trovare la distribuzione. In questo articolo ci occupiamo dei dati geografici italiani. Nel caso specifico di un portafoglio assicurativo collettivo, per ogni polizza del benefit aziendale, la maggior parte delle volte vengono forniti correttamente il cognome e il nome delle persone che formano un nucleo familiare. Spesso viene invece omesso l’indirizzo di residenza dal quale si può ricavare la posizione geografica delle persone.
Conforta il fatto che spesso le statistiche non si interessano dell’indirizzo esatto delle persone, ma di qualche dato aggregato, ad esempio la provincia. Vediamo ora come si può ottenere questo dato mancante dall’indirizzo stesso, dalle coordinate bancarie, dal codice fiscale, dalla partita IVA o dalle entità correlate.
I metodi qui trattati recuperano, come si vedrà, la provincia con un diverso grado di attendibilità. Oltre al dato ricavato, consiglio di tenere traccia del metodo utilizzato. Questo può essere utile per ripetere in futuro la procedura o per confrontare eventuali dati contraddittori ricavati con metodi diversi.
- Mancante o errato?
- Indirizzo postale
- Numero di telefono
- Coordinate bancarie
- Comunicazioni via internet
- Codice fiscale
- Partita IVA
- Dati correlati
- Risorse
Mancante o errato?
In primo luogo è necessario controllare il dato che abbiamo a disposizione. Infatti, spesso, esso non è utilizzabile in quanto errato.
È necessario estrarre dal database gestionale l’elenco di tutte le sigle della provincia già presenti e confrontarlo con l’elenco ufficiale. Nell’estrazione, occorre convertire le sigle in maiuscolo ed eliminare gli eventuali spazi o altri simboli che non siano lettere dell’alfabeto. I casi più ricorrenti di sigle che non si abbinano con l’elenco ufficiale sono i seguenti.
- La sigla è digitata male. L’unica operazione da fare è quella di cancellare il dato errato.
- Il dato non è più in uso. È necessario, in questo caso, stabilire la corrispondenza tra le sigle vecchie e quelle nuove. Ad esempio, FO -> FC, PS -> PU.
- La sigla corrisponde a località estere. Spesso, ad esempio, si attribuisce la sigla SM o SMR a San Marino, oppure EE a qualsiasi località estera. In questo caso è opportuno segnalare gli indirizzi esteri in un apposito campo, anziché semplicemente cancellare il dato errato, per poterlo distinguere dal caso del dato mancante.
Indirizzo postale
Spesso i database gestionali contengono indirizzi incompleti. È lecito integrare il dato direttamente nel database ricavandolo dal codice di avviamento postale (CAP) o dal nome della località. Lo strumento indispensabile per questo lavoro è l’elenco ufficiale delle località con CAP e sigla della provincia.
L’idea consiste in questo. Per ogni indirizzo, in cui la sigla della provincia manca o è errata, tale sigla si ricava abbinando l’indirizzo con l’elenco ufficiale e prendendo per ogni abbinamento la sigla della provincia dall’elenco.
Per riuscire nell’abbinamento, il CAP e la località contenuti nel database e nell’elenco ufficiale devono essere “puliti”. Normalmente è sufficiente convertire il dati in maiuscolo, eliminare gli spazi all’inizio e alla fine e sostituire gli spazi doppi con uno solo. Il CAP più corto di 5 cifre va completato con gli zeri a sinistra.
Il primo abbinamento va effettuato attraverso la coppia CAP e località, in quanto una coppia di dati è più affidabile del singolo dato. Per i casi non ancora risolti è necessario un secondo abbinamento effettuato con il CAP, più affidabile del nome della località.
I casi restanti corrispondono a CAP e località mancanti o scritti erroneamente. Il CAP scritto male non è affidabile, quindi si abbina con località. È utile raggruppare gli indirizzi per nome della località ordinando per nome e risolvere confrontando manualmente con l’elenco ufficiale. Si tratta spesso di nomi complessi scritti in modi diversi, come ad esempio “S.S.Giovanni” al posto di “Sesto San Giovanni”.
Il lavoro di abbinamento con l’elenco ufficiale potrebbe essere utile anche nei casi in cui l’indirizzo è completo, per controllare la sua correttezza. Si tratta ad esempio di alcune province scorporate di recente, che nel database rimangono invece con la sigla della provincia vecchia.
Numero di telefono
Il prefisso del numero di telefono della rete fissa è correlato con la posizione dell’abbonato.
I principali problemi derivano dai casi in cui allo stesso prefisso corrispondono più province. Ad esempio, allo 02 corrispondono MI e MB. In questi casi consiglio di prendere la provincia prevalente; per 02 è MI.
Vi sono alcuni numeri virtuali di telefono, assegnati in abbinamento a un servizio voice over IP. In questi casi il prefisso telefonico non corrisponde a una presenza reale dell’abbonato nella relativa zona geografica.
Coordinate bancarie
Se il database contiene le coordinate bancarie della persona, si può ricavare la posizione geografica dello sportello bancario indicato nelle coordinate. Lo sportello non è obbligatoriamente vicino alla residenza della persona, quindi il dato non è attendibile. Questo procedimento non è applicabile per le banche non munite di sportelli reali, che prestano servizi solo via internet.
In Italia ogni sportello bancario è contrassegnato con i codici ABI (codice della banca) e CAB (codice dello sportello). Questi due codici si trovano nelle posizioni 6-10 e 11-15 dell’IBAN italiano, contando da 1. L’elenco di tutti gli sportelli con ABI, CAB e indirizzi è di regola fornito dalle banche nell’ambito dei servizi di operazioni bancarie via internet.
Ora è sufficiente ricavare dall’IBAN della persona i codici ABI e CAB e abbinarli all’elenco degli sportelli, prendendo da quest’ultimo la sigla della provincia.
Comunicazioni via internet
Se la persona accedere ai vostri servizi online oppure vi invia delle email, è possibile utilizzare l’indirizzo IP del computer da cui è partita la comunicazione per ricavare la sua posizione geografica. In particolare, si sfrutta l’indirizzo IP dell’accesso dell’utente e le intestazioni (header) delle email ricevute dall’utente. Esistono software che ricavano dalle intestazioni delle email l’indirizzo IP del mittente e da questo la posizione geografica.
Il problema principale di questo metodo è la poca attendibilità dei dati, se l’indirizzo IP corrisponde alle reti aziendali. Infatti, spesso le grandi aziende accentrano i servizi internet in località lontane, a volte all’estero. L’indirizzo IP diventa più attendibile quando corrisponde alla residenza della persona. È opportuno dare più peso alle comunicazioni svolte nei giorni e nelle ore non lavorative.
Codice fiscale
Il codice fiscale italiano della persona contiene alcuni dati anagrafici della persona stessa. La sigla che identifica il luogo di nascita si trova nelle posizioni 12-15 del codice, contando da 1. Per le persone nate in Italia tale codice identifica un comune; ad esempio F205 corrisponde a Milano. Per le persone nate all’estero identifica il paese; ad esempio Z210 corrisponde alla Repubblica Popolare Cinese.
Se nel database sono presenti codici fiscali, è possibile ricavare da essi il luogo di nascita. Utilizzando l’elenco ufficiale dei luoghi, si trova la sigla della provincia, se la persona è nata in Italia. Prima di utilizzare il codice fiscale è opportuno verificare la sua correttezza, almeno quella del codice di controllo.
Il luogo di nascita non necessariamente coincide con il luogo di residenza, quindi questo dato non è attendibile. La sua attendibilità cresce con l’aumento della data di nascita. Infatti un neonato, tipicamente, abita vicino al luogo di sua nascita e migra altrove più avanti nella sua vita.
Partita IVA
La partita IVA riporta nelle posizioni 8-10 il codice della provincia dove è stata rilasciata. Questo codice da 001 a 095 coincide con il codice ISTAT della provincia. Ad esempio, 015 corrisponde a Milano. Lo stesso procedimento vale per il codice fiscale numerico italiano.
Prima di utilizzare la partita IVA è opportuno verificare la correttezza del suo codice di controllo.
La provincia dove è stata rilasciata la partita IVA non deve necessariamente corrispondere al luogo di residenza o dell’attività economica del soggetto a cui è attribuita.
Dati correlati
In un database relazionale è possibile sfruttare la correlazione geografica tra le entità collegate. Ad esempio, in un portafoglio assicurativo collettivo, i dati delle persone assicurate sono in genere raggruppati nei nuclei familiari e nelle aziende di appartenenza. In caso di polizza malattia, nel database gestionale vengono registrati i dati fiscali sugli erogatori medici che hanno prestato i servizi agli assicurati.
Le persone dello stesso nucleo familiare abitano presumibilmente nel medesimo luogo. In questo modo è possibile completare il dato geografico mancante prendendolo da altri componenti del nucleo. Nel caso particolare in cui tutti i componenti del nucleo sono sprovvisti dei dati geografici, ma hanno il codice fiscale, saranno più attendibili i dati ricavati dal codice fiscale dei più giovani componenti del nucleo.
Se un’azienda non ha unità locali in più province, la posizione geografica dei suoi dipendenti è concentrata. In tal caso si ricava la provincia più ricorrente dei dipendenti che hanno questo dato, quindi il dato ricavato viene attribuito anche ai dipendenti della stessa azienda che non hanno indirizzo.
Nel caso, già accennato, di parcelle mediche registrate nel database per i servizi erogati alle persone assicurate, è possibile rilevare la provincia dalle parcelle o dalle fatture, presumendo che il servizio sia stato erogato vicino al luogo di residenza dell’assicurato. Nel caso in cui nella parcella manchi l’indirizzo esplicito, la provincia può essere ricavata dal numero di telefono o di fax, dal codice fiscale, dalla partita IVA dell’erogatore, dalle sue coordinate bancarie o ‑ infine ‑ dalla posizione geografica di un altro erogatore correlato.
Risorse
- L’articolo “Come è costruito il codice fiscale” presenta l’algoritmo di controllo della correttezza del codice. http://datainvest.eu/it/2003/08/12/come-e-costruito-il-codice-fiscale/
- L’elenco ufficiale dei CAP è un database fornito da Poste Italiane. Esistono due tipi di servizio. Il primo dà la possibilità di cercare on line singoli CAP all’indirizzo http://www.poste.it/online/cercacap/. Il secondo rende disponibili i CAP in formato digitale tramite sottoscrizione di una licenza d’uso: si veda http://www.poste-impresa.it/online/pmi/postali/accessori/cap_professional.shtml oppure http://www.poste.it/
- Esiste un sito non istituzionale dei comuni italiani che contiene CAP e prefissi telefonici. Nelle “Note sui dati” si avverte che non viene garantita l’assenza di errori e di omissioni o la presenza di dati non aggiornati. http://www.comuni-italiani.it/
- L’elenco dei comuni italiani nel sito dell’Agenzia delle entrate contiene luoghi di nascita usati nel codice fiscale. http://www.agenziaentrate.gov.it/
- L’articolo “Come controllare la correttezza della partita IVA” presenta l’algoritmo di controllo della correttezza del codice. http://datainvest.eu/it/2003/08/12/come-controllare-la-correttezza-della-partita-iva/
- L’articolo “IBAN – standard di comunicazione delle coordinate bancarie internazionali” spiega la struttura dell’IBAN. http://datainvest.eu/it/2003/08/12/iban-standard-di-comunicazione-delle-coordinate-bancarie-internazionali/