Ciao a tutti. Avete bisogno di conoscere la media, la deviazione standard o altre statistiche su uno o più campi? Oggi vi facciamo vedere come si può, con QGIS, visualizzare o calcolare le principali statistiche sui campi di una tabella degli attributi di uno shapefile.
1. Il pannello statistiche e il dataset di base per visualizzare le statistiche
Vediamo, per prima cosa, come fare se volete solo visualizzare al volo le statistiche su di un campo, senza memorizzarle.
A questo scopo QGIS ci offre un pannello apposta: il Pannello Statistiche, che potete aprire con la combinazione di pulsanti CTRL+6 della vostra tastiera (Per un ripassino su come si aprono i pannelli di QGIS potete guardare qui o qui).
Per imparare come visualizzare le statistiche sui campi con QGIS noi useremo lo shapefile delle sezioni censuarie ISTAT. A questo shape abbiamo unito i campi della corrispondente tabella con gli indicatori del censimento del 2011. La procedura è la stessa che abbiamo mostrato nel post e nel video dedicati.
Le statistiche le visualizzeremo sul campo P1, contenente il totale della popolazione residente in ciascuna sezione censuaria da noi considerata.
C’è solo un problema: questo campo viene importato nello shape come campo contenente testo. Allora, un ulteriore passaggio che abbiamo fatto è stato il seguente: abbiamo creato un nuovo campo che abbiamo chiamato Residenti, di tipo numerico intero, ed in questo abbiamo copiato i valori presenti in P1. Avremo così due campi contenenti gli stessi valori. Ma, nel caso del campo P1, sono, appunto considerati come stringhe; nel caso del campo Residenti, sono considerati come valori numerici.
Sfrutteremo questo fatto per vedere i diversi tipi di statistiche offerte da QGIS per campi contenenti diversi tipi di dato.
Ovviamente voi potete usare qualsiasi file di cui vogliate visualizzare le statistiche.
2. Come visualizzare le statistiche in QGIS
Visualizzare le statistiche adesso è molto semplice.
Per prima cosa dovete selezionare in cima al Pannello Statistiche qual è il vettore o la tabella che QGIS deve considerare.
Noi scegliamo lo shapefile delle nostre sezioni censuarie in cui è presente il join.
Adesso non vi resta che selezionare il campo di cui volete che QGIS calcoli e visualizzi le statistiche.
Cominciamo con il campo di tipo testo P1. Le statistiche che compariranno in una tabella nel pannello statistiche sono le seguenti:
- il Numero di elementi presenti in tabella. In questo caso 4415;
- il Numero di elementi che risultano essere diversi tra di loro o Conta (distinti). In questo caso 674;
- il numero di elementi mancanti in tabella o Conta (mancanti). In questo caso 0;
- il valore Minimo presente in tabella (0);
- il valore Massimo di popolazione per la Regione analizzata (991);
- il valore più presente o Maggioranza (0)
- La lunghezza minima, la lunghezza massima e la lunghezza media del contenuto di ciascun record, che, in questo caso, vanno intesi come numero di caratteri usati. Ricordate? il campo P1 è di tipo testo.
Vediamo adesso le statistiche del campo Residenti, questa volta di tipo numerico. Le statistiche calcolate da QGIS per questo tipo di dato sono le seguenti:
- il Numero di elementi presenti in tabella;
- la Somma di tutti i valori che vengono trovati nel campo Residenti;
- la Media di tutti i valori che vengono trovati nella colonna Residenti;
- la Mediana, cioè il valore di mezzo trovato fra i valori della colonna Residenti messi in ordine;
- la Deviazione standard (popolazione) e la Deviazione standard (campione). Questa differenza di valori indica due diversi modi di calcolare la deviazione standard. Ora vi spieghiamo. La popolazione ,è costituita da tutti i poligoni del nostro layer di input. Il campione invece è costituito da una selezione di poligoni. Per cui, a seconda degli elementi su cui sto visualizzando le statistiche, avrà senso utilizzare un valore piuttosto che l’altro. Quindi, se ad esempio state considerando tutto il dataset dovrete considerare la deviazione standard calcolata su tutta la popolazione, se invece avete fatto una selezione del layer di input, dovrà essere considerata la deviazione standard campionaria.
- il Minimo;
- il Massimo;
- l’Intervallo;
- la Minoranza;
- la Maggioranza;
- la Varietà;
- il primo ed il terzo quartile Q1 e Q3;
- lo scarto interquartile (IQR)
- il numero di Valori mancanti o nulli. Noterete sicuramente che quando il campo viene letto come testo i valori mancanti considerati da QGIS erano 0, invece, quando il campo viene considerato come numerico ci sono un bel po’ di elementi nulli. Ed effettivamente, se apriamo la tabella attributi vediamo che questo secondo calcolo è quello corretto, perché ci sono tanti valori null, vuoti. Anche in questo caso, non sappiamo spiegarci perché, nel caso di un campo testuale, QGIS non identifichi i valori mancanti. Come al solito, se ne sapete più di noi, non esitate a commentare.
Questo post finisce qui, ma siccome l’argomento “calcolo delle statistiche” è importante e utile, sicuramente nei prossimi articoli vedremo come calcolare le statistiche in tabelle esterne e come calcolare le statistiche con il calcolatore di campi.
Tips and tricks I
Puoi sempre calcolare le tue statistiche su una selezione del tuo shapefile.
Procedi così: effettua una selezione sul canvas o usando una espressione e poi spunta la casella in basso Solo elementi selezionati (1). I calcoli verranno effettuati solo sulla selezione.
Tips and tricks II
Se non ti basta visualizzare le statistiche, ma le vuoi anche copiare ad esempio in un documento di testo, puoi cliccare sul pulsante Copia statistiche negli appunti (2). Poi vai nel tuo documento di testo ed incolla.
Bene, questo post è finito. Se ti è piaciuto condividilo! Se hai dubbi o suggerimenti lascia pure un commento.
Se vuoi, puoi vedere anche il nostro video su YouTube “Visualizzare e calcolare statistiche sui campi con QGIS” e iscriverti al nostro canale.
Ci GISsiamo al prossimo post.
Ciaooo