Legge di Zipf

Da Wikipedia, l'enciclopedia libera.

Viene detta legge di Zipf una legge empirica che regola la frequenza di qualche evento $P i$ in funzione della posizione $i$ (detta rango) nell'ordinamento decrescente rispetto alla frequenza stessa di tale evento.

$f(P_i) = \frac{c}{i}$

dove:

$i$ indica il rango
$P i$ indica l'evento che occupa l'i-esimo rango (ovvero l'i-esimo evento più frequente)
$f (P i)$ è il numero di volte (frequenza) che si verifica l'evento $P i$

Il linguista George Kingsley Zipf la descrisse nel 1949 in Human Behaviour and the Principle of Least-Effort (Comportamento umano e il principio del minimo sforzo).

I campi di applicabilità della legge di Zipf sono svariati, e sono anche esistite tendenze di pensiero che l'hanno addirittura proposta come la controparte della distribuzione gaussiana nell'ambito delle scienze sociali. In realtà come le distribuzioni nelle scienze naturali non seguono sempre un andamento gaussiano, tanto meno le distribuzioni delle scienze sociali o degli eventi correlati all'attività umana, possono essere fortemente inquadrate negli andamenti iperbolici della legge di Zipf. Esistono tuttavia casi in cui i risultati previsti dalla legge di Zipf sono fortemente verificati dai dati osservati. Fra i più famosi senz'altro vi sono quelli che considerano le frequenze delle parole negli scritti, o quelli che analizzano la distribuzione della popolazione nelle varie città di uno stato. Esempi questi ultimi approfonditamente analizzati e documentati dallo stesso Zipf nei suoi più famosi scritti. In campo economico la legge di Zipf si adatta bene a rappresentare la situazione di produttività delle varie compagnie che operano in un medesimo settore. Se si rappresenta la produttività di una azienda in funzione del sua posizione di classifica si ottiene l'andamento iperbolico della legge di Zipf. Questo fatto era stato, del resto, già osservato alla fine del'800 dall'economista Vilfredo Pareto.

Più in generale la legge di Zipf può essere riformulata come:

$f(P_i) = \frac{c}{i^{(1-\theta)}}$

con $θ$ costante positiva prossima a 0 (per $θ = 1$ si rientrerebbe nella distribuzione casuale, cioè nell'equiprobabilità)

Indice

1 Aspetti teorici
2 Tipi di raccolte di dati assunte a sostegno della legge

[modifica] Aspetti teorici

[modifica] La legge di Zipf e la funzione zeta

Nel caso che esistano "infinite" parole (ovvero quando m tende all'infinito), la costante cost tenderebbe a zero.

Usando la legge di Zipf più generale il termine

$\sum_{i=1}^\infty \frac{1}{i^a}$

è la funzione zeta di Riemann $ζ(a)$

[modifica] Zipf, Mandelbrot e Shannon

Benoît Mandelbrot dimostrò negli anni '50 che simili leggi possono essere dedotte a partire dalla teoria dell'informazione di Claude Shannon.

La legge dinamica indica come massimizzare l'utilità di un canale massimizzando l'entropia utilizzando preferibilmente i simboli meno costosi (p. es. nel codice morse la frequente lettera e è codificata con un singolo punto, mentre la meno frequente lettera x è rappresentata da una linea, due punti e una linea (-..-). Il codice di Huffman applica tale legge dinamica.

Mandelbrot fa l'ipotesi ardita che il costo di utilizzo è direttamente proporzionale al costo di memorizzazione, dopo averlo constatato su tutti i dispositivi che ha osservato, dalla scrittura contabile fino ai computer.

Eliminando il costo tra le due equazioni si ritrova una famiglia di equazioni che legano la frequenza di una parola al suo rango affinché il canale venga utilizzato in maniera ottimale. Questa ulteriore generalizzazione, detta pure legge di Mandelbrot è data da

n(p_i) (b + c i)^a = cost per cui la legge semplice di Zipf è quella in cui a=1, b=0 e c=1.

È stato osservato come nella maggiorparte delle lingue esistenti il parametro all'esponente a sia prossimo a 1,1 e 1,2 , mentre nel linguaggio dei bambini si approssima a 1,6.

Rappresentando le leggi di Zipf e di Mandelbrot in un sistema cartesiano con le coordinate log-log, allora la legge di Zipf corrisponde ad una retta, mentre la legge di Mandelbrot mostra una gobba.

[modifica] La legge di Zipf e le variabili casuali

Una interpretazione della legge di Zipf come variabile casuale è data dalla variabile casuale Zeta, per questo motivo detta pure variabile casuale di Zipf. L'equivalente variabile casuale continua è la variabile casuale Paretiana.

Casi simili sono considerati la legge di Bradford, la variabile casuale di Yule e la legge di Benford.

[modifica] Analogie

Il rapporto esistente tra le leggi di Zipf e di Mandelbrot è simile a quello esistente tra la legge di Mariotte e quella di van der Waals, considerato che in entrambi i casi un fattore di correzione (il parametro a nel caso della legge di Mandelbrot) permette di approssimare i dati osservati con i valori teorici, rappresentando un qualche cosa di "incomprimibile".

[modifica] Tipi di raccolte di dati assunte a sostegno della legge

frequenza degli accessi alle pagine internet
frequenza delle parole in determinati testi
note in spartiti musicali
dimensione degli abitati, città
distribuzione dei redditi
forza dei terremoti

Progetto Linguistica - Voci di linguistica - Il bar linguistico generale

Linguistica - Storia della linguistica - Linguisti Settori di linguistica generale: Fonetica e Fonologia - Grammatica - Morfologia - Sintassi - Semantica - Pragmatica Altre discipline linguistiche: Dialettologia - Etno-linguistica - Glottologia - Grammatica storica - Lessicologia - Linguistica applicata - Linguistica cognitiva - Linguistica comparativa - Linguistica computazionale - Psico-linguistica - Retorica - Socio-linguistica
Wikizionario - Wikiquote - Wikibooks - Wikisource