ostirala, ekaina 25, 2021

Zipf (1948): "...we can calculate the approximate size of any Sn (atzoko proportzioa) if we know the size of n (and vice versa)."

Galdetzen genuén atzo ea kalkulatu al liteken teorikoki a proportzioa arten corpus bateko hitz-kopuru totala (kin errepikapenak) eta corpus horretako hitz erabilienaren maiztasuna (adibidez, Zipf-en atzoko adibidean hitz-kopuru totala zén 10 aldiz handiago zein maiztaun altuena) supósatuz ze corpus horretan dén betetzen Zipf-en erlazioa. Eta erantzuna Zipf-ek berak ematen digu:

Hortaz, supósatuz lagun teoriko bat  non dén betetzen Zipf-en erlazioa, kalkulatu geinke zéin proportziotan agertuko den hitz erabiliena respektuz hitzen kopuru totala (zein 2.1 taulan gutxi gorabehera zén 1/10), edo alderantziz, zénbat aldiz handiagoa izan beharko litzaken hitz-kopuru totala respektuz hitz erabiliena (2.1 taulan gutxi gorabehera 10 aldiz handiagoa), soilik erábiliz zénbat hitz ezberdin agertu diren an textua, hau dá n, bidéz formula hau:

Sn = 1 + (1/2) + (1/3) + (1/4) + ... + (1/(n-1)) + (1/n)

Adibidez, atzoko adibidean (Ulisses lanean) zíren agertzen 29.899 hitz diferente (arten 260.430 hitz, guztira), halan-ze gure proportzioa izanen dá justuki:

S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281
esan nahi baita ze, teorikoki, proportzio hori izanen zén handixeagoa zein 10, zehazki S29.899 = 10.88281. []