Zipf (1948): "...we can calculate the approximate size of any Sn (atzoko proportzioa) if we know the size of n (and vice versa)."
Galdetzen genuén atzo ea kalkulatu liteken teorikoki ha proportzioa artén corpus bateko hitz-kopuru totala (kin errepikapenak) eta corpus horretako hitz erabilienaren maiztasuna (adibidez, Zipf-en atzoko adibidean hitz-kopuru totala zén 10 aldiz handiago zein maiztaun altuena) supósatuz ze corpus horretan betetzen dén Zipf-en erlazioa. Eta erantzuna Zipf-ek berak ematen digu:
Hortaz, supósatuz lagin teoriko bat non dén betetzen Zipf-en erlazioa, kalkulatu geinke zéin proportziotan agertuko den hitz erabiliena respektuz hitzen kopuru totala (zein 2.1 taulan gutxi gorabehera zén 1/10), edo alderantziz, zénbat aldiz handiagoa izan beharko litzaken hitz-kopuru totala respektuz hitz erabiliena (2.1 taulan gutxi gorabehera 10 aldiz handiagoa), soilik erábiliz zénbat hitz ezberdin agertu diren an textua, hau dá n, bidéz formula hau:
Sn = 1 + (1/2) + (1/3) + (1/4) + ... + (1/(n-1)) + (1/n)
Adibidez, atzoko adibidean ("Ulisses" lanean) agertzen zirén 29.899 hitz diferente (artén 260.430 hitz, guztira), halan ze gure proportzioa izanen dá justuki:
S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281esan nahi baita ze, teorikoki, proportzio hori izanen zén handixeagoa zein 10, zehazki S29.899 = 10.88281. [1302] [>>>]
Etiketak: Shannon
0 Comments:
Argitaratu iruzkina
<< Home