Baldin Zipf-en legea betetzen bada, Shannon-en 0.1 proportzio hori teorikoki izanen dá 1/Sn (ez da izanen independentea ti "n")
Shannon-ek zioén hemen ze:
Baina, 0.1 hori (= .1 an Shannon-en artikulua) dá a proportzioa artén maiztasun handiena an corpusa eta hitz-kopuru totala (0.1 hori dago ki Sn = 10), alegia:
(1/Sn) = (1/10) = 0.1
eta Zipf-en erlazioa betetzen delarik, proportzio hori (0.1 hori edo, berdin ere, Sn = 10 hori) egonen da an funtzioa on zénbat hitz ezberdin erabili diren an corpus hori (hots, an funtzioa on "n"). Esan nahi baita ze proportzio hori (0.1) ez da independentea ti "n", baizik ze atera beharko litzake ti:
(1/Sn) = 1/(sum(1/(1:n)))
halan-ze, horrela eginez, hitz guztien probabilitate agregatua izanen dá beti 1 (ezin liteke izán infinitu):
sum((1/Sn)/(1:n)) = sum(1/(sum(1/(1:n)))/(1:n)) = 1
Zehazki, proportzio hori 0.1 izateko, hitz ezberdinen kopurua ("n") teorikoki izan beharko litzaké 12367:
S<-function(n){sum(1/(1:n))-10}
uniroot(S, c(1,100000))
$root
[1] 12367
Horrela, ondoko aipuko batukari hori:
izanen da justuki 1 noiz batuketa dén egiten tikan 1 daino 12367 (horiek izanen liraké hitz guztiak, teorikoki):(1/(sum(1/(1:12367)))) = 0.09999957 ≃ 0.1
Praktikan, kalkulatu beharko lirake hitz guztien probabilitate enpirikoak (zeinen batura derrigor izanen dén 1) eta hitz guztiak erabilí an konputoa on entropia, eta ez soilik lehenengo 8727 hitzak. Horrela, corpuseko hitz guztiak konsideratuz, entropia jaitsiko litzake ti 11.82 dara 9.716223:
TEnt(12367)
9.716223
Baldin soilik 8727 hitz ezberdin erabili balira (Zipf-en legea perfektuki beteta), entropia litzaké 9.414066:
zein den are urrutiago ti 11.82 bitak per hitza zein Shannon-ek kalkulatu zituen baztertuz hainbat hitz ti bere kalkulua. [1327] [>>>]TEnt(8727)
9.414066
0 Comments:
Argitaratu iruzkina
<< Home