Baldin Zipf-en legea betetzen bada, Shannon-en 0.1 proportzio hori teorikoki izanen dá 1/Sn (ez da izanen independentea ti "n")
Shannon-ek zioén hemen ze:
Baina, 0.1 hori (= .1 an Shannon-en artikulua) dá a proportzioa arten maiztasun handiena an corpusa eta hitz-kopuru totala (0.1 hori dago ki Sn = 10), alegia:
(1/Sn) = (1/10) = 0.1
eta Zipf-en erlazioa betetzen delarik, proportzio hori (0.1 hori edo, berdin ere, Sn = 10 hori) egonen da an funtzioa e zénbat hitz ezberdin erabili diren an corpus hori (hots, an funtzioa e "n"). Esan nahi baita ze proportzio hori (0.1) ez da independentea ti "n", baizik ze atera beharko litzake ti:
(1/Sn) = 1/(sum(1/(1:n)))
halan-ze, horrela eginez, hitz guztien probabilitate agregatua izanen dá beti 1 (ezin liteke izán infinitu):
sum((1/Sn)/(1:n)) = sum(1/(sum(1/(1:n)))/(1:n)) = 1
Zehazki, proportzio hori 0.1 izateko, hitz ezberdinen kopurua ("n") teorikoki izan beharko litzaké 12367:
S<-function(n){sum(1/(1:n))-10}
uniroot(S, c(1,100000))
$root
[1] 12367
Horrela, ondoko aipuko batukari hori:
izanen da justuki 1 noiz batuketa dén egiten ti 1 daino 12367 (horiek izanen liraké hitz guztiak, teorikoki):(1/(sum(1/(1:12367)))) = 0.09999957 ≃ 0.1
Praktikan, kalkulatu beharko lirake hitz guztien probabilitate enpirikoak (zeinen batura derrigor izanen dén 1) eta hitz guztiak erabilí an konputoa e entropia, eta ez soilik lehenengo 8727 hitzak. Horrela, corpuseko hitz guztiak konsideratuz, entropia jaitsiko litzake teorikoki ti 11.82 dara 9.716223:
TEnt(12367)
9.716223
Baldin soilik 8727 hitz ezberdin erabili balira (Zipf-en legea perfektuki beteta), entropia litzaké 9.414066:
zein den are urrutiago ti 11.82 bitak per hitza zein Shannon-ek kalkulatu zituen baztértuz hainbat hitz ti bere kalkulua. [⇶]TEnt(8727)
9.414066
0 Comments:
Argitaratu iruzkina
<< Home