Nóla aldatzen den entropia teorikoa an corpus linguistikoak artio 100000 hitz ezberdin
Sarrera honetan kalkulatu genuen a entropia teorikoa on bi corpus linguistiko non zeudén oso hitz ezberdin gutxi, bata kin n=2 (esan nahi baita, 2 hitz ezberdin):
TEnt(2)
0.9182958
eta bestea kin n=3 (esan nahi baita, 3 hitz ezberdin):
TEnt(3)
1.435371
Baina, gauza da ze gure intereseko corpus linguistikoak dirá askoz zabalagoak zein 2 edo 3 hitz ezberdin, batez ere noiz nahi dugun kalkulatu a entropiá on hizkuntza bat (adibidez, ingles idatzia). Kasu horietan, hitz ezberdinen kopurua oszilatu ahal dira artén mila gutxi batzuk eta hamar mila batzuk, zein den tamaina askoz representagarriagoa.
Gure asmoa an sarrera hau dá aztertzea nóla aldatzen den entropia teorikoa noiz hitz ezberdinen kopurua mugitzen den artén 1 eta 100000 hitz diferente, adieraziz grafikoki ibilera hori bidéz ondorengo kodea an R:
plot(unlist(lapply(c(1:100000), FUN=TEnt)), type="l", xlab = "n", ylab = "TEnt(n)")
zek ematen digu honako grafikoa:
Hortxe ikus daikegu a entropia teorikoa an corpus linguistikoak artio 100000 hitz ezberdin, non:TEnt(20000)
10.13008
eta
TEnt(100000)
11.4954
zein diren mugak zeinen artean aldatzen dén entropia teoriko hori noiz hitz ezberdinen kopurua mugitzen den tartén 20000 eta 100000 hitz ezberdin. Tarte horren zabalera dá:
11.4954 - 10.13008 = 1.36532eta esan dugunez, soilik dependitzen da ti zénbat hitz ezberdin aurkitzen diren an corpusa ("n"). [1326] [>>>]
0 Comments:
Argitaratu iruzkina
<< Home