astelehena, uztaila 19, 2021

Nóla aldatzen den entropia teorikoa an corpus linguistikoak artio 100000 hitz ezberdin

Sarrera honetan kalkulatu genuen a entropia teorikoa e bi corpus linguistiko non zeudén oso hitz ezberdin gutxi, bata kin n=2 (esan nahi baita, 2 hitz ezberdin):

TEnt(2)

0.9182958

eta bestea kin n=3 (esan nahi baita, 3 hitz ezberdin):

TEnt(3

1.435371

Baina, gauza da ze gure intereseko corpus linguistikoak dirá askoz zabalagoak zein 2 edo 3 hitz ezberdin, batez ere noiz nahi dugun kalkulatu a entropia e hizkuntza bat (adibidez, ingles idatzia). Kasu horietan, hitz ezberdinen kopurua oszila daitezke arten mila gutxi batzuk eta hamar mila batzuk, zein den tamaina askoz representagarriagoa.

Gure asmoa an sarrera hau dá aztertzea nóla aldatzen den entropia teorikoa noiz hitz ezberdinen kopurua mugitzen den arten 1 eta 100000 hitz diferente, adieráziz grafikoki ibilera hori bidéz ondorengo kodea an R:

plot(unlist(lapply(c(1:100000), FUN=TEnt)), type="l", xlab = "n", ylab = "TEnt(n)")

zek ematen digu honako grafikoa:

Hortxe ikus daikegu a entropia teorikoa an corpus linguistikoak artio 100000 hitz ezberdin, non:

TEnt(20000)

10.13008

eta

TEnt(100000)

11.4954

zein diren mugák zeinen artean aldatzen dén entropia teoriko hori noiz hitz ezberdinen kopurua mugitzen dén arten 20000 eta 100000 hitz ezberdin. Tarte horren zabalera dá:

11.4954 - 10.13008 = 1.36532

eta esan dugunez, soilik dependitzen da ti zénbat hitz ezberdin aurkitzen diren an corpusa ("n"). []