igandea, uztaila 25, 2021

Textu bat (demagun novela bat) guztiz atzekoz aurrera idatziz gero, bere entropia ez litzake aldatuko

Baldin berridatziko bagenu novela bat (demagun Joyce-ren "Ulisses" bera), baina járriz hitzak guztiz alderantziz (esan nahi baita, hasiz tika originaleko azken hitza eta bukatuz kin originaleko lehena), novela alderantzizkatu horren entropia ez litzake aldatuko (halakoxea da entropia), nahiz irakurleak ezin izanen lukén interpretatu (prozesatu) bere edukia linealki, aurrerantza. 

Gainera, baldin irakurleak ahalko balu joan memórizatzen alderantzizko informazio guzti hori (milaka hitz horiek), ezin izanen luke ondo intérpretatu gordetako informazio hori harik jaso bukerako informazioa (originalean, hasierakoa), non aurkituko lukén oinarrizko informazioa zeintaz ari diren novelaren kontu guztiak (esan nahi baita ze bukaerako informazio alderantzizkatu hori dá originaleko hasiera).

Areago, novelaren hitz berberak jarriko balira guztiz aleatorioki, textuaren entropia ez litzake horregatik aldatuko (zeren hitzen maiztasunak ez liraken aldatuko), nahiz interpretazioa izanen litzaké ezin ezinagoa. [1332] [>>>]

Etiketak: ,

astelehena, uztaila 19, 2021

Nóla aldatzen den entropia teorikoa an corpus linguistikoak artio 100000 hitz ezberdin

Sarrera honetan kalkulatu genuen a entropia teorikoa on bi corpus linguistiko non zeudén oso hitz ezberdin gutxi, bata kin n=2 (esan nahi baita, 2 hitz ezberdin):

TEnt(2)

0.9182958

eta bestea kin n=3 (esan nahi baita, 3 hitz ezberdin):

TEnt(3

1.435371

Baina, gauza da ze gure intereseko corpus linguistikoak dirá askoz zabalagoak zein 2 edo 3 hitz ezberdin, batez ere noiz nahi dugun kalkulatu a entropiá on hizkuntza bat (adibidez, ingles idatzia). Kasu horietan, hitz ezberdinen kopurua oszilatu ahal dira artén mila gutxi batzuk eta hamar mila batzuk, zein den tamaina askoz representagarriagoa.

Gure asmoa an sarrera hau dá aztertzea nóla aldatzen den entropia teorikoa noiz hitz ezberdinen kopurua mugitzen den artén 1 eta 100000 hitz diferente, adieraziz grafikoki ibilera hori bidéz ondorengo kodea an R:

plot(unlist(lapply(c(1:100000), FUN=TEnt)), type="l", xlab = "n", ylab = "TEnt(n)")

zek ematen digu honako grafikoa:

Hortxe ikus daikegu a entropia teorikoa an corpus linguistikoak artio 100000 hitz ezberdin, non:

TEnt(20000)

10.13008

eta

TEnt(100000)

11.4954

zein diren mugak zeinen artean aldatzen dén entropia teoriko hori noiz hitz ezberdinen kopurua mugitzen den tartén 20000 eta 100000 hitz ezberdin. Tarte horren zabalera dá:

11.4954 - 10.13008 = 1.36532

eta esan dugunez, soilik dependitzen da ti zénbat hitz ezberdin aurkitzen diren an corpusa ("n"). [1326] [>>>]

Etiketak: ,