igandea, ekaina 27, 2021

Nóla kalkulatu zéin den ha entropia teorikoa on "Ulisses"?

Behin atzokoan ikusita nóla kalkulatu Sn proportzioa an "Ulisses" (alegia, nóla kalkulatu zéin den ha proportzioa artén hitz-kopuru totala eta hitz ezberdinen kopurua:

S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281

halan ze hitz ezberdin bakoitzeko, izanen dugú 10.88281 hitz, totalean), gaurko sarrera honetan saiatuko gara kalkulatzen zéin den ha entropia on "Ulisses" baldin corpus horretan Zipf-en erlazioa beteko balitz perfektuki (ordezta aproximatuki, nola betetzen den): esan nahi baita, baldin beheragoko irudiko A marra, "Ulisses"-i dagokiona, izango balitz perfektuki zuzena, nola dén C marra teorikoa, ordezta aproximatuki zuzena, nola den (ikus grafiko hori hemen ere).

Bestela galdetuta, zéin izango litzake C marra teorikoaren entropia baldin hasiko balitz an 29.899 hitz ezberdin (bere ordenatu-balioa = 29.899) ordezta hasí an 10.000 (hitz ezberdin)?

Kalkulu hori egiteko behar dugu "Ulisses"-en hitz ezberdin guztien probabilitateak (finean, euren maiztasun erlatiboak respektu hitz-kopuru totala), zeini aplikatuko diegún entropia-ren formula (ikus hemen edo hemen): 

Hortaz, zéin izanen da probabilitateá on hitz erabiliena an Ulisses? Ba, dakigularik ze hitz horren maiztasuna agertzen da an erlazioa 1/10.88281 respektuz hitz-kopuru totala, ondoriozta daikegu ze justuki horixe da bere probabilitatea, alegia:

(1/10.88281) = 0.09188803

Eta bigarren hitz erabilienaren probabilitatea? Ba, dakigularik ze probabilitate hori dá justuki erdia respektu lehenengo hitz erabiliena (zeren Zipf-en erlazioa perfektuki betetzen baita), hauxe izanen da:

(1/(10.88281*2)) = 0.04594402

Eta n-garren hitz erabilienaren probabilitatea?

pn = 1/(10.88281*n)

Eta hitz gutxien erabilienaren probabilitatea? 

(1/(10.88281*29.889)) = 0.003074309

Puntu honetan, ziurta gaitezen ze probabilitate-sorta horrek osatzen dú probabilitate-banaketa ondo definitu bat, hau dá, konproba daigun ze 29.899 probabilitate guzti horien batura dén 1, bidéz ondorengo operazioa:

sum(1/(10.88281*(1:29899))) = 1         

[OHARRA: Expresio horren lehenengo termino hori dá R kodetxo bat adiéraziz ze batu dirá goragoko n (29.899) probabilitate guzti horiek, zeinen emaitza ateratzen dén 1]

Hortaz, gure zenbaki-segida horrek betetzen ditú guk bilatutako eskakizunak: 

  • lehenengo zenbakia (finean, probabilitatea) dá (1/(10.88281*2)) = 0.04594402
  • n-garren zenbakia dá lehenengo zenbaki hori zati n, eta 
  • euren batura dá 1.

Orain kalkula daikegu zéin den entropia zeinen bila genbiltzan, H, hau dá, zéin den ha entropia on Ulisses:

H = sum((1/(10.88281*(1:29899)))*log2(1/(1/(10.88281*(1:29899))))) = 10.47396 bit, batez beste, hitz bakoitzeko.

[OHARRA: Expresio horren lehenengo termino hori dá R kodetxo bat adiéraziz ze batu dirá 29.899 entropia partzialak zein dagozkien ki 29.899 hitz ezberdinak, zeinen emaitza, hau dá  H entropia, dén 10.47396

Justuki horixe (10.47396 bit per hitza) izanen dá ha entropia teorikoa on "Ulisses" (kin bere 29.899 hitz ezberdin). [1304] [>>>]

Etiketak: