astelehena, ekaina 28, 2021

Entropiak neurtzen du zéin den kapazitate kodifikatzaile binarioa zein kode batek beharko lukén batezbeste ki transmititu hitz ezberdin bakoitza (29.899 hitz ezberdin) an Joyce-n nobela

Atzoko sarreran kalkulatzen genuén zénbat entropia genuén an Joyce-n "Ulisses" (per hitza):

Orain kalkula daikegu zéin den entropia, H, zeinen bila genbiltzan, hau dá, zéin den entropiá on Ulisses:

H = sum((1/(10.88281*(1:29899)))*log2(1/(1/(10.88281*(1:29899))))) = 10.47396 bit, batez beste, hitz bakoitzeko.

Justuki horixe (10.47396 bit per hitza) izanen dá a entropia teorikoa e Ulisses (kin bere 29.899 hitz ezberdin).

Baina batezbesteko kantitate horrek zér neurtzen du? Ba, neurtzen du ha kapazitate kodifikatzaile binarioa zein kode batek beharko lukén batezbeste ki transmititu hitz ezberdin bakoitza (29.899 hitz ezberdin) an Joyce-n nobela (kasu honetan  hitz guztiek ez daukate agertzeko probabilitate berdina: batzuk agertzen dira an corpusa ondo maizago zein beste batzuk zein soilik agertzen dirén behin an obra guztia).

Gogora daigun nóla kalkulatzen eta interpretatzen genuen bit-kopurua an egoera probabilistikoak non aukera guztien probabilitateak zirén berdinak, eta non ikusten genuen ze "bit-en botere kodifikatzailea dá progresatzen geometrikoki":

Herenegun eta atzo ikusten genuen nóla 1 bit zen hóri informazio-kantitatea zein den aurkitzen an aukera binario bat non bi emaitza posibleak dirén ekiprobrableak [adibidez, txanpon regular bat airera botata: P(aurpegi) = P(gurutze) = (1/2)]:

H(1/2, 1/2) = (1/2)*log2(2)+(1/2)*log2(2) = 2*(1/2)*log2(2) = log2(2) = 1 bit = 1 txanpon

eta nóla, adibidez 2 txanpon regular boteaz, lortzen genuen egoera probabilistiko bat zeinen emaitza transmititzeko nahikoa lirakén 2 bit [P(aurpegi, aurpegi) = P(aurpegi, gurutze) = P(gurutze, aurpegi) = P,(gurutze, gurutze) = (1/4)]:

H(1/4, 1/4, 1/4, 1/4) = (1/4)*log2(4)+(1/4)*log2(4)+(1/4)*log2(4)+(1/4)*log2(4) = 4*(1/4)*log2(4) = log2(4) = 2 bit = 2 txanpon

halan ze,

... halako saio baten emaitza jakinarazteko (4 emaitza posible eta ekiprobableak), nahikoa litzaké kode bat non emanen zirén bi erantzun binario (hain zuzen, 2 "binary unit", 2 bit). 

Eta horrela, 3 txanpon regular aldi berean botata, izanen genuke saio aleatorio bat kin 8 emaitza posible ekiprobable, zeinen emaitza transmititzeko nahikoa lirakén 3 bit:

H(1/8, 1/8, 1/8, 1/8,1/8, 1/8, 1/8, 1/8)log2(8) = 3 bit = 3 txanpon

non daukagu ze, bitárten bit-kopurua den progresatzen aritmetikoki (géhituz 1), saioaren emaitza posibleak progresatzen dirá geometrikoaki (bidérkatuz bider 2):

H(1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16) = log2(16) = 4 bit = 4 txanpon  [16 emaitza posible]

H(1/32, ..., 1/32)log2(32) = 5 bit = 5 txanpon [32 emaitza posible

H(1/256, ..., 1/256)log2(256) = 8 bit  = 8 txanpon  [256 emaitza posible]

H(1/(2^n), ..., 1/(2^n))log2(2^n) = n bit  = n txanpon  [2^n (alegia, 2 ber n) emaitza posible]

Saio aleatorio batean 2 ber n  (2^n) emaitza posible ekiprobable egonda [adibidez, 2^20=1.048.576], nahikoa lirakén n bit [adibidez, log2(2^20) = 20 bit] ki transmititu bere emaitza.

Esan nahi baita ze konsideratuko bagenu saio aleatorio bat kin 32.768 emaitza posible ekiprobable, nahikoa litzaké kode bat non emanen zirén 15 erantzun binario (hain zuzen, 15 "binary unit", 15 bit) afin transmititu bere emaitza:

H(1/(2^15), ..., 1/(2^15))log2(2^15) = 15 bit = 15 txanpon [32.768 emaitza posible]

Esan nahi baita ze, izanen bagenu corpus linguistiko bat non agertuko lirakén 32.768 hitz diferente eta denak ere kin ber probabilitatea (maiztasuna), orduan hitz bakoitzaren probabilitatea litzaké:

(1/32768) = 3.051758e-05 (hitz bakoitzaren probabilitate berdina)

eta hitz bakoitzeko entropia:

H = 32768*(3.051758e-05*log2(1/3.051758e-05)) = 15 bit per hitza

Baldin orain izanen balira gutxixeago: justuki gure 29.899 hitz ezberdin (nola dirén an "Ulisses"), baina denak ere kin ber probabilitatea, orduan:

(1/29899) = 3.344593e-05   (hitz bakoitzaren probabilitate berdina)

eta

H = 29899*(3.344593e-05*log2(1/3.344593e-05)) = 14.86781 per hitza
Joyce-n Ulisses-en ordea, hitz guztiek ez dute ber probabilitatea, baizik ze hitz batzuk daukaté askoz probabilitate gehiago zein beste batzuk, hola jaitsiaraziz ha entropia respektu kasu igualitarioa: kasu honetan, entropia jaisten da harik goragoko emaitza: hitz bakoitzeko batezbeste 14.86781 bit. [1305] [>>>]