astelehena, ekaina 28, 2021

Entropia horrek neurtzen du a kapazitate kodifikatzaile binarioa zein kode batek beharko luken batezbeste ki transmititu hitz ezberdin bakoitza (29.899 hitz ezberdin) an Joyce-n nobela

Atzoko sarreran kalkulatzen genuén a entropia (per hitza) an Joyce-n Ulisses:

Orain kalkula daikegu a entropia, H, zeinen bila genbiltzan, hau dá, a entropia e Ulisses:

H = sum((1/(10.88281*(1:29899)))*log2(1/(1/(10.88281*(1:29899))))) = 10.47396 bit, batez beste, hitz bakoitzeko.

Justuki horixe (10.47396 bit per hitza) izanen dá a entropia teorikoa e Ulisses (kin bere 29.899 hitz ezberdin).

Baina batezbesteko kantitate horrek zér neurtzen du? Ba, neurtzen du a kapazitate kodifikatzaile binarioa zein kode batek beharko luken batezbeste ki transmititu hitz ezberdin bakoitza (29.899 hitz ezberdin) an Joyce-n nobela (kasu honetan  hitz guztiak ez daukate agertzeko probabilitate berdina: batzuk agertzen dira an corpusa ondo maizago zein beste batzuk zein soilik agertzen dirá behin an obre guztia).

Gogora daigun nóla kalkulatzen eta interpretatzen genuen bit-kopurua an egoera probabilistikoak non aukera guztien probabilitateak zirén berdinak, eta non ikusten genuen ze "bit-en botere kodifikatzailea dá progresatzen geometrikoki":

Herenegun eta atzo ikusten genuen nóla 1 bit zen hóri informazio-kantitatea zein den aurkitzen an aukera binario bat non bi emaitza posibleak dirén ekiprobrableak [adibidez, txanpon regular bat airera botata: P(aurpegi) = P(gurutze) = (1/2)]:

H(1/2, 1/2) = (1/2)*log2(2)+(1/2)*log2(2) = 2*(1/2)*log2(2) = log2(2) = 1 bit = 1 txanpon

eta nóla, adibidez 2 txanpon regular boteaz, lortzen genuen egoera probabilistiko bat zeinen emaitza transmititzeko nahikoa liraké 2 bit [P(aurpegi, aurpegi) = P(aurpegi, gurutze) = P(gurutze, aurpegi) = P,(gurutze, gurutze) = (1/4)]:

H(1/4, 1/4, 1/4, 1/4) = (1/4)*log2(4)+(1/4)*log2(4)+(1/4)*log2(4)+(1/4)*log2(4) = 4*(1/4)*log2(4) = log2(4) = 2 bit = 2 txanpon

halan-ze,

... halako saio baten emaitza jakinarazteko (4 emaitza posible eta ekiprobableak), nahikoa litzaké kode bat non emanen zirén bi erantzun binario (hain zuzen, 2 "binary unit", 2 bit). 

Eta horrela, 3 txanpon regular aldi berean botata, izanen genuke saio aleatorio bat kin 8 emaitza posible ekiprobable, zeinen emaitza transmititzeko nahikoa liraké 3 bit:

H(1/8, 1/8, 1/8, 1/8,1/8, 1/8, 1/8, 1/8)log2(8) = 3 bit = 3 txanpon

non daukagu ze, bitárten bit-kopurua den progresatzen aritmetikoki (géhituz 1), saioaren emaitza posibleak progresatzen dirá geometrikoaki (bidérkatuz bider 2):

H(1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16) = log2(16) = 4 bit = 4 txanpon  [16 emaitza posible]

H(1/32, ..., 1/32)log2(32) = 5 bit = 5 txanpon [32 emaitza posible

H(1/256, ..., 1/256)log2(256) = 8 bit  = 8 txanpon  [256 emaitza posible]

H(1/(2^n), ..., 1/(2^n))log2(2^n) = n bit  = n txanpon  [2^n (alegia, 2 ber n) emaitza posible]

Saio aleatorio batean 2 ber n  (2^n) emaitza posible ekiprobable egonda [adibidez, 2^20=1.048.576], nahikoa liraké n bit [adibidez, log2(2^20) = 20 bit] ki transmititu bere emaitza.

Esan nahi baita ze konsideratuko bagenu saio aleatorio bat kin 32.768 emaitza posible ekiprobable, nahikoa litzaké kode bat non emanen zirén 15 erantzun binario (hain zuzen, 15 "binary unit", 15 bit) afin transmititu bere emaitza:

H(1/(2^15), ..., 1/(2^15))log2(2^15) = 15 bit = 15 txanpon [32.768 emaitza posible]

Esan nahi baita ze, izanen bagenu corpus linguistiko bat non agertuko lirake 32.768 hitz diferente eta denak ere kin ber probabilitatea (maiztasuna), orduan hitz bakoitzaren probabilitatea litzaké:

(1/32768) = 3.051758e-05   (hitz bakoitzaren probabilitate berdina)

eta hitz bakoitzeko entropia:

H = 32768*(3.051758e-05*log2(1/3.051758e-05)) = 15 bit per hitza

Baldin orain izanen balira gutxixeago: justuki gure 29.899 hitz ezberdin (nola dirén an Ulisses), baina denak ere kin ber probabilitatea, orduan:

(1/29899) = 3.344593e-05   (hitz bakoitzaren probabilitate berdina)

eta

H = 29899*(3.344593e-05*log2(1/3.344593e-05)) = 14.86781 per hitza
Joyce-n Ulisses-en ordea, hitz guztiek ez dute ber probabilitatea, baizik-ze hitz batzuk daukaté askoz probabilitate gehiago zein beste batzuk, hola jaitsiaraziz a entropia respektu kasu igualitarioa: kasu honetan, entropia jaisten da artio goragoko emaitza: hitz bakoitzeko batezbeste 14.86781 bit. []