asteazkena, ekaina 30, 2021

Eta zéin litzake ha entropia teorikoa on corpus bat non agertzen dirén 6.002 hitz ezberdin? (B marra: lagin periodistiko bat)

Hemen ikusten genuén beheragoko grafikoa non Zipf-ek (1948) ilustratzen zuén bere erlazioa lótuz corpus bateko hitz ezberdinen maiztasuna (f) eta maiztasun horien ordinalitatea (r), zeinen biderkadura mantenduko zén aproximatuki konstante (f * r = C). Grafiko horretan, dakigunez, A marra referitzen da ki "Ulisses" nobela ga Joyce, bitárten B marra dagokio i lagin periodistiko bat zeinen bidez Zipf-ek erakutsi nahi zuen nóla bere erlazioaren aplikazioa zihoan haruntzago ti aipatutako "Ulisses". Eta, bai, bádirudi ze, neurri handi batean behintzat, Zipf-en proportzio hori betetzen da hor ere:

Hortaz, eta hemen kalkulatu dugularik Ulisses-en entropia teorikoa (alegia, ha entropia on corpus linguistiko hori baldin Zipf-en erlazioa beteko balitz perfektuki, nahiz hori soilik gertatu ahal den teorikoki zatio diskretutasuna on maiztasunak), gaurkoan nahi genuke kalkulatu zéin dén ha entropia teorikoa on lagin periodistikoa.

Horretarako, aurrena kalkulatuko dugú corpus horrentzako Sn proportzioa (alegia, zéin izanen litzaken ha proportzio teorikoa artén maiztasun altuena eta hitzen kopuru totala baldin Zipf-en erlazioa perfektuki beteko balitz):

S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = sum(1/(1:6002)) = 9.277147

Hortik, hitz erabilienaren probabilitate teorikoa litzaké:

(1/ 9.277147) =  0.1077918

eta bilatutako entropia teorikoa:

H = sum((1/( 9.277147*(1:6002)))*log2(1/(1/( 9.277147*(1:6002))))) = 9.087565 bit, batez beste, hitz bakoitzeko.
zein diren nabarmenki bit teoriko gutxiago zein batezbesteko 10.47396 bitak per hitza an Ulisses. [1307] [>>>]

Etiketak: ,

asteartea, ekaina 29, 2021

15 bit per hitza an kontextu ekiprobable bat = 15 galdera binario ki identifikatu hitz bakoitza artén 32.768 hitz ezberdin

Atzokoan genioen ze:

... izanen bagenu corpus linguistiko bat non agertuko lirakén 32.768 hitz diferente eta denak ere kin ber probabilitatea (maiztasuna), orduan hitz bakoitzaren probabilitatea litzaké:

(1/32768) = 3.051758e-05 (hitz bakoitzaren probabilitate berdina)

eta hitz bakoitzeko entropia:

H = 32768*(3.051758e-05*log2(1/3.051758e-05)) = 15 bit per hitza

Sarrera honetan genekusenez, emaitza hori (15 hori) interpretatu ahal da nola zénbat galdera binario beharko liraké ki identifikatu hitz konkretu bat artén 32.768 diferente

Izan ere, lehen galderan baztertuko genuké hitzen erdia:

(32768/2) = 16384

Bigarren galderan soilik geldituko zén hitzen laurden bat:

(16384/2) = 8192

eta hola jarraituko genuke kodetzen galdera-erantzunak harik 15. galdera (izan ere: log2(32768) = 15), non soilik geldituko litzaiguké hitz bat (hain justu húra zeinen bila genbiltzan):

(2/2) = 11
esan nahi baita ze, 15. erantzun horretan, identifikatua geldituko litzake dena delako hitza. [1306] [>>>]

Etiketak:

astelehena, ekaina 28, 2021

Entropiak neurtzen du zéin den kapazitate kodifikatzaile binarioa zein kode batek beharko lukén batezbeste ki transmititu hitz ezberdin bakoitza (29.899 hitz ezberdin) an Joyce-n nobela

Atzoko sarreran kalkulatzen genuén zénbat entropia genuén an Joyce-n "Ulisses" (per hitza):

Orain kalkula daikegu zéin den entropia, H, zeinen bila genbiltzan, hau dá, zéin den entropiá on Ulisses:

H = sum((1/(10.88281*(1:29899)))*log2(1/(1/(10.88281*(1:29899))))) = 10.47396 bit, batez beste, hitz bakoitzeko.

Justuki horixe (10.47396 bit per hitza) izanen dá a entropia teorikoa e Ulisses (kin bere 29.899 hitz ezberdin).

Baina batezbesteko kantitate horrek zér neurtzen du? Ba, neurtzen du ha kapazitate kodifikatzaile binarioa zein kode batek beharko lukén batezbeste ki transmititu hitz ezberdin bakoitza (29.899 hitz ezberdin) an Joyce-n nobela (kasu honetan  hitz guztiek ez daukate agertzeko probabilitate berdina: batzuk agertzen dira an corpusa ondo maizago zein beste batzuk zein soilik agertzen dirén behin an obra guztia).

Gogora daigun nóla kalkulatzen eta interpretatzen genuen bit-kopurua an egoera probabilistikoak non aukera guztien probabilitateak zirén berdinak, eta non ikusten genuen ze "bit-en botere kodifikatzailea dá progresatzen geometrikoki":

Herenegun eta atzo ikusten genuen nóla 1 bit zen hóri informazio-kantitatea zein den aurkitzen an aukera binario bat non bi emaitza posibleak dirén ekiprobrableak [adibidez, txanpon regular bat airera botata: P(aurpegi) = P(gurutze) = (1/2)]:

H(1/2, 1/2) = (1/2)*log2(2)+(1/2)*log2(2) = 2*(1/2)*log2(2) = log2(2) = 1 bit = 1 txanpon

eta nóla, adibidez 2 txanpon regular boteaz, lortzen genuen egoera probabilistiko bat zeinen emaitza transmititzeko nahikoa lirakén 2 bit [P(aurpegi, aurpegi) = P(aurpegi, gurutze) = P(gurutze, aurpegi) = P,(gurutze, gurutze) = (1/4)]:

H(1/4, 1/4, 1/4, 1/4) = (1/4)*log2(4)+(1/4)*log2(4)+(1/4)*log2(4)+(1/4)*log2(4) = 4*(1/4)*log2(4) = log2(4) = 2 bit = 2 txanpon

halan ze,

... halako saio baten emaitza jakinarazteko (4 emaitza posible eta ekiprobableak), nahikoa litzaké kode bat non emanen zirén bi erantzun binario (hain zuzen, 2 "binary unit", 2 bit). 

Eta horrela, 3 txanpon regular aldi berean botata, izanen genuke saio aleatorio bat kin 8 emaitza posible ekiprobable, zeinen emaitza transmititzeko nahikoa lirakén 3 bit:

H(1/8, 1/8, 1/8, 1/8,1/8, 1/8, 1/8, 1/8)log2(8) = 3 bit = 3 txanpon

non daukagu ze, bitárten bit-kopurua den progresatzen aritmetikoki (géhituz 1), saioaren emaitza posibleak progresatzen dirá geometrikoaki (bidérkatuz bider 2):

H(1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16) = log2(16) = 4 bit = 4 txanpon  [16 emaitza posible]

H(1/32, ..., 1/32)log2(32) = 5 bit = 5 txanpon [32 emaitza posible

H(1/256, ..., 1/256)log2(256) = 8 bit  = 8 txanpon  [256 emaitza posible]

H(1/(2^n), ..., 1/(2^n))log2(2^n) = n bit  = n txanpon  [2^n (alegia, 2 ber n) emaitza posible]

Saio aleatorio batean 2 ber n  (2^n) emaitza posible ekiprobable egonda [adibidez, 2^20=1.048.576], nahikoa lirakén n bit [adibidez, log2(2^20) = 20 bit] ki transmititu bere emaitza.

Esan nahi baita ze konsideratuko bagenu saio aleatorio bat kin 32.768 emaitza posible ekiprobable, nahikoa litzaké kode bat non emanen zirén 15 erantzun binario (hain zuzen, 15 "binary unit", 15 bit) afin transmititu bere emaitza:

H(1/(2^15), ..., 1/(2^15))log2(2^15) = 15 bit = 15 txanpon [32.768 emaitza posible]

Esan nahi baita ze, izanen bagenu corpus linguistiko bat non agertuko lirakén 32.768 hitz diferente eta denak ere kin ber probabilitatea (maiztasuna), orduan hitz bakoitzaren probabilitatea litzaké:

(1/32768) = 3.051758e-05 (hitz bakoitzaren probabilitate berdina)

eta hitz bakoitzeko entropia:

H = 32768*(3.051758e-05*log2(1/3.051758e-05)) = 15 bit per hitza

Baldin orain izanen balira gutxixeago: justuki gure 29.899 hitz ezberdin (nola dirén an "Ulisses"), baina denak ere kin ber probabilitatea, orduan:

(1/29899) = 3.344593e-05   (hitz bakoitzaren probabilitate berdina)

eta

H = 29899*(3.344593e-05*log2(1/3.344593e-05)) = 14.86781 per hitza
Joyce-n Ulisses-en ordea, hitz guztiek ez dute ber probabilitatea, baizik ze hitz batzuk daukaté askoz probabilitate gehiago zein beste batzuk, hola jaitsiaraziz ha entropia respektu kasu igualitarioa: kasu honetan, entropia jaisten da harik goragoko emaitza: hitz bakoitzeko batezbeste 14.86781 bit. [1305] [>>>]

igandea, ekaina 27, 2021

Nóla kalkulatu zéin den ha entropia teorikoa on "Ulisses"?

Behin atzokoan ikusita nóla kalkulatu Sn proportzioa an "Ulisses" (alegia, nóla kalkulatu zéin den ha proportzioa artén hitz-kopuru totala eta hitz ezberdinen kopurua:

S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281

halan ze hitz ezberdin bakoitzeko, izanen dugú 10.88281 hitz, totalean), gaurko sarrera honetan saiatuko gara kalkulatzen zéin den ha entropia on "Ulisses" baldin corpus horretan Zipf-en erlazioa beteko balitz perfektuki (ordezta aproximatuki, nola betetzen den): esan nahi baita, baldin beheragoko irudiko A marra, "Ulisses"-i dagokiona, izango balitz perfektuki zuzena, nola dén C marra teorikoa, ordezta aproximatuki zuzena, nola den (ikus grafiko hori hemen ere).

Bestela galdetuta, zéin izango litzake C marra teorikoaren entropia baldin hasiko balitz an 29.899 hitz ezberdin (bere ordenatu-balioa = 29.899) ordezta hasí an 10.000 (hitz ezberdin)?

Kalkulu hori egiteko behar dugu "Ulisses"-en hitz ezberdin guztien probabilitateak (finean, euren maiztasun erlatiboak respektu hitz-kopuru totala), zeini aplikatuko diegún entropia-ren formula (ikus hemen edo hemen): 

Hortaz, zéin izanen da probabilitateá on hitz erabiliena an Ulisses? Ba, dakigularik ze hitz horren maiztasuna agertzen da an erlazioa 1/10.88281 respektuz hitz-kopuru totala, ondoriozta daikegu ze justuki horixe da bere probabilitatea, alegia:

(1/10.88281) = 0.09188803

Eta bigarren hitz erabilienaren probabilitatea? Ba, dakigularik ze probabilitate hori dá justuki erdia respektu lehenengo hitz erabiliena (zeren Zipf-en erlazioa perfektuki betetzen baita), hauxe izanen da:

(1/(10.88281*2)) = 0.04594402

Eta n-garren hitz erabilienaren probabilitatea?

pn = 1/(10.88281*n)

Eta hitz gutxien erabilienaren probabilitatea? 

(1/(10.88281*29.889)) = 0.003074309

Puntu honetan, ziurta gaitezen ze probabilitate-sorta horrek osatzen dú probabilitate-banaketa ondo definitu bat, hau dá, konproba daigun ze 29.899 probabilitate guzti horien batura dén 1, bidéz ondorengo operazioa:

sum(1/(10.88281*(1:29899))) = 1         

[OHARRA: Expresio horren lehenengo termino hori dá R kodetxo bat adiéraziz ze batu dirá goragoko n (29.899) probabilitate guzti horiek, zeinen emaitza ateratzen dén 1]

Hortaz, gure zenbaki-segida horrek betetzen ditú guk bilatutako eskakizunak: 

  • lehenengo zenbakia (finean, probabilitatea) dá (1/(10.88281*2)) = 0.04594402
  • n-garren zenbakia dá lehenengo zenbaki hori zati n, eta 
  • euren batura dá 1.

Orain kalkula daikegu zéin den entropia zeinen bila genbiltzan, H, hau dá, zéin den ha entropia on Ulisses:

H = sum((1/(10.88281*(1:29899)))*log2(1/(1/(10.88281*(1:29899))))) = 10.47396 bit, batez beste, hitz bakoitzeko.

[OHARRA: Expresio horren lehenengo termino hori dá R kodetxo bat adiéraziz ze batu dirá 29.899 entropia partzialak zein dagozkien ki 29.899 hitz ezberdinak, zeinen emaitza, hau dá  H entropia, dén 10.47396

Justuki horixe (10.47396 bit per hitza) izanen dá ha entropia teorikoa on "Ulisses" (kin bere 29.899 hitz ezberdin). [1304] [>>>]

Etiketak:

larunbata, ekaina 26, 2021

"Sn" proportzioa hazten da kin "n": zénbat-eta "n" handiagoa, "Sn" ere handiagoa

Herenegungo sarreran orobat galdetzen genuén ea hango 10 proportzio biribil hori mantenduko al zen an edozein corpus non beté Zipf-en erlazioa, edo alternatiboki, ea proportzio hori aldatuko zen an funtzioa on beste zerbait (bete aldagairen bat): 

  • corpus guztietan mantendu beharko litzake?, ala: aldatu beharko lizake an funtzioa on beste zerbait?

Erantzuna atzoko sarreran bertan irakurri ahal genuen, noiz genioén kin Zipf ezen:

Hortaz, supósatuz lagin teoriko bat non dén betetzen Zipf-en erlazioa, kalkulatu geinke zéin proportziotan agertuko den hitz erabiliena respektuz hitzen kopuru totala (zein 2.1 taulan gutxi gorabehera zén 1/10), edo alderantziz, zénbat aldiz handiagoa izan beharko litzaken hitz-kopuru totala respektuz hitz erabiliena (2.1 taulan gutxi gorabehera 10 aldiz handiagoa), soilik erábiliz zénbat hitz ezberdin agertu diren an textua, hau dá n, bidéz formula hau:

Sn = 1 + (1/2) + (1/3) + (1/4) + ... + (1/(n-1)) + (1/n)

Adibidez, atzoko adibidean ("Ulisses" lanean) agertzen zirén 29.899 hitz diferente (artén 260.430 hitz, guztira), halan ze gure proportzioa izanen dá justuki:

S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281
esan nahi baita ze, teorikoki, proportzio hori izanen zén handixeagoa zein 10, zehazki S29.899 = 10.88281.

Esan nahi baita ze, erántzunez ki goragoko galdera, proportzio hori ez da konstantea, baizik emaitzá ti goragoko formula hori, zeinen balioa aldatuko da an funtzioa on kopuru totala on hitz diferenteak zein díren agertzen an corpusa: zénbat-eta hitz diferente gehiago, Sn ere handiagoa.

Adibidez, hemen Zipf-ek ematen zigún B zuzena zein referitzen zen ki lagin linguistiko bat aterea ti prensa, eta non, aparte beté Zipf-en erlazioa, ikusten dugu ze hitz ezberdinen kopurua zén 6.002, lau aldiz txikiagoa zein Ulisses-en hitz-kopuru totala. Kasu horretan, ¿zénbat aldiz handiagoa litzake hitz-kopuru osoa respektuz maiztasun altuena? Kalkula daigun:

S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = 9.277147

edo, bestela esanda, hitz erabiliena agertuko dá an proportzioá 1/9.277147 respektu corpusaren tamaina (hitz-kopurua). Diferentzia erlatiboki handia da: 10.88281 - 9.277147 = 1.605663.

Gauza da ze  zénbat eta handiagoa izan n (hau da, hitz ezberdien kopurua), handiagoa ere izanen da gure proportzio teoriko zehatza, Sn. [1303] [>>>]

ostirala, ekaina 25, 2021

Zipf (1948): "...we can calculate the approximate size of any Sn (atzoko proportzioa) if we know the size of n (and vice versa)."

Galdetzen genuén atzo ea kalkulatu liteken teorikoki ha proportzioa artén corpus bateko hitz-kopuru totala (kin errepikapenak) eta corpus horretako hitz erabilienaren maiztasuna (adibidez, Zipf-en atzoko adibidean hitz-kopuru totala zén 10 aldiz handiago zein maiztaun altuena) supósatuz ze corpus horretan betetzen dén Zipf-en erlazioa. Eta erantzuna Zipf-ek berak ematen digu:

Hortaz, supósatuz lagin teoriko bat non dén betetzen Zipf-en erlazioa, kalkulatu geinke zéin proportziotan agertuko den hitz erabiliena respektuz hitzen kopuru totala (zein 2.1 taulan gutxi gorabehera zén 1/10), edo alderantziz, zénbat aldiz handiagoa izan beharko litzaken hitz-kopuru totala respektuz hitz erabiliena (2.1 taulan gutxi gorabehera 10 aldiz handiagoa), soilik erábiliz zénbat hitz ezberdin agertu diren an textua, hau dá n, bidéz formula hau:

Sn = 1 + (1/2) + (1/3) + (1/4) + ... + (1/(n-1)) + (1/n)

Adibidez, atzoko adibidean ("Ulisses" lanean) agertzen zirén 29.899 hitz diferente (artén 260.430 hitz, guztira), halan ze gure proportzioa izanen dá justuki:

S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281
esan nahi baita ze, teorikoki, proportzio hori izanen zén handixeagoa zein 10, zehazki S29.899 = 10.88281. [1302] [>>>]

Etiketak:

osteguna, ekaina 24, 2021

[Zipf, enpirikoki: C * 10 ≈ corpusaren hitz-kopuru totala] Baina, kalkulatu al liteke proportzio hori (10 misteriotsu hori) teorikoki?

Atzoko sarreran konprobatzen genuen nóla adieraz geinken grafikoki Zipf-en erlazioa (arten hitzen maiztasuna eta maiztasun horien ordenalitatea) an corpus teoriko bat non Zipf-en formula beteko baitzén (hortaz, emaitza dá zuzen teoriko bat, zein atzoko grafikoan geldituko zén gorago edo beherago aráuz maiztasuna e hitz erabiliena: zénbat eta altuagoa, gorago). 

Bide teoriko beretik, duela gutxi ikusten genuén ondorengo taula (aterea ti ber liburua ga Zipf) non agertzen baitzen 10 zenbaki (proportzio) interesgarri bezain misteriotsu bat lótuz C kantitatea (hitz erabilienaren frekuentzia noiz f = 1) eta aztertutako corpusaren hitz-kopuru totala (C * 10). Gogora daigun:


 hau dá:

Baina,

  • kalkulatu al liteke proportzio hori (10 misteriotsu hori) teorikoki?
  • corpus guztietan mantendu beharko litzake?, ala: aldatu beharko lizake an funtzioa e beste zerbait?
  • nóla erlaziona daiteke proportzio hori kin kalkulua e entropia e corpus linguisiko bat?
Horretaz saiatuko gara mintzatzen an ondorengo sarrerak. [1301] [>>>]

asteazkena, ekaina 23, 2021

Nóla lortzen dira lehenengo 3 puntuak on atzoko zuzen teorikoa? (gauza da ze grafikoan agertzen dira kantitate ez-logaritmikoak, nahizta bi ardatzetako eskalak dirén logaritmikoak)

Atzo ikusten genuén grafiko bat non Zipf-ek erakusten zuén bere erlazioa (r * f = C, nondik log10(r) + log10(f) = K) eta non, aparte emán bi adibide praktiko, autoreak ematen zuén ha zuzen teorikoa zein aterako litzaiguke ti corpus bat zeintan hitz erabiliena agertuko zén 10.000 aldiz (eta non, jakina, Zipf-en formula beteko zén perfektuki). Hauxe zen grafikoa:

Ikus daigun orain nóla kalkulatzen diren koordenatuák on lehenengo hiru hitz erabilienak an corpus teoriko hori (puntu horietatik doa ateratzen zuzen teoriko hori). Has gaitezen ti hitz erabiliena, zein, diogunez, agertzen dén 10.000 aldiz, nahiz grafikoaren ardatz vertikalean (ordenatu-ardatzean) adierazi beharko dugún kantitate horren logaritmo dezimala:

log10(10.000) = 4

Gauza da ze irudiko 10000 gorri hori dagoen lekuan, eskala logaritmikoan 4 dago (1000 dagoenean, 3 bat, 100 dagoenean 2 bat,...). Bestalde, ardatz horizontalean, (abzisa-ardatzean), maiztasun horri dagokio 1 zenbakia (zeren dén 1. hitz erabiliena), halan ze, hor ere, adierazi beharko dugu 1 horren logaritmo dezimala:

log10(1) = 0

lórtuz (4,0) bikotea, zein diren koordenatuák on hitz erabiliena an corpus hori (puntu horretan C zuzenak ukitzen du ordenatu-ardatza), nahiz grafikoan erakusten baitirá maiztasun eta ordena-zenbaki dezimalak, zeinekin osatuko litzakén ha puntua (1, 10.000). Bide beretik, bigarren hitz erabilienaren koordenatu logaritmikoak izanen zirén:

log10(5.000) = 3.69897

log10(2) = 0.30103

hau dá (0.30103, 3.69897). Eta hirugarren hitz erabilienaren koordenatuak

(log10(3) = 0.4771213, log10(10000/3) = 3.522879)

Konproba daigun orain nóla puntu horiek pertenitzen diren ki zuzen bat kin malda -1:

log10(1) - log10(2) -   = 0 - 0.30103 = -0.30103

eta 

log10(10000) - log10(5.000)  = 4 - 3.69897 =  0.30103
non bi dimensioetan (ordenatu eta abzisa ardatzetan) gertatu dirén aldaketa berdinak an balio absolutua (nahiz zeinua kontrakoa izan, zeren malda dén -1). Ikus daigun orain bi ardatzetako aldaketak artén 2. eta 3. hitz erabilienak, eta konproba daigun nóla hauek ere berdinak diren an balio absolutua (nahiz zeinua kontrakoa izan):

log10(2) - log10(3)  = 0.30103 - 0.4771213  = -0 .176091

eta 

log10(5000) - log10(10000/3)  = 3.69897 - 3.522879 = 0.176091

berriro erakutsiz ze puntu horiek aurkitzen dira an lehengo zuzena (kin maldá -1). 

Hortaz, kontuan hartu behar da ze grafikoan agertzen dirá kantitate ez-logaritmikoak (eskala linealekoak, intuitiboagoak) nahizta bi ardatzetako eskalak dirén logaritmikoak. [1300] [>>>]

asteartea, ekaina 22, 2021

Zipf-ek eskainitako grafiko bat non dún erakusten bere erlazioa an bi corpus (1948)

Atzoko sarreran ikusten genuén nóla Zipf-ek, erábiliz James Joyce-ren Ulisses lana, deduzitzen zuén bere erlazioa arten hitzen maiztasunak (f) eta maiztasun horien ordena-zenbakia (r), non, aproximatuki, bi kantitate horien biderkadura mantenduko zén konstante: f * r = C. Joyce-k, obra horretan, erabili zituén justuki 28.899 hitz ezberdin, bakoitza kin bere maiztasuna, artio osatú guztira 260.430 hitz, halan-ze batezbesteko maiztasuna dá 9.011731, nahiz hitz guztiak ez dute ber maiztasuna. Hortxe sartzen da Zipf-en erlazioa, zeinen arabera, esan dugunez, maiztasunak gordetzen dute erlazio estu bat kin euren ordena

Erlazio hori ilustratzeko, beherago daukagu grafiko bat ganik Zipf bera (an bere "Human behavior an the principle of least effort", 1949), non A marra dagokio ki Joyce-ren lan aipatua, B marra dagokio ki beste lagin bat, oraingoan aterea ti egunkarietako textuak, eta C marra dá zuzen teorikoá (horregatik zuzen-zuzena) zein aterako litzake baldin lagin batean hitz erabilienak izanen balitú 10.000 erabilera eta n-garren hitz erabilienak ondoko fn erabilera-kopurua:

fn = (10.000/n)

Adibidez, lagin teoriko horretan, 3. hitz erabiliena agertuko litzaké justuki 10.000/3 aldiz.

[OHARRA: esan behar da ze grafikoan ordenatu-ardatzeko 10.000 kantitate hori ez da agertzen bere lekuan, baizik gorago, goragoko izkinean, non kantitatea dá ondo handiagoa zein 10.000, zeren eskalan konsideratzen ari dira logaritmo dezimalak: gorriz jarrita dago leku zehatza]

Grafikoan, Joyce-ren nobelaren marra (A) dá agertzen gorago zein egunkarietako laginaren marra (B), zeren Joyceren lanean hitz erabilienak dú maiztasun handiagoa (guztira Joyce-ren lanean erabiltzen dirá sei bat aldiz hitz gehiago: 260.430 aurka 43.989). Baina gauza da ze, bi kasuetan, malda dá gutxi gorabehera hóri bera zein espero genuen jarraiki Zipf-en erlazioa, alegia, -1. [1299] [>>>]

Etiketak: ,

astelehena, ekaina 21, 2021

Zipf-en erlazioa arten hitzen maiztasuna (f) eta maiztasun horien ordena-zenbakia (r), zein dén: r * f = C

Atzoko sarreran agertzen zitzaigun Zipf-en erlazioa arten hitzen maiztasuna eta maiztasun horien ordena-zenbakia, eta gaurkoan nahiko genuke aipatu Zipf bera an bere liburuá "Human behavior an the principle of least effort" (1949), non lantzen den erlazio hori. Zipf-ek dio:


Horrá erlazioa:

r * f = C

non 

log10(r * f) = log10(C)

nondik

log10(r) + log10(f) = log10(C)

eta kontuan hartuta ze C konstantearen logaritmoa konstantea ere izanen den, daukagu ze:

log10(r) + log10(f) = K
edo:
log10(f) = K - log10(r)
zein den ha expresioa on zuzen bat zeinen malda dén -1 (geldítuz 45 graduko angeluak kin ardatzak). [1298] [>>>]

Etiketak:

igandea, ekaina 20, 2021

Nóla kalkulatu ha entropiá on ingles inprimatua

Genúen komentatzen atzo eta  herenegun nóla aplikatu ahal den entropiaren formula ki hizkuntza bat (hártuz hitzak nola oinarrizko seinalea an sistema):

  • aurrena, kalkúlatuz hizkuntza horrentzako hitzen probabilitateak (bere maiztasunak an corpus bat), 
  • eta gero, sartuz probabilitate horiek an formula on entropia

Ikusten denez, kalkulu horietan soilik behar dira hitzen probabilitateak

Zehaztu daigun orain nóla Shannon-ek berak kalkulatu zuén ha entropia on ingles inprimatua, an bere artikulua titulatzen "Prediction an entropy of printed English" (1950)a: hain zuzen, lehenik, hartuko zituén hitzen maiztasunak ti artikulu bat (gaur egun klasikoa) zein Zipf-ek baitzuén publikatua an 1949, titulatzén "Human behavior an the principle of least effort":

eta gero aplikatuko zuén entropiaren formula ki probabilitate horiek harik hitzá 8.727, zeintan guztira osatzen baitzen 1-eko probabilitatea (gainerako hitzek, maiztasun txikienekoek, ez dute parte hartzen an kalkulua):

Hots, ingles inprimatuan, hitz bakoitzeko kapazitate informatiboa (mintzo gara gain kapazitatea zein kode batek beharko lukén ki transmititu hitz bakoitza, batez beste) izanen litzaké 11.82 bit, batez beste. [1297] [>>>]

larunbata, ekaina 19, 2021

Hartley (1928): "... in estimating the capacity of the physical system to transmit information we should ignore the question of interpretation, ..."

Ondorengoa genioén atzo burúz komunikazio-teoriá on Hartley (1928) eta Shannon (1948):

Helburua dá:

...to set up a quantitative measure whereby the capacities of various systems to transmit information may be compared. [Hartley, 1928]

Gero, neurri hori aplikatzen duté ki hizkuntzak, konsideratuz corpus konkretuetan erabilitako hitzak eta hango maiztasun erlatiboak, eta tratatuz hitz guztiak berdin-berdin (izenak, aditzak, adjetiboak, adverbioak, artikuluak,...). Berriro nabarmentzakoa da nóla, tratamendu horretan, hitz guztiak dirén berdin, denak ere dirá parte ti kode bat zeintan diren erabiltzen zeinu (hitz) horiek kin probabilitate bat (respektu hitz-erabilera guztiak) nondik kalkulatuko den hitz bakoitzak aportatuko duen entropia [gure hemengo h(p)].

Eta, diogunez, kalkulu horretan ez da kontuan hartzen hitz-ordenarik, zein den gure ardura nagusia (zeren ordenazio horren arabera baldintzatzen dá kodearen irekitasun komunikatiboa, benetako potentzia komunikatiboa, ...), baizik ze soilik konsideratzen dirén hitzak (edo silabak, edo letrak, ...), denak berdin tratatuak, eta hitz horien maiztasun erlatiboak (an corpus printzipioz zabal bat): horrekin erabakiko litzaké hizkuntzaren entropia, zein konparatuko litzake kin beste hizkuntzen entropia (hizkuntzaren ustezko kapazitate kodifikatzailea).

Horretaz, ikus daigun ondoko pasartea ga Hartley (1928):

Hortxe dio:

... in estimating the capacity of the physical system to transmit information we should ignore the question of interpretation, make each selection perfectly arbitrary, and base our result on the possibility or the receiver's distinguishing the result of selecting any one symbol from that of selecting any other. [Hartley, 1928]

Oinarrian horretaz ari gara noiz kalkúlatu hizkuntza (sistema fisiko) baten entropia (hots, bere kapazitatea ki transmititu informazioa). [1296] [>>>]

Etiketak:

ostirala, ekaina 18, 2021

Hartley (1928): "...to set up a quantitative measure whereby the capacities of various systems to transmit information may be compared"

Aipatu genuén atzo Hartley-ren papera (1928) titulatzén "Transmission of information", non jartzen dirén oinarriak zeintan gero Shannon-ek (1948) eraikiko du bere teoria. Han ondo ikusi ahal da nóla komunikazio-teoria horren helburua, berez, ez du zerikusirik kin esaldien antolakuntza, hitz-ordena edo antzeko kontu sintaktikoak, baizik ze autore horien ardura dirá posibilitate kodifikatzaileak on sistema fisikoak zeinekin den transmititzen informazioa, euren kapazitate kodifikatzaile teorikoa, nahiz akaso ez erábili kapazitate hori:

Helburua dá:

...to set up a quantitative measure whereby the capacities of various systems to transmit information may be compared. [Hartley, 1928]

Gero, neurri hori aplikatzen duté ki hizkuntzak, konsideratuz corpus konkretuetan erabilitako hitzak eta hango maiztasun erlatiboak, eta tratatuz hitz guztiak berdin-berdin (izenak, aditzak, adjetiboak, adverbioak, artikuluak,...). Berriro nabarmentzakoa da nóla, tratamendu horretan, hitz guztiak dirén berdin, denak ere dirá parte ti kode bat zeintan diren erabiltzen zeinu (hitz) horiek kin probabilitate bat (respektu hitz-erabilera guztiak) nondik kalkulatuko den hitz bakoitzak aportatuko duen entropia [gure hemengo h(p)].

Eta, diogunez, kalkulu horretan ez da kontuan hartzen hitz-ordenarik, zein den gure ardura nagusia (zeren ordenazio horren arabera baldintzatzen dá kodearen irekitasun komunikatiboa, benetako potentzia komunikatiboa, ...), baizik ze soilik konsideratzen dirén hitzak (edo silabak, edo letrak, ...), denak berdin tratatuak, eta hitz horien maiztasun erlatiboak (an corpus printzipioz zabal bat): horrekin erabakiko litzaké hizkuntzaren entropia, zein konparatuko litzake kin beste hizkuntzen entropia (hizkuntzaren ustezko kapazitate kodifikatzailea). [1295] [>>>]

Etiketak:

osteguna, ekaina 17, 2021

Shannon-en (eta besteren) komunikazio-teoria ez doa gain prozesamendu efektiboa on mezu 'psikologikoa', baizik gain transmisio zehatz eta efizientea on mezu 'fisikoa'

Atzoko postak jada ematen zigún arrasto bat gain oraingo puntu hau, baina komeni da argi gel dadin ze Shannon-en komunikazio-teoria dá gehiago ingeniaritza-teoria bat ezez teoria linguistiko bat. Esan nahi baita ze Shannon-en kezka ez da aztertzea zéin diren bide linguistikoak zeinekin lórtu efektibitate komunikatibo handiena, baizik ze bere ardura exklusiboa dá aztertzea transmisioa on mezu fisikoak, zeinen estrukturan, esanguran edo efektuan ez den sartzen. Esan nahi baita ze euren helburua dá mezu fisikoa bera, eta ez mezu horren efektu psikologikoa

Ikus daigun nóla Shannon-ek hasieratik argi uzten duen puntu hau an bere jada aipatutako "A Mathematical Theory of Communication" (1948):

hau da:

The fundamental problem of communication is that of reproducing at one point either exactly or approximately a message selected at another point. Frequently the messages have meaning; that is they refer to or are correlated according to some system with certain physical or conceptual entities. These semantic aspects of communication are irrelevant to the engineering problem. The significant aspect is that the actual message is one selected from a set of possible messages.[Shannon, 1948]

Puntu hau, argi denez, oinarrizkoa da afin ondo interpreta daigun teoria osoa. Ikus orain nóla gorago aipatutako Hartley-k (an bere papera titulatzén "Transmission of information", 1928) argiki ezberdintzen zuén arten konsiderazio fisikoak (zein izanen zirén bere ardura noiz aztertzén transmisioa on informazioa) eta konsiderazio psikologikoak (zein ez ziren izanen bere ardura). Aipatutako artikuluaren laburpena hasten zen preseski honela:

hots:

A quantitative measure of "information" is developed which is based on physical as contrasted with psychological considerations.[Hartley, 1928]
Baina, gauza da ze justuki konsiderazio psikologiko horiek dirá gakoa an analisi linguistikoa on komunikazioa: esan nahi baita ze linguistikaren ardura nagusia dá aztertzea nóla bete gure helburu komunikatibo "psikologikoak", hau da informatibo-expresiboak, ahalik-eta modurik onenean. Hau dá, neurri handi batean, gure interes nagusia hasten da noiz Shannon-en (eta besteren) interesa amaitzen den. [1294] [>>>]

Etiketak:

asteazkena, ekaina 16, 2021

Bi emaitza posible izan ahal dira arbitrarioki antzekoak, baina ezberdinak (ezberdintzat jotzen) badira, entropia asko igoarazi ahal dute

Atzo eta herenegun azpimarratzen genuén entropiaren propietate bat zeinen arabera, probabilitate-banaketa batean, probabilitateetako batetik kentzen bagenuen probabilitate "txiki" bat, horrela sórtuz beste banaketa bat non egonen zén emaitza posible bat gehiago kin probabilitate"txiki" hori bakandua, orduan probabilitate isolatu horren eragina gain entropia izanen zen handiagoa zein lehen, halan ze probabilitate-banaketa erlatiboki zatituago horrek izanen zuén entropia gehiago eta prediktibilitate gutxiago.

Horren inguruan, báda beste puntu bat zein akaso komeniko litzakén azpimarratzea: entropia oinarritzen dá soilik an probabilitateak, ez an emaitzak eurak. Esan nahi baita ze emaitza posible bat banatu ahal da an emaitza posible ezberdin oso antzekoak baina ezberdinak (eta kin probabilitate txikiagoak), lórtuz banaketa bat non entropia erlatiboki aski handitu ahal den. 

Ikustagun adibide bat: demagun aldagai aleatorio bat, X, non jasotzen den zénbat irabazi ahal den an joku bat zeintan daukagún 0.5eko probablitatea ki irabazi euro bat, eta beste 0.5eko probabilitatea ki irabazi 1.000.000 euro:

P(1) = 0 eta P(1.000.000) = 0.5

Dakigunez, aldagai aleatorio horren entropia izanen dá 1 bit.

Orain suposa dezagun beste aldagai aleatorio bat, Y, adieraziz zénbat irabazi ahal dugún an joku bat zeintan daukagun 0.5eko probabilitatea ki irabazi euro bat, eta beste 0.5eko probabilitatea ki irabazi 2 euro:

P(1) = 0 eta P(2) = 0.5

Hemen ere, entropia izanen da 1 bit.

Bide horretatik, demagun:

P(3) = 0.15 eta P(1.000.000) = 0.85

zeinen entropia izanen da:

H(0.15, 0.85) = 0.15*log2(1/0.15) + 0.85*log2(1/0.85) = 0.6098403

eta bestalde:

P(1) = 0.1, P(2) = 0.2, P(3) = 0.3,  P(4) = 0.4, P(5) = 0.5, P(1.000.000) = 0.85

zeinen entropia izanen dén:

H(0.1, 0.2, 0.3, 0.4, 0.5, 0.85) = 0.1*log2(1/0.1) + 0.2*log2(1/0.) + 0.3*log2(1/0.3) + 0.4*log2(1/0.4) + 0.5*log2(1/0.5) + 0.85*log2(1/0.85) = 2.545735
Gauza da ze, bigarren loteria horretan, zatitu dugu emaitza posible baten probabilitatea (3 euro irabazteko probabilitea: P(3) = 0.15) arten emaitza posible ezberdin gehiago zein diren erlatiboki oso antzekoak, eta zeinen probabilitate totala dén lehengo emaitza bakar horren berdina (1, 2, 3, 4 edo 5 euro irabaztea, non P(1) +P(2)+P(3)+P(4)+P(5) = 0.15), bitartean ze, bestalde, 1.000.000 euro irabazteko probabilitatea mantendu da (1.000.000 euro irabaztea dá emaitza erlatiboki oso ezberdina respektu beste guztiak).

Ikuspuntu batetik esan liteke ze bi joku horietako zalantza-gradua ez da hain ezberdina (bigarrenean, zenbait emaitza posible baitirá erlatiboki oso antzekoak), nahiz entropia laukoiztu egin den. Eta berdin gertatuko litzake baldin emaitzen arteko diferentzia izan balitz zentimo batekoa. Izan ere, bi (edo gehiago) emaitza posible izan ahal dira arbitrarioki antzekoak, baina ezberdinak (ezberdintzat jotzen) badira, entropia asko igoarazi ahal dute. [1293] [>>>]

asteartea, ekaina 15, 2021

Behin bakanduta, zentesima horrek izanen dú askoz eragin (pisu) handiagoa gain entropia

Atzoko sarreran genioen ze ...

 ... entropiaren konputo osoan, probabilitate txikiagoetako zentesimek aportatzen duté erlatiboki gehiago zein probabilitate handiagoetakoek (kasu horretan, 1.514573 aurka 0.6214883). 

Eta zér gertatzen da baldin banatú probilitate hori an zati gehiago? Adibidez, kénduz zentesima bat ki probabilitate handiena eta járriz ehunen hori aparte?

H(0.64, 0.35, 0.01) = (0.64*log2(1/0.64)) + (0.35*log2(1/0.35)) + (0.01*log2(1/0.01)) = 1.008607

respektu goragoko:

H(0.65, 0.35) = (0.65*log2(1/0.65)) + (0.35*log2(1/0.35)) = 0.9340681

Ba, gertatzen da ze, oraingo banaketa zatituagoan, entropia erlatiboki aski handitu da zeren, alde batetik (eta efektu hau ez da orokorra) probabilitate handiena jaisteak berak eragin du entropia-igoera bat:

h(0.65) = 0.65*log2(1/0.65) = 0.4039674 <  0.412068 = 0.64*log2(1/0.64)  = h(0.64)

eta bestetik zeren (eta efektu hau báda orokorra) zentesima horren batezbesteko efektua askoz pisuagoa da orain an konputo osoa on entropia:

h(0.01) = 0.01*log2(1/0.01) = 0.06643856, halan-ze  0.06643856/0.01 = 6.643856

Baina baldin, nola genioen, lehenengo efektu hori ez bada beti gertatzen, gauza da: nóiz gertatzen da lehenengo efektu hori? Edo bestela galdetuta: nón dago maximoa on:

h(p) = p*log2(1/p)

respektu p, noiz p aurkitzen dén arten 0 eta 1?

Maxímizatuz funtzio hori, lortzen dugu ondoko maximo-baldintza beharrezkoa (baldintza nahikoa betetzen da):

log2(e) - log2(1/p) = 0 

nondik 

p = (1/e) = 0.3678794 

non 

max(h) = 0.5307378 

Esan nahi baita ze h(x) dá gorakorra harik p = 0.3678794 non lortzen dén h-ren maximoa (0.5307378) eta nondik aurrera h funtzioa hasten den izaten beherakorra. Hortaz, atzo aipatutako lehenengo efektu hori (esan nahi baita probabilitate bati kantitate "txiki" bat kenduta, probabilitate txikiago horren entropia igotzea) ez da gertatuko baldin p  < 0.3678794 (atzokoan bai gertatzen zén zeren p = 0,65 > 0.3678794). Adibidez:

h(0.35) = 0.35*log2(1/0.35) = 0.5301006 >  0.5291737 = 0.34*log2(1/0.34)  = h(0.34)

Azkenik gaineratu ze atzoko bigarren efektua báda orokorra (h(p)-ren bigarren derivatua dá negatiboa artén 0 eta 1): 

H(0.65, 0.34) = (0.65*log2(1/0.65)) + (0.34*log2(1/0.34)) = 0.9331412
H(0.65, 0.35) = (0.65*log2(1/0.65)) + (0.35*log2(1/0.35)) = 0.9340681 
H(0.65, 0.34, 0.01) = (0.65*log2(1/0.65)) + (0.34*log2(1/0.34)) + (0.01*log2(1/0.01)) = 0.9995797
non, ikusten denez, bakandutako zentesima horrek izanen dú askoz eragin (pisu) handiagoa gain entropia noiz agertzen den bakanduta. [1292] [>>>]

astelehena, ekaina 14, 2021

Zentesima bakandu horrek ez soilik ez du efektu negatiborik gain entropia, baizik ze orain dauka batezbesteko efektu positibo erlatiboki handiena respektu beste bi probabilitateak

Sarrera honetan azpimarratu nahi genuke entropiaren ezaugarri bat zein den derivatzen ti bere definizioa (formula), alegia ze probabilitate-banaketa batetik berbanatzen (zatitzen) badugu probabilitate bat (edozein probabilitate) an probabilitate (zati) gehiago (eta txikiagoak), probabilitate txikiago horiek aportatuko duté erlatiboki entropia gehiago (izanen duté erlatiboki pisu positibo handiagoa an konputo osoa on entropia). Ikustagun adibide bat, hártuz honako probabilitate-banaketa:

H(0.65, 0.35) = (0.65*log2(1/0.65)) + (0.35*log2(1/0.35)) = 0.9340681

non dauzkagu bi zati hauek:

h(0.65) = 0.65*log2(1/0.65) = 0.4039674,  halan-ze: 0.4039674/0.65 = 0.6214883

eta

h(0.35) = 0.35*log2(1/0.35) = 0.5301006, halan-ze  0.5301006/0.35 = 1.514573

Esan nahi baita ze, entropiaren konputo osoan, probabilitate txikiagoetako zentesimek aportatzen duté erlatiboki gehiago zein probabilitate handiagoetakoek (kasu horretan, 1.514573 aurka 0.6214883). 

Eta zér gertatzen da baldin banatú probilitate hori an zati gehiago? Adibidez, kénduz zentesima bat ki probabilitate handiena eta járriz ehunen hori aparte?

H(0.64, 0.35, 0.01) = (0.64*log2(1/0.64)) + (0.35*log2(1/0.35)) + (0.01*log2(1/0.01)) = 1.008607

respektu goragoko:

H(0.65, 0.35) = (0.65*log2(1/0.65)) + (0.35*log2(1/0.35)) = 0.9340681

Ba, gertatzen da ze, oraingo banaketa zatituagoan, entropia erlatiboki aski handitu da zeren, alde batetik (eta efektu hau ez da orokorra) probabilitate handiena jaisteak berak eragin du entropia-igoera bat:

h(0.65) = 0.65*log2(1/0.65) = 0.4039674 <  0.412068 = 0.64*log2(1/0.64)  = h(0.64)

eta bestetik zeren (eta efektu hau báda orokorra) zentesima horren batezbesteko efektua askoz pisuagoa da orain an konputo osoa on entropia:

h(0.01) = 0.01*log2(1/0.01) = 0.06643856, halan-ze  0.06643856/0.01 = 6.643856
esan nahi baita ze, kasu konkretu honetan, zentesima bakandu horrek ez soilik ez du efektu negatiborik gain entropia, baizik ze orain dauka batezbesteko efektu positibo erlatiboki handiena respektu beste bi probabilitateak (handiena eta ertaina). [1291] [>>>]

igandea, ekaina 13, 2021

Eta zér gertatzen da noiz probabilitateak ez diren berdinak? Ba ze formula aplikatzen dá berdin-berdin

Herenegungo eta atzoko postetan ikusi ditugú zenbait adibide non genuen kalkulatzen zénbat bit (informazio-unitate) beharko genituzke ki transmititu ha emaitzá on saio aleatorioak non emaitza posible guztiek zutén ber probabilitatea. Horrela, eta adibidez, genuén:

H(1/2, 1/2)log2(2) = 1 bit 

Baina, zér gertatzen da baldin probabilitateak ez badira berdinak? Ba ze formula aplikatzen dá berdin-berdin (dakigunez, H(pi) jarraitua da an pi):

non daukagun ze: 

H(P(aurpegi), P(gurutze)) = P(aurpegi)*log2(1/P(aurpegi)) + P(gurutze)*log2(1/P(gurutze))

H(0.001, 0.999) = 0.001*log2(1/0.001) + 0.999*log2(1/0.999) = 0.01140776 = 0.011

H(0.01, 0.99) = 0.01*log2(1/0.01) + 0.99*log2(1/0.99) = 0.08079314 = 0.081

H(0.1, 0.9) = 0.1*log2(1/0.1) + 0.9*log2(1/0.9) = 0.4689956 = 0.47

H(0.2, 0.8) = 0.2*log2(1/0.2) + 0.8*log2(1/0.8) =  0.7219281 = 0.72

H(0.5, 0.5) = 0.5*log2(1/0.5) + 0.5*log2(1/0.5) = 1

Balio horiek bihurtzen dirá puntuak an ondoko grafikoa (dá goragoko grafiko bera, baina Shannon-ek berak emana an 1948):

Shannon-en irudia eta textua (1948)
Bestalde, txanpon irregular baten kasuan ez da hain intuitiboa interpretatzea emaitza horiek an terminuak on galderak (salbu an kasua non H(1,0)=0, beste kasu guztietan beharko zén galdera bat), halan ze egokiagoa dirudi interpretazio bat an terminuak on ziurtasun-gradua gain emaitza lehenda gauzátu saioa: zenbat eta ziurtasun gutxiago izán gain emaitza, emaitza horren informazio-edukia handiagoa izanen da, iritsiz eduki informatibo maximoa noiz emaitza posible guztiak dirén ekiprobableak (kasu horretan daukagu zalantza-gradu maximoa, nola ikusten dugun an goragoko grafikoa noiz P(aurpegi) = P(gurutze) = 0.5 [1290] [>>>]

Etiketak: