balbula: ekaina 2021

asteazkena, ekaina 30, 2021

Eta zéin litzake a entropia teorikoa e corpus bat non agertzen dirén 6.002 hitz ezberdin? (B marra: lagin periodistiko bat)

Hemen ikusten genuén beheragoko grafikoa non Zipf-ek (1948) ilustratzen zuén bere erlazioa lótuz corpus bateko hitz ezberdinen maiztasuna (f) eta maiztasun horien ordinalitatea (r), zeinen biderkadura mantenduko zén aproximatuki konstante (f * r = C). Grafiko horretan, dakigunez, A marra referitzen da ki Ulisses nobela ga Joyce, bitárten B marra dago ki lagin periodistiko bat zeinen bidez Zip-ek erakutsi nahi zuen nóla bere erlazioaren aplikazioa zihoan haruntzago zein aipatutako Ulisses. Eta, bai, bádirudi ze, neurri handi batean behintzat, Zip-en proportzio hori betetzen da hor ere:

Hortaz, eta hemen kalkulatu dugularik Ulisses-en entropia teorikoa (alegia, a entropia e corpus linguistiko hori baldin Zipf-en erlazioa beteko balitz perfektuki, nahiz hori soilik gertatu ahal den teorikoki zatio diskretutasuna e maiztasunak), gaurkoan nahi genuke kalkulatu zenbátera heltzen den a entropia teorikoa e lagin periodistiko hori.

Horretarako, aurrena kalkulatuko dugú corpus horrentzako Sn proportzioa (alegia, zéin izanen litzake a proportzio teorikoa arten maiztasun altuena eta hitzen kopuru totala baldin Zipf-en erlazioa perfektuki beteko balitz):

S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = sum(1/(1:6002)) = 9.277147

Hortik, hitz erabilienaren probabilitate teorikoa litzaké:

(1/ 9.277147) = 0.1077918

eta bilatutako entropia teorikoa:

H = sum((1/( 9.277147*(1:6002)))*log2(1/(1/( 9.277147*(1:6002))))) = 9.087565 bit, batez beste, hitz bakoitzeko.

zein diren nabarmenki bit teoriko gutxiago zein batezbesteko 10.47396 bitak per hitza an Ulisses. [⇶]

asteartea, ekaina 29, 2021

15 bit per hitza an kontextu ekiprobable bat = 15 galdera binario ki identifikatu hitz bakoitza arten 32.768 hitz ezberdin

Atzokoan genioen ze:

Hortik ondorioztatzen dugu ze, izanen bagenu corpus linguistiko bat non agertuko lirake 32.768 hitz diferente eta denak ere kin ber probabilitatea (maiztasuna), orduan hitz bakoitzaren probabilitatea litzaké:
(1/32768) = 3.051758e-05 (hitz bakoitzaren probabilitate berdina)
eta hitz bakoitzeko entropia:
H = 32768*(3.051758e-05*log2(1/3.051758e-05)) = 15 bit per hitza

Sarrera honetan genekusenez, emaitza hori (15 hori) interpreta daiteke nola zénbat galdera binario beharko liraké ki identifikatu hitz konkretu bat arten 32.768 diferente.

Izan ere, lehen galderan baztertuko genuké hitzen erdia:

(32768/2) = 16384

Bigarren galderan soilik geldituko zén hitzen laurden bat:

(16384/2) = 8192

eta hola jarraituko genuke kodetzen galdera-erantzunak ártio 15. galdera (izan ere: log2(32768) = 15), non soilik geldituko litzaiguké hitz bat (hain justu húra zeinen bila genbiltzan):

(2/2) = 11

esan nahi baita ze, 15. erantzun horretan, identifikatua geldituko litzake dena delako hitza. [⇶]

astelehena, ekaina 28, 2021

Entropia horrek neurtzen du a kapazitate kodifikatzaile binarioa zein kode batek beharko luken batezbeste ki transmititu hitz ezberdin bakoitza (29.899 hitz ezberdin) an Joyce-n nobela

Atzoko sarreran kalkulatzen genuén a entropia (per hitza) an Joyce-n Ulisses:

Orain kalkula daikegu a entropia, H, zeinen bila genbiltzan, hau dá, a entropia e Ulisses:
H = sum((1/(10.88281*(1:29899)))*log2(1/(1/(10.88281*(1:29899))))) = 10.47396 bit, batez beste, hitz bakoitzeko.
Justuki horixe (10.47396 bit per hitza) izanen dá a entropia teorikoa e Ulisses (kin bere 29.899 hitz ezberdin).

Baina batezbesteko kantitate horrek zér neurtzen du? Ba, neurtzen du a kapazitate kodifikatzaile binarioa zein kode batek beharko luken batezbeste ki transmititu hitz ezberdin bakoitza (29.899 hitz ezberdin) an Joyce-n nobela (kasu honetan hitz guztiak ez daukate agertzeko probabilitate berdina: batzuk agertzen dira an corpusa ondo maizago zein beste batzuk zein soilik agertzen dirá behin an obre guztia).

Gogora daigun nóla kalkulatzen eta interpretatzen genuen bit-kopurua an egoera probabilistikoak non aukera guztien probabilitateak zirén berdinak, eta non ikusten genuen ze "bit-en botere kodifikatzailea dá progresatzen geometrikoki":

Herenegun eta atzo ikusten genuen nóla 1 bit zen hóri informazio-kantitatea zein den aurkitzen an aukera binario bat non bi emaitza posibleak dirén ekiprobrableak [adibidez, txanpon regular bat airera botata: P(aurpegi) = P(gurutze) = (1/2)]:
H(1/2, 1/2) = (1/2)*log2(2)+(1/2)*log2(2) = 2*(1/2)*log2(2) = log2(2) = 1 bit = 1 txanpon
eta nóla, adibidez 2 txanpon regular boteaz, lortzen genuen egoera probabilistiko bat zeinen emaitza transmititzeko nahikoa liraké 2 bit [P(aurpegi, aurpegi) = P(aurpegi, gurutze) = P(gurutze, aurpegi) = P,(gurutze, gurutze) = (1/4)]:
H(1/4, 1/4, 1/4, 1/4) = (1/4)*log2(4)+(1/4)*log2(4)+(1/4)*log2(4)+(1/4)*log2(4) = 4*(1/4)*log2(4) = log2(4) = 2 bit = 2 txanpon
halan-ze,
... halako saio baten emaitza jakinarazteko (4 emaitza posible eta ekiprobableak), nahikoa litzaké kode bat non emanen zirén bi erantzun binario (hain zuzen, 2 "binary unit", 2 bit).
Eta horrela, 3 txanpon regular aldi berean botata, izanen genuke saio aleatorio bat kin 8 emaitza posible ekiprobable, zeinen emaitza transmititzeko nahikoa liraké 3 bit:
H(1/8, 1/8, 1/8, 1/8,1/8, 1/8, 1/8, 1/8) = log2(8) = 3 bit = 3 txanpon
non daukagu ze, bitárten bit-kopurua den progresatzen aritmetikoki (géhituz 1), saioaren emaitza posibleak progresatzen dirá geometrikoaki (bidérkatuz bider 2):
H(1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16) = log2(16) = 4 bit = 4 txanpon [16 emaitza posible]
H(1/32, ..., 1/32) = log2(32) = 5 bit = 5 txanpon [32 emaitza posible]
H(1/256, ..., 1/256) = log2(256) = 8 bit = 8 txanpon [256 emaitza posible]
H(1/(2^n), ..., 1/(2^n)) = log2(2^n) = n bit = n txanpon [2^n (alegia, 2 ber n) emaitza posible]
Saio aleatorio batean 2 ber n (2^n) emaitza posible ekiprobable egonda [adibidez, 2^20=1.048.576], nahikoa liraké n bit [adibidez, log2(2^20) = 20 bit] ki transmititu bere emaitza.
Esan nahi baita ze konsideratuko bagenu saio aleatorio bat kin 32.768 emaitza posible ekiprobable, nahikoa litzaké kode bat non emanen zirén 15 erantzun binario (hain zuzen, 15 "binary unit", 15 bit) afin transmititu bere emaitza:
H(1/(2^15), ..., 1/(2^15)) = log2(2^15) = 15 bit = 15 txanpon [32.768 emaitza posible]

Esan nahi baita ze, izanen bagenu corpus linguistiko bat non agertuko lirake 32.768 hitz diferente eta denak ere kin ber probabilitatea (maiztasuna), orduan hitz bakoitzaren probabilitatea litzaké:

(1/32768) = 3.051758e-05 (hitz bakoitzaren probabilitate berdina)

eta hitz bakoitzeko entropia:

H = 32768*(3.051758e-05*log2(1/3.051758e-05)) = 15 bit per hitza

Baldin orain izanen balira gutxixeago: justuki gure 29.899 hitz ezberdin (nola dirén an Ulisses), baina denak ere kin ber probabilitatea, orduan:

(1/29899) = 3.344593e-05 (hitz bakoitzaren probabilitate berdina)

eta

H = 29899*(3.344593e-05*log2(1/3.344593e-05)) = 14.86781 per hitza

Joyce-n Ulisses-en ordea, hitz guztiek ez dute ber probabilitatea, baizik-ze hitz batzuk daukaté askoz probabilitate gehiago zein beste batzuk, hola jaitsiaraziz a entropia respektu kasu igualitarioa: kasu honetan, entropia jaisten da artio goragoko emaitza: hitz bakoitzeko batezbeste 14.86781 bit. [⇶]

igandea, ekaina 27, 2021

Nóla kalkulatu a entropia teorikoa e Ulisses?

Behin atzokoan ikusita nóla kalkulatu Sn proportzioa an Ulisses (alegia, nóla kalkulatu a proportzioa arten hitz-kopuru totala eta hitz ezberdinen kopurua:

S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281

halan-ze hitz ezberdin bakoitzeko, izanen dugú 10.88281 hitz, totalean), gaurko sarrera honetan saiatuko gara kalkulatzen a entropia e Ulisses baldin corpus horretan Zipf-en erlazioa beteko balitz perfektuki (ordezta aproximatuki, nola betetzen den): esan nahi baita, baldin beheko irudiko A marra, Ulisses-i dagokona, izango balitz perfektuki zuzena, nola den C marra teorikoa, ordezta aproximatuki zuzena, nola den (ikus grafiko hori hemen ere).

Bestela galdetuta, ¿zéin izango litzake C marra teorikoaren entropia baldin hasiko balitz an 29.899 hitz ezberdin (bere ordenatu-balioa = 29.899) ordezta hasí an 10.000 (hitz ezberdin)?

Kalkulu hori egiteko behar dugu Ulisses-en hitz ezberdin guztien probabilitateak (finean, euren maiztasun erlatiboak respektu hitz-kopuru totala), zeini aplikatuko diegu a formula e entropia (ikus hemen edo hemen):

Hortaz, ¿zenbátekoa izanen da a probabilitatea e hitz erabiliena an Ulisses? Ba, dakigularik ze hitz horren maiztasuna agertzen da an erlazioa 1/10.88281 respektuz hitz-kopuru totala, ondoriozta daikegu ze justuki horixe da bere probabilitatea, alegia:

(1/10.88281) = 0.09188803

Eta bigarren hitz erabilienaren probabilitatea? Ba, dakigularik ze probabilitate hori dá justuki erdia respektu lehenengo hitz erabiliena (zeren Zipf-en erlazioa perfektuki betetzen baita), hauxe izanen da:

(1/(10.88281*2)) = 0.04594402

Eta n-garren hitz erabilienaren probabilitatea?

pn = 1/(10.88281*n)

Eta hitz gutxien erabilienaren probabilitatea?

(1/(10.88281*29.889)) = 0.003074309

Puntu honetan, ziurta gaitezen ze probabilitate-sorta horrek dú osatzen probabilitate-banaketa ondo definitu bat, hau dá, konproba daigun ze 29.899 probabilitate guzti horien batura dén 1, bidéz ondorengo operazioa:

sum(1/(10.88281*(1:29899))) = 1

[OHARRA: Expresio horren lehenengo termino hori dá R kodetxoa adiéraziz a batuketa e goragoko n (29.899) probabilitate guzti horiek, zeinen emaitza ateratzen dén 1]

Hortaz, gure zenbaki-segida horrek dú betetzen a eskakizunak zeinen bila ari ginen:

lehenengo zenbakia (finean, probabilitatea) dá (1/(10.88281*2)) = 0.04594402

n-garren zenbakia dá lehenengo zenbaki hori zati n, eta

euren batura dá 1.

Orain kalkula daikegu a entropia, H, zeinen bila genbiltzan, hau dá. a entropia e Ulisses:

H = sum((1/(10.88281*(1:29899)))*log2(1/(1/(10.88281*(1:29899))))) = 10.47396 bit, batez beste, hitz bakoitzeko.

[OHARRA: Expresio horren lehenengo termino hori dá R kodetxoa adiéraziz a batuketa e 29.899 entropia partzialak zein dagozkie ki 29.899 hitz ezberdinak, zeinen emaitza, hau dá H entropia, dén 10.47396]

Justuki horixe (10.47396 bit per hitza) izanen dá a entropia teorikoa e Ulisses (kin bere 29.899 hitz ezberdin). [⇶]

larunbata, ekaina 26, 2021

"Sn" proportzioa hazten da kin "n": zénbat-eta "n" handiagoa, "Sn" ere handiagoa

Herenegungo sarreran orobat galdetzen genuén ea hango 10 proportzio biribil hori mantenduko al zen an edozein corpus non beté Zipf-en erlazioa, edo alternatiboki, ea proportzio hori aldatuko zen an funtzioa e beste zerbait (bete aldagairen bat):

corpus guztietan mantendu beharko litzake?, ala: aldatu beharko lizake an funtzioa e beste zerbait?

Erantzuna atzoko sarreran bertan irakurri ahal genuen, noiz genioén kin Zipf ezen:

Hortaz, supósatuz lagun teoriko bat non dén betetzen Zipf-en erlazioa, kalkulatu geinke zéin proportziotan agertuko den hitz erabiliena respektuz hitzen kopuru totala (zein 2.1 taulan gutxi gorabehera zén 1/10), edo alderantziz, zénbat aldiz handiagoa izan beharko litzaken hitz-kopuru totala respektuz hitz erabiliena (2.1 taulan gutxi gorabehera 10 aldiz handiagoa), soilik erábiliz zénbat hitz ezberdin agertu diren an textua, hau dá n, bidéz formula hau:
Sn = 1 + (1/2) + (1/3) + (1/4) + ... + (1/(n-1)) + (1/n)

Adibidez, atzoko adibidean (Ulisses lanean) zíren agertzen 29.899 hitz diferente (arten 260.430 hitz, guztira), halan-ze gure proportzioa izanen dá justuki:
S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281
esan nahi baita ze, teorikoki, proportzio hori izanen zén handixeagoa zein 10, zehazki S29.899 = 10.88281.

Esan nahi baita ze, erántzunez ki goragoko galdera, proportzio hori ez da konstantea, baizik emaitzá ti goragoko formula hori, zeinen balioa aldatuko da an funtzioa e kopuru totala e hitz diferenteak zein díren agertzen an corpusa: zénbat-eta hitz diferente gehiago, Sn ere handiagoa.

Adibidez, hemen Zipf-ek ematen zigún B zuzena zein referitzen zen ki lagin linguistiko bat aterea ti prensa, eta non, aparte beté Zipf-en erlazioa, ikusten dugu ze hitz ezberdinen kopurua zén 6.002, lau aldiz txikiagoa zein Ulisses-en hotz-kopuru totala. Kasu horretan, ¿zénbat aldiz handiagoa litzake hitz-kopuru osoa respektuz maiztasun altuena? Kalkula daigun:

S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = 9.277147

edo, bestela esanda, hitz erabiliena agertuko dá an proportzioá 1/9.277147 respektu corpusaren tamaina (hitz-kopurua). Diferentzia erlatiboki handia da: 10.88281 - 9.277147 = 1.605663.

Gauza da ze zénbat eta handiagoa izan n (hau da, hitz ezberdien kopurua), handiagoa ere izanen da gure proportzio teoriko zehatza, Sn. [⇶]

ostirala, ekaina 25, 2021

Zipf (1948): "...we can calculate the approximate size of any Sn (atzoko proportzioa) if we know the size of n (and vice versa)."

Galdetzen genuén atzo ea kalkulatu al liteken teorikoki a proportzioa arten corpus bateko hitz-kopuru totala (kin errepikapenak) eta corpus horretako hitz erabilienaren maiztasuna (adibidez, Zipf-en atzoko adibidean hitz-kopuru totala zén 10 aldiz handiago zein maiztaun altuena) supósatuz ze corpus horretan dén betetzen Zipf-en erlazioa. Eta erantzuna Zipf-ek berak ematen digu:

Hortaz, supósatuz lagun teoriko bat non dén betetzen Zipf-en erlazioa, kalkulatu geinke zéin proportziotan agertuko den hitz erabiliena respektuz hitzen kopuru totala (zein 2.1 taulan gutxi gorabehera zén 1/10), edo alderantziz, zénbat aldiz handiagoa izan beharko litzaken hitz-kopuru totala respektuz hitz erabiliena (2.1 taulan gutxi gorabehera 10 aldiz handiagoa), soilik erábiliz zénbat hitz ezberdin agertu diren an textua, hau dá n, bidéz formula hau:

Sn = 1 + (1/2) + (1/3) + (1/4) + ... + (1/(n-1)) + (1/n)

Adibidez, atzoko adibidean (Ulisses lanean) zíren agertzen 29.899 hitz diferente (arten 260.430 hitz, guztira), halan-ze gure proportzioa izanen dá justuki:

S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281

esan nahi baita ze, teorikoki, proportzio hori izanen zén handixeagoa zein 10, zehazki S29.899 = 10.88281. [⇶]

osteguna, ekaina 24, 2021

[Zipf, enpirikoki: C * 10 ≈ corpusaren hitz-kopuru totala] Baina, kalkulatu al liteke proportzio hori (10 misteriotsu hori) teorikoki?

Atzoko sarreran konprobatzen genuen nóla adieraz geinken grafikoki Zipf-en erlazioa (arten hitzen maiztasuna eta maiztasun horien ordenalitatea) an corpus teoriko bat non Zipf-en formula beteko baitzén (hortaz, emaitza dá zuzen teoriko bat, zein atzoko grafikoan geldituko zén gorago edo beherago aráuz maiztasuna e hitz erabiliena: zénbat eta altuagoa, gorago).

Bide teoriko beretik, duela gutxi ikusten genuén ondorengo taula (aterea ti ber liburua ga Zipf) non agertzen baitzen 10 zenbaki (proportzio) interesgarri bezain misteriotsu bat lótuz C kantitatea (hitz erabilienaren frekuentzia noiz f = 1) eta aztertutako corpusaren hitz-kopuru totala (C * 10). Gogora daigun:

hau dá:

Baina,

kalkulatu al liteke proportzio hori (10 misteriotsu hori) teorikoki?

corpus guztietan mantendu beharko litzake?, ala: aldatu beharko lizake an funtzioa e beste zerbait?

nóla erlaziona daiteke proportzio hori kin kalkulua e entropia e corpus linguisiko bat?

Horretaz saiatuko gara mintzatzen an ondorengo sarrerak. [⇶]

asteazkena, ekaina 23, 2021

Nóla lortzen dira lehenengo 3 puntuak e atzoko zuzen teorikoa? (gauza da ze grafikoan agertzen dira kantitate ez-logaritmikoak, nahizta bi ardatzetako eskalak dirén logaritmikoak)

Atzo ikusten genuén grafiko bat non Zipf-ek dún erakusten bere erlazioa (r * f = C, nondik log10(r) + log10(f) = K) eta non, aparte emán bi adibide praktiko, autoreak dún ematen a zuzen teorikoa zein aterako litzaiguke ti corpus bat zeintan hitz erabiliena agertuko zén 10.000 aldiz (eta non, jakina, Zipf-en formula beteko zén perfektuki). Hauxe zen grafikoa:

Ikus daigun orain nóla kalkulatzen dirén a koordenatuak e lehenengo hiru hitz erabilienak an corpus teoriko hori (puntu horiek batzu doa ateratzen zuzen teoriko hori). Has gaitezen ti hitz erabiliena, zein, diogunez, agertzen da 10.000 aldiz, nahiz grafikoaren ardatz vertikalean (ordenatu-ardatzean) adierazi beharko dugú kantitate horren logaritmo dezimala:

log10(10.000) = 4

Gauza da ze 10000 gorri hori dagoen lekuan, eskala logaritmikoan 4 dago (1000 dagoenean, 3 bat, 100 dagoenean 2 bat,...). Bestalde, ardatz horizontalean, (abzisa-ardatzean), maiztasun horri dagokio 1 zenbakia (zeren da 1. hitz erabiliena), halan-ze, hor ere, adierazi beharko dugu 1 horren logaritmo dezimala:

log10(1) = 0

lórtuz (4,0) bikotea, zein diren a koordenatuak e hitz erabiliena an corpus hori (puntu horretan C zuzenak ukitzen du ordenatu-ardatza), nahiz grafikoan erakusten dirén maiztasun eta ordena-zenbaki dezimalak, zeinekin osatuko litzaké a puntua (1, 10.000). Bide beretik, bigarren hitz erabilienaren koordenatu logaritmikoak izanen zirén:

log10(5.000) = 3.69897
log10(2) = 0.30103

hau dá (0.30103, 3.69897). Eta hirugarren hitz erabilienaren koordenatuak:

(log10(3) = 0.4771213, log10(10000/3) = 3.522879)

Konproba daigun orain nóla puntu horiek pertenitzen dira ki zuzen bat kin malda -1:

log10(1) - log10(2) - = 0 - 0.30103 = -0.30103

eta

log10(10000) - log10(5.000) = 4 - 3.69897 = 0.30103

non bi dimensioetan (ordenatu eta bazisa ardatzetan) gertatu dirá aldaketa berdinak an balio absolutua (nahiz zeinua kontrakoa izan, zeren mala dá -1). Ikus daigun orain bi ardatzetako aldaketak arten 2. eta 3. hitz erabilienak, eta konproba daigun nóla hauek ere berdinak diren an balio absolutua (nahiz zeinua kontrakoa izan)::

log10(2) - log10(3) = 0.30103 - 0.4771213 = -0 .176091

eta

log10(5000) - log10(10000/3) = 3.69897 - 3.522879 = 0.176091

berriro erakutsiz ze puntu horiek dirá aurkitzen an lehengo zuzen bera e maldá -1.

Hortaz, kontuan hartu behar da ze grafikoan agertzen dirá kantitate ez-logaritmikoak (eskala linealekoak, intuitiboagoak) nahizta bi ardatzetako eskalak dirén logaritmikoak. [⇶]

asteartea, ekaina 22, 2021

Zipf-ek eskainitako grafiko bat non dún erakusten bere erlazioa an bi corpus (1948)

Atzoko sarreran ikusten genuén nóla Zipf-ek, erábiliz James Joyce-ren Ulisses lana, deduzitzen zuén bere erlazioa arten hitzen maiztasunak (f) eta maiztasun horien ordena-zenbakia (r), non, aproximatuki, bi kantitate horien biderkadura mantenduko zén konstante: f * r = C. Joyce-k, obra horretan, erabili zituén justuki 28.899 hitz ezberdin, bakoitza kin bere maiztasuna, artio osatú guztira 260.430 hitz, halan-ze batezbesteko maiztasuna dá 9.011731, nahiz hitz guztiak ez dute ber maiztasuna. Hortxe sartzen da Zipf-en erlazioa, zeinen arabera, esan dugunez, maiztasunak gordetzen dute erlazio estu bat kin euren ordena.

Erlazio hori ilustratzeko, beherago daukagu grafiko bat ganik Zipf bera (an bere "Human behavior an the principle of least effort", 1949), non A marra dagokio ki Joyce-ren lan aipatua, B marra dagokio ki beste lagin bat, oraingoan aterea ti egunkarietako textuak, eta C marra dá zuzen teorikoá (horregatik zuzen-zuzena) zein aterako litzake baldin lagin batean hitz erabilienak izanen balitú 10.000 erabilera eta n-garren hitz erabilienak ondoko fn erabilera-kopurua:

fn = (10.000/n)

Adibidez, lagin teoriko horretan, 3. hitz erabiliena agertuko litzaké justuki 10.000/3 aldiz.

[OHARRA: esan behar da ze grafikoan ordenatu-ardatzeko 10.000 kantitate hori ez da agertzen bere lekuan, baizik gorago, goragoko izkinean, non kantitatea dá ondo handiagoa zein 10.000, zeren eskalan konsideratzen ari dira logaritmo dezimalak: gorriz jarrita dago leku zehatza]

Grafikoan, Joyce-ren nobelaren marra (A) dá agertzen gorago zein egunkarietako laginaren marra (B), zeren Joyceren lanean hitz erabilienak dú maiztasun handiagoa (guztira Joyce-ren lanean erabiltzen dirá sei bat aldiz hitz gehiago: 260.430 aurka 43.989). Baina gauza da ze, bi kasuetan, malda dá gutxi gorabehera hóri bera zein espero genuen jarraiki Zipf-en erlazioa, alegia, -1. [⇶]

astelehena, ekaina 21, 2021

Zipf-en erlazioa arten hitzen maiztasuna (f) eta maiztasun horien ordena-zenbakia (r), zein dén: r * f = C

Atzoko sarreran agertzen zitzaigun Zipf-en erlazioa arten hitzen maiztasuna eta maiztasun horien ordena-zenbakia, eta gaurkoan nahiko genuke aipatu Zipf bera an bere liburuá "Human behavior an the principle of least effort" (1949), non lantzen den erlazio hori. Zipf-ek dio:

Horrá erlazioa:

r * f = C

non

log10(r * f) = log10(C)

nondik

log10(r) + log10(f) = log10(C)

eta kontuan hartuta ze C konstantearen logaritmoa konstantea ere izanen den, daukagu ze:

log10(r) + log10(f) = K

edo:

log10(f) = K - log10(r)

zein den expresioa e zuzen bat zeinen malda dén -1 (geldítuz 45 graduko angeluak kin ardatzak). [⇶]

igandea, ekaina 20, 2021

Nóla kalkulatu a entropia e ingles inprimatua

Genúen komentatzen atzo eta herenegun nóla aplikatu ahal den entropiaren formula ki hizkuntza bat (hártuz hitzak nola oinarrizko seinalea e sistema):

aurrena, kalkúlatuz hizkuntza horrentzako hitzen probabilitateak (bere maiztasunak an corpus bat),

eta gero, sártuz probabilitate horiek an formula e entropia.

Ikusten denez, kalkulu horretan soilik behar dirén hitzen probabilitateak.

Zehaztu daigun orain nóla Shannon-ek berak kalkulatu zuén a entropia e ingles inprimatua, an bere artikulua titulatzen "Prediction an entropy of printed English" (1950): lehenik, hartuko zituén hitzen maiztasunak ti artikulu bat (gaur egun klasikoa) zein Zipf-ek publikatua baitzuen an 1949, titulatzén "Human behavior an the principle of least effort":

eta gero aplikatuko zuén entropiaren formula ki probabilitate horiek artio hitzá 8.727, zeintan betetzen baitzen 1-eko probabilitatea (gainerako hitzek, maiztasun txikienekoek, ez dute parte hartzen an kalkulua):

Hots, ingles inprimatuan, hitz bakoitzeko kapazitate informatiboa (mintzo gara gain kapazitatea zein kode batek beharko luke ki transmititu hitz bakoitza, batez beste) izanen litzaké 11.82 bit, batez beste. [⇶]

larunbata, ekaina 19, 2021

Hartley (1928): "... in estimating the capacity of the physical system to transmit information we should ignore the question of interpretation, ..."

Genioén atzo gain komunikazio-teoria ganik Hartley (1928) eta Shannon (1948):

Helburua dá:
...to set up a quantitative measure whereby the capacities of various systems to transmit information may be compared. [Hartley, 1928]
Gero, neurri hori aplikatzen duté ki hizkuntzak, konsideratuz corpus konkretuetan erabilitako hitzak eta hango maiztasun erlatiboak, eta tratatuz hitz guztiak berdin-berdin (izenak, aditzak, adjetiboak, adverbioak, artikuluak,...). Berriro nabarmentzakoa da nóla, tratamendu horretan, hitz guztiak dirén berdin, denak ere dirá parte hen kode bat zeintan zeinu (hitz) horiek erabiltzen diren kin probabilitate bat (respektu hitz-erabilera guztiak) nondik kalkulatuko baita hitz bakoitzak aportatuko duen entropia [gure hemengo h(p)].
Eta, diogunez, kalkulu horretan ez da kontuan hartzen hitz-ordenarik, zein den gure ardura nagusia (zeren horren arabera baldintzatua geldituko da kodearen irekitasun komunikatiboa, benetako potentzia komunikatiboa, ...), baizik-ze soilik diren konsideratzen hitzak (edo silabak, edo letrak, ...), denak berdin tratatuak, eta hitz horien maiztasun erlatiboak (an corpus printzipioz zabal bat): horrekin erabakiko litzaké hizkuntzaren entropia, zein konparatuko litzake kin beste hizkuntzen entropia (hizkuntzaren ustezko kapazitate kodifikatzailea).

Horretaz, ikus daigun ondoko pasartea ga Hartley (1928):

Hortxe dio:

... in estimating the capacity of the physical system to transmit information we should ignore the question of interpretation, make each selection perfectly arbitrary, and base our result on the possibility or the receiver's distinguishing the result of selecting any one symbol from that of selecting any other. [Hartley, 1928]

Oinarrian horretaz ari gara noiz kalkulatzen dugún hizkuntza (sistema fisiko) baten entropia (hots, bere kapazitatea ki transmititu informazioa). [⇶]

ostirala, ekaina 18, 2021

Hartley (1928): "...to set up a quantitative measure whereby the capacities of various systems to transmit information may be compared"

Genuén aipatu atzo Hartley-ren papera (1928) titulatzén "Transmission of information", non jartzen baitira oinarriak zeintan gero Shannon-ek eraikiko du bere teoria. Hantxe ondo ikus daiteke nóla komunikazio-teoria horren helburua, berez, ez du zerikusirik kin esaldien antolakuntza, hitz-ordena edo antzeko kontu sintaktikoak, baizik-ze autore horien ardura dirá posibilitate kodifikatzaileak e sistemak zeinekin transmititzen den informazioa, euren kapazitate kodifikatzaile teorikoa, nahiz akaso kapazitate hori ez den guztiz erabiltzen:

Helburua dá:

...to set up a quantitative measure whereby the capacities of various systems to transmit information may be compared. [Hartley, 1928]

Gero, neurri hori aplikatzen duté ki hizkuntzak, konsideratuz corpus konkretuetan erabilitako hitzak eta hango maiztasun erlatiboak, eta tratatuz hitz guztiak berdin-berdin (izenak, aditzak, adjetiboak, adverbioak, artikuluak,...). Berriro nabarmentzakoa da nóla, tratamendu horretan, hitz guztiak dirén berdin, denak ere dirá parte hen kode bat zeintan zeinu (hitz) horiek erabiltzen diren kin probabilitate bat (respektu hitz-erabilera guztiak) nondik kalkulatuko baita hitz bakoitzak aportatuko duen entropia [gure hemengo h(p)].

Eta, diogunez, kalkulu horretan ez da kontuan hartzen hitz-ordenarik, zein den gure ardura nagusia (zeren horren arabera baldintzatua geldituko da kodearen irekitasun komunikatiboa, benetako potentzia komunikatiboa, ...), baizik-ze soilik diren konsideratzen hitzak (edo silabak, edo letrak, ...), denak berdin tratatuak, eta hitz horien maiztasun erlatiboak (an corpus printzipioz zabal bat): horrekin erabakiko litzaké hizkuntzaren entropia, zein konparatuko litzake kin beste hizkuntzen entropia (hizkuntzaren ustezko kapazitate kodifikatzailea). [⇶]

osteguna, ekaina 17, 2021

Shannon-en (eta besteren) komunikazio-teoria ez doa gain prozesamendu efektiboa hen mezu 'psikologikoa', baizik gain transmisio zehatz eta efizientea hen mezu 'fisikoa'

Atzoko postak jada ematen zigun arrasto bat gain oraingo puntu hau, baina komeni da argi gel dadin ze Shannon-en komunikazio-teoria dá gehiago ingeniaritza-teoria bat ezez teoria linguistiko bat. Esan nahi baita ze Shannon-en kezka ez da aztertzea zéin diren bide linguistikoak zeinekin lortú efektibitate komunikatibo handiena, baizik-ze bere ardura exklusiboa dá aztertzea transmisioa e mezu fisikoak, zeinen estrukturan, esanguran edo efektuan ez diren sartzen. Esan nahi baita ze euren helburua dá mezu fisikoa bera, eta ez mezu horren efektu psikologikoa.

Ikus daigun nóla Shannon-ek hasieratik argi uzten du puntu hau an bere jada aipatutako "A Mathematical Theory of Communication" (1948):

hau da:

The fundamental problem of communication is that of reproducing at one point either exactly or approximately a message selected at another point. Frequently the messages have meaning; that is they refer to or are correlated according to some system with certain physical or conceptual entities. These semantic aspects of communication are irrelevant to the engineering problem. The significant aspect is that the actual message is one selected from a set of possible messages.[Shannon, 1948]

Puntu hau, argi denez, oinarrizkoa da afin ondo interpreta daigun teoria osoa. Ikus orain nóla gorago aipatutako Hartley-k (an bere papera titulatzén "Transmission of information", 1928) argiki ezberdintzen zuén arten konsiderazio fisikoak (zein izanen zirén bere ardura noiz aztertzén transmisioa e informazioa) eta konsiderazio psikologikoak (zein ez ziren izanen bere ardura). Aipatutako artikuluaren laburpena hasten zen preseski honela:

hots:

A quantitative measure of "information" is developed which is based on physical as contrasted with psychological considerations.[Hartley, 1928]

Baina, gauza da ze justuki konsiderazio psikologiko horiek dirá gakoa an analisi linguistikoa e komunikazioa: esan nahi baita ze linguistikaren ardura nagusia dá aztertzea nóla bete gure helburu komunikatibo "psikologikoak", hau da informatibo-expresiboak, ahalik-eta modurik onenean. Hau dá, neurri handi batean, gure interes nagusia hasten da noiz Shannon-en (eta besteren) interesa amaitzen den. [⇶]

asteazkena, ekaina 16, 2021

Bi emaitza posible izan ahal dira arbitrarioki antzekoak, baina ezberdinak (ezberdintzat jotzen) badira, entropia asko igoarazi ahal dute

Atzo eta herenegun genúen azpimarratzen entropiaren propietate bat zeinen arabera, probabilitate-banaketa batean, probabilitateetako batetik kentzen bagenuen probabilitate "txiki" bat, horrekin sórtuz beste banaketa bat, non egonen zén emaitza posible bat gehiago kin probabilitate"txiki" hori bakandua, orduan probabilitate isolatu horren eragina gain entropia izanen zen handiagoa zein lehen, halan-ze probabilitate-banaketa erlatiboki zatituago horrek izanen zuén entropia gehiago eta prediktibilitate gutxiago.

Horren inguruan, báda beste puntu bat zein akaso komeniko litzake azpimarratzea: entropia soilik oinarritzen da gain probablitateak, ez gain emaitzak eurak. Esan nahi baita ze emaitza posible bat banatu daiteke an emaitza posible ezberdin oso antzekoak baina ezberdinak (eta kin probabilitate txikiagoak), lórtuz banaketa bat non entropia erlatiboki aski handitu ahal den.

Ikustagun adibide bat: demagun aldagai aleatorio bat, X, non jasotzen den zénbat irabazi ahal den an joku bat zeintan daukagun 0.5eko probablitatea ki irabazi euro bat, eta beste 0.5eko probabilitatea ki irabazi 1.000.000 euro:

P(1) = 0 eta P(1.000.000) = 0.5

Dakigunez, aladagai aleatorio horren entropia izanen da 1 bit.

Orain suposa dezagun beste aldagai aleatorio bat, Y, non jasotzen den zénbat irabazi ahal digun an joku bat zeintan daukagun 0.5eko probablitatea ki irabazi euro bat, eta beste 0.5eko probabilitatea ki irabazi 2 euro:

P(1) = 0 eta P(2) = 0.5

Hemen ere, entropia izanen da 1 bit.

Bide horretatik, demagun:

P(3) = 0.15 eta P81.000.000) = 0.85

zeinen entropia izanen da:

H(0.15, 0.85) = 0.15*log2(1/0.15) + 0.85*log2(1/0.85) = 0.6098403

eta bestalde:

P(1) = 0.1, P(2) = 0.2, P(3) = 0.3, P(4) = 0.4, P(5) = 0.5, P(1.000.000) = 0.85

zeinen entropia izanen da:

H(0.1, 0.2, 0.3, 0.4, 0.5, 0.85) = 0.1*log2(1/0.1) + 0.2*log2(1/0.) + 0.3*log2(1/0.3) + 0.4*log2(1/0.4) + 0.5*log2(1/0.5) + 0.85*log2(1/0.85) = 2.545735

Gauza da ze, bigarren loteria horretan, zatitu dugú emaitza posible baten probabilitatea (3 euro irabazteko probabilitea: P(3) = 0.15) arten emaitza posible ezberdin gehiago zein diren erlatiboki oso antzekoak, eta zeinen probabilitate totala dén lehengo emaitza bakar horren berdina (1 , 2, 3, 4 edo 5 euro irabaztea, non P(1) +P(2)+P(3)+P(4)+P(5) = 0.15), bitartean-ze, bestalde, 1.000.000 euro irabazteko probabilitatea mantendu den (1.000.000 euro irabaztea dá emaitza erlatiboki oso ezberdina respektu beste guztiak).

Ikuspuntu batetik esan liteke ze bi joku horietako zalantza-gradua ez da hain ezberdina (bigarrenean, zenbait emaitza posible erlatiboki oso antzekoak baitira), nahiz entropia laukoiztu egin den. Eta berdin gertatuko litzake baldin emaitzen arteko diferentzia izan balitz zentimo batekoa. Izan ere, bi (edo gehio) emaitza posible izan ahal dira arbitrarioki antzekoak, baina ezberdinak (ezberdintzat jotzen) badira, entropia asko igoarazi ahal dute. [⇶]

asteartea, ekaina 15, 2021

Behin bakanduta, zentesima horrek dú askoz eragin (pisu) handiagoa gain entropia

Atzoko sarreran genioen ze ...

... entropiaren konputo osoan, probabilitate txikiagoetako zentesimek dúte aportatzen erlatiboki gehiago zein probabilitate handiagoetakoek (kasu horretan, 1.514573 aurka 0.6214883).
Eta zér gertatzen da baldin banatú probilitate hori an zati gehiago? Adibidez, kénduz zentesima bat ki probabilitate handiena eta járriz ehunen hori aparte?
H(0.64, 0.35, 0.01) = (0.64*log2(1/0.64)) + (0.35*log2(1/0.35)) + (0.01*log2(1/0.01)) = 1.008607
respektu goragoko:
H(0.65, 0.35) = (0.65*log2(1/0.65)) + (0.35*log2(1/0.35)) = 0.9340681
Ba, gertatzen da ze, oraingo banaketa zatituagoan, entropia erlatiboki aski handitu da zeren, alde batetik (eta efektu hau ez da orokorra) probabilitate handiena jaisteak berak eragin du entropia-igoera bat:
h(0.65) = 0.65*log2(1/0.65) = 0.4039674 < 0.412068 = 0.64*log2(1/0.64) = h(0.64)
eta bestetik zeren (eta efektu hau báda orokorra) zentesima horren batezbesteko efektua askoz pisuagoa da orain an konputo osoa e entropia:
h(0.01) = 0.01*log2(1/0.01) = 0.06643856, halan-ze 0.06643856/0.01 = 6.643856

Baina baldin, nola genioen, lehenengo efektu hori ez bada beti gertatzen, gauza da: nóiz gertatzen da lehenengo efektu hori? Edo bestela galdetuta: nón dago maximoa hen:

h(p) = p*log2(1/p)

respektu p, noiz p dén arten 0 eta 1?

Maxímizatuz funtzio hori, lortzen dugu ondoko maximo-baldintza beharrezkoa (baldintza nahikoa betetzen da):

log2(e) - log2(1/p) = 0

nondik

p = (1/e) = 0.3678794

non

max(h) = 0.5307378

Esan nahi baita ze h(x) dá gorakorra ártio p = 0.3678794 non lortzen da h-ren maximoa (0.5307378) eta nondik aurrera h funtzioa hasten den izaten beherakorra. Hortaz, atzo aipatutako lehenengo efektu hori (esan nahi baita probabilitate bati kantitate "txiki" bat kenduta, probabilitate txikiago horren entropia igotzea) ez da gertatuko baldin p < 0.3678794 (atzokoan bai gertatzen zén zeren p = 0,65 > 0.3678794). Adibidez:

h(0.35) = 0.35*log2(1/0.35) = 0.5301006 > 0.5291737 = 0.34*log2(1/0.34) = h(0.34)

Azkenik gaineratu ze atzoko bigarren efektua báda orokorra (h(p)-ren bigarren derivatua dá negatiboa arten 0 eta 1):

H(0.65, 0.34) = (0.65*log2(1/0.65)) + (0.34*log2(1/0.34)) = 0.9331412

H(0.65, 0.35) = (0.65*log2(1/0.65)) + (0.35*log2(1/0.35)) = 0.9340681

H(0.65, 0.34, 0.01) = (0.65*log2(1/0.65)) + (0.34*log2(1/0.34)) + (0.01*log2(1/0.01)) = 0.9995797

non, ikusten denez, bakandutako zentesima horrek dú askoz eragin (pisu) handiagoa gain entropia noiz agertzen den bakanduta. [⇶]

astelehena, ekaina 14, 2021

Zentesima bakandu horrek ez soilik ez du efektu negatiborik gain entropia, baizik-ze orain dauka batezbesteko efektu positibo erlatiboki handiena respektu beste bi probabilitateak

Sarrera honetan azpimarratu nahi nuke entropiaren ezaugarri bat zein den derivatzen ti bere definizioa (formula), alegia-ze probabilitate-banaketa batetik berbanatzen (zatitzen) badugu probabilitate bat (edozein probabilitate) an probabilitate (zati) gehiago (eta txikiagoak), probabilitate txikiago horiek aportatuko duté erlatiboki entropia gehiago (izanen duté erlatiboki pisu positibo handiagoa an konputo osoa e entropia). Ikustagun adibide bat, hártuz honako probabilitate-banaketa:

H(0.65, 0.35) = (0.65*log2(1/0.65)) + (0.35*log2(1/0.35)) = 0.9340681

non dauzkagu bi zati hauek:

h(0.65) = 0.65*log2(1/0.65) = 0.4039674, halan-ze: 0.4039674/0.65 = 0.6214883

eta

h(0.35) = 0.35*log2(1/0.35) = 0.5301006, halan-ze 0.5301006/0.35 = 1.514573

Esan nahi baita ze, entropiaren konputo osoan, probabilitate txikiagoetako zentesimek dúte aportatzen erlatiboki gehiago zein probabilitate handiagoetakoek (kasu horretan, 1.514573 aurka 0.6214883).

Eta zér gertatzen da baldin banatú probilitate hori an zati gehiago? Adibidez, kénduz zentesima bat ki probabilitate handiena eta járriz ehunen hori aparte?

H(0.64, 0.35, 0.01) = (0.64*log2(1/0.64)) + (0.35*log2(1/0.35)) + (0.01*log2(1/0.01)) = 1.008607

respektu goragoko:

H(0.65, 0.35) = (0.65*log2(1/0.65)) + (0.35*log2(1/0.35)) = 0.9340681

Ba, gertatzen da ze, oraingo banaketa zatituagoan, entropia erlatiboki aski handitu da zeren, alde batetik (eta efektu hau ez da orokorra) probabilitate handiena jaisteak berak eragin du entropia-igoera bat:

h(0.65) = 0.65*log2(1/0.65) = 0.4039674 < 0.412068 = 0.64*log2(1/0.64) = h(0.64)

eta bestetik zeren (eta efektu hau báda orokorra) zentesima horren batezbesteko efektua askoz pisuagoa da orain an konputo osoa e entropia:

h(0.01) = 0.01*log2(1/0.01) = 0.06643856, halan-ze 0.06643856/0.01 = 6.643856

esan nahi baita ze, kasu konkretu honetan, zentesima bakandu horrek ez soilik ez du efektu negatiborik gain entropia, baizik-ze orain dauka batezbesteko efektu positibo erlatiboki handiena respektu beste bi probabilitateak (handiena eta ertaina). [⇶]

igandea, ekaina 13, 2021

Eta zér gertatzen da noiz probabilitateak ez diren berdinak? Baze formula aplikatzen dá berdin-berdin

Herenegungo eta atzoko postetan ikusi dugu zenbait adibide non kalkulatzen genuen zénbat bit (informazio-unitate) beharko genituzke transmítitzeko a emaitza e saio aleatorioak non emaitza posible guztiak gertatzen ziren kin ber proabilitatea. Horrela, genuén adibidez:

H(1/2, 1/2) = log2(2) = 1 bit

Baina, zér gertatzen da baldin probabilitateak ez badira berdinak? Baze formula aplikatzen dá berdin-berdin (dakigunez, H(pi) jarraitua da an pi):

non daukagun ze:

H(P(aurpegi), P(gurutze)) = P(aurpegi)*log2(1/P(aurpegi)) + P(gurutze)*log2(1/P(gurutze))

H(0.001, 0.999) = 0.001*log2(1/0.001) + 0.999*log2(1/0.999) = 0.01140776 = 0.011

H(0.01, 0.99) = 0.01*log2(1/0.01) + 0.99*log2(1/0.99) = 0.08079314 = 0.081
H(0.1, 0.9) = 0.1*log2(1/0.1) + 0.9*log2(1/0.9) = 0.4689956 = 0.47
H(0.2, 0.8) = 0.2*log2(1/0.2) + 0.8*log2(1/0.8) = 0.7219281 = 0.72
H(0.5, 0.5) = 0.5*log2(1/0.5) + 0.5*log2(1/0.5) = 1

Balio horiek bihurtzen dirá puntu an ondoko grafikoa (dá goragoko grafiko bera, baina Shannon-ek berak emana an 1948):

Shannon-en irudia eta textua (1948)

Bestalde, txanpon irregular baten kasuan ez da hain intuitiboa interpretatzea emaitzak an terminuak e galderak (salbu an kasua non H(1,0)=0, beste kasu guztietan beharko zen galdera bat), halan-ze egokiagoa dirudi interpretazio bat an terminuak e ziurtasun-gradua gain emaitza lehenda gauzatú saioa: zénbat eta ziurtasun gutxiago izán gain emaitza, emaitza horren informazio-edukia handiagoa izanen da, irítsiz eduki informatibo maximoa noiz emaitza posible guztiak dirén ekiprobableak (kasu horretan daukagu zalantza-gradu maximoa, nola ikusten dugun an goragoko grafikoa noiz P(aurpegi) = P(gurutze) = 0.5. [⇶]

larunbata, ekaina 12, 2021

Baina, zér gertatzen da noiz 'n' bit-kopurua ez den osoko zenbaki bat? Nóla interpretatzen ahal dugu emaitza?

Saio aleatorio baten entropia (H) kalkulatzean, orain arte ikusi dugu kasuak nola hau:

H(1/(2^n), ..., 1/(2^n)) = log2(2^n) = n bit = n txanpon [2^n (alegia, 2 ber n) emaitza posible]

non emaitza (n bit) zén zenbaki oso positibo bat (n = 1,2,3,...), zeinen interpretazio zehatza egin ahal zen an terminuak e zénbat erantzun binario beharko ziren ki transmititu saio horren emaitza:

4 bit = 4 txanpon (2^4 = 16 emaitza posible) = 4 erantzun binario

Baina, zér gertatzen da noiz n bit-kopurua ez den osoko zenbaki bat? Nóla interpretatzen ahal dugu emaitza?

Demagun dado regular bat, non daukagun 6 emaitza posible:

H(1/6, ..., 1/6) = log2(6) = 2.584963 bit

Interpretatu al dugu emaitza hori an terminuak e galderak (esan nahi baita, batezbesteko galderak)? Erantzuna da ze, aproximatuki bai, nahiz ez zehazki. Izan ere, saio horrretan, batezbestekoan beharko genuke :

2*(2/6)+3*(4/6) = 2.666667 galdera (kodifikatu beharko genituzke ki transmititu emaitza)

[Oharra: 1. erantzun binarioan zatituko genuke emaitzen seikotea an bi azpimultzo hen 3 emaitza; eta 2. galdera binarioan, zatituko genuke hirukote horietako bakoitza an bi azpimultzo kin 1 edo 2 elementu, halan-ze 2. txanda horretan asmatzeko probablitatea dá 2/6 (alegia, 6 kasutatik 2tan asmatuko litzake an 2. galdera: 2 galdera * (2/6) = 4/6), eta 3. eta azken txanda batean emaitza asmatzeko probabilitatea izanen dá 4/6 (alegia, 6 kasutatik 4tan asmatuko litzake an 3. galdera: 3 galdera * (4/6) = 12/6), non (16/6) = 2.666667]

zein dén aproximatuki goragoko bit-kopurua, nahiz ez zehazki. Esan nahi baita ze funtzio logaritmikoak ez du beti (bit kopuru guztietan) zehazki kalkulatzen erantzun beharrezkoen informazio hori. Hala ere, bit-en interpretazio hori zehatza izanen da noiz n dén osokoa (zein ez den gutxi), eta tarteko kasuetan (funtzioa jarraitua baita) aproximatuko da ki interpretazio hori, halan-ze, aproximatuki bederen (eta intuitiboki), galderen interpretazio hori erabil (manten) daiteke. [⇶]

balbula

asteazkena, ekaina 30, 2021

Eta zéin litzake a entropia teorikoa e corpus bat non agertzen dirén 6.002 hitz ezberdin? (B marra: lagin periodistiko bat)

asteartea, ekaina 29, 2021

15 bit per hitza an kontextu ekiprobable bat = 15 galdera binario ki identifikatu hitz bakoitza arten 32.768 hitz ezberdin

astelehena, ekaina 28, 2021

Entropia horrek neurtzen du a kapazitate kodifikatzaile binarioa zein kode batek beharko luken batezbeste ki transmititu hitz ezberdin bakoitza (29.899 hitz ezberdin) an Joyce-n nobela

igandea, ekaina 27, 2021

Nóla kalkulatu a entropia teorikoa e Ulisses?

larunbata, ekaina 26, 2021

"Sn" proportzioa hazten da kin "n": zénbat-eta "n" handiagoa, "Sn" ere handiagoa

ostirala, ekaina 25, 2021

Zipf (1948): "...we can calculate the approximate size of any Sn (atzoko proportzioa) if we know the size of n (and vice versa)."

osteguna, ekaina 24, 2021

[Zipf, enpirikoki: C * 10 ≈ corpusaren hitz-kopuru totala] Baina, kalkulatu al liteke proportzio hori (10 misteriotsu hori) teorikoki?

asteazkena, ekaina 23, 2021

Nóla lortzen dira lehenengo 3 puntuak e atzoko zuzen teorikoa? (gauza da ze grafikoan agertzen dira kantitate ez-logaritmikoak, nahizta bi ardatzetako eskalak dirén logaritmikoak)

asteartea, ekaina 22, 2021

Zipf-ek eskainitako grafiko bat non dún erakusten bere erlazioa an bi corpus (1948)

astelehena, ekaina 21, 2021

Zipf-en erlazioa arten hitzen maiztasuna (f) eta maiztasun horien ordena-zenbakia (r), zein dén: r * f = C

igandea, ekaina 20, 2021

Nóla kalkulatu a entropia e ingles inprimatua

larunbata, ekaina 19, 2021

Hartley (1928): "... in estimating the capacity of the physical system to transmit information we should ignore the question of interpretation, ..."

ostirala, ekaina 18, 2021

Hartley (1928): "...to set up a quantitative measure whereby the capacities of various systems to transmit information may be compared"

osteguna, ekaina 17, 2021

Shannon-en (eta besteren) komunikazio-teoria ez doa gain prozesamendu efektiboa hen mezu 'psikologikoa', baizik gain transmisio zehatz eta efizientea hen mezu 'fisikoa'

asteazkena, ekaina 16, 2021

Bi emaitza posible izan ahal dira arbitrarioki antzekoak, baina ezberdinak (ezberdintzat jotzen) badira, entropia asko igoarazi ahal dute

asteartea, ekaina 15, 2021

Behin bakanduta, zentesima horrek dú askoz eragin (pisu) handiagoa gain entropia

astelehena, ekaina 14, 2021

Zentesima bakandu horrek ez soilik ez du efektu negatiborik gain entropia, baizik-ze orain dauka batezbesteko efektu positibo erlatiboki handiena respektu beste bi probabilitateak

igandea, ekaina 13, 2021

Eta zér gertatzen da noiz probabilitateak ez diren berdinak? Baze formula aplikatzen dá berdin-berdin

larunbata, ekaina 12, 2021

Baina, zér gertatzen da noiz 'n' bit-kopurua ez den osoko zenbaki bat? Nóla interpretatzen ahal dugu emaitza?

Niri buruz

Previous Posts

Archives