igandea, uztaila 25, 2021

Textu bat (demagun novela bat) guztiz atzekoz aurrera idatziz gero, bere entropia ez litzake aldatuko

Baldin berridatziko bagenu novela bat (demagun Joyce-ren "Ulisses" bera), baina járriz hitzak guztiz alderantziz (esan nahi baita, hasiz tika originaleko azken hitza eta bukatuz kin originaleko lehena), novela alderantzizkatu horren entropia ez litzake aldatuko (halakoxea da entropia), nahiz irakurleak ezin izanen lukén interpretatu (prozesatu) bere edukia linealki, aurrerantza. 

Gainera, baldin irakurleak ahalko balu joan memórizatzen alderantzizko informazio guzti hori (milaka hitz horiek), ezin izanen luke ondo intérpretatu gordetako informazio hori harik jaso bukerako informazioa (originalean, hasierakoa), non aurkituko lukén oinarrizko informazioa zeintaz ari diren novelaren kontu guztiak (esan nahi baita ze bukaerako informazio alderantzizkatu hori dá originaleko hasiera).

Areago, novelaren hitz berberak jarriko balira guztiz aleatorioki, textuaren entropia ez litzake horregatik aldatuko (zeren hitzen maiztasunak ez liraken aldatuko), nahiz interpretazioa izanen litzaké ezin ezinagoa. [1332] [>>>]

Etiketak: ,

larunbata, uztaila 24, 2021

Zipf (1949): "... we shall present further rank-frequency distributions from samples of many other languages, ..."

Shannon-ek zioén hemen ze:

eta Zipf-ek an bere "Human Behavior And The Principle Of Least Effort" (1949:34): 

Esan nahi baita ze Zipf-en erlazioa artén hitzen frekuentziak eta euren ordinalitateak ez litzake soilik aplikagarria ki inglesa, baizik ze oinarrituko litzake an indar komunikatibo orokorrak zeinen eragina izanen litzaké orokorki esanguratsua. [1331] [>>>]

Etiketak: ,

osteguna, uztaila 22, 2021

Zénbat hitz ezberdin zeuden an azterketa e Dewey (1923)?

Atzo ikusten genuen nóla Shannon (1950) zén oinarritu an corpus linguistikoa ganik Dewey (1923) afinda kalkulatu a entropia on ingles inprimatua, eta baita nóla Dewey-k jada postulatu zuén lehenengo hurbilketa bat ki erlazioa on Zipf (1949). Gaur interesatzen zaigu ezagutzea zénbat hitz ezberdin zeuden an lagin linguistikoa on Dewey, xedé konprobatu noráino datozen bat Dewey-k eta Zipf-ek emandako neurriak. Dewey-k (1923:6) emanen digu datu interesgarri hori: 10161 hitz ezberdin.

Beraz, baldin Zipf-en legea beteko balitz perfektuki artén 10161 hitz ezberdin horiek, izanen genuke ze a erlazioa artén hitz-kopuru totala eta maiztasun altuena izan beharko litzaké:

S10161 = sum(1/(1:10161))

9.803577

non hitz ezberdin guztien maiztasun erlatibo teorikoak batuta, aterako zaigú unitatea (ikus sarrera hau):

sum(1/(9.803577*(1:10161))) = 1

nondik kalkula geinkén maiztasun erlatibo teorikoak korresponditzén ki edozein ordinalitate (esan nahi baita, korresponditén ki n-garren hitza an rankina on hitzak) baldin, diogunez, Zipf-en legea beteko balitz perfektuki. Adibidez, hitz erabilienari korrespondiko litzaioke 0.1020036 edo %10.2:

sum(1/(9.803577*(1:1)))

0.1020036

10. hitz erabilienari tokatuko litzaioké 0.2987653 edo %29.9

sum(1/(9.803577*(1:10)))

0.2987653

100. hitz erabilienari 0.5291311 edo %52.9

sum(1/(9.803577*(1:100)))

0.5291311

eta 1000.ari 0.7635449 edo %76.4:

sum(1/(9.803577*(1:1000)))

0.7635449

eta, 10000.ari 0.9983709 edo %99.9

sum(1/(9.803577*(1:10000)))

0.9983709

zein aski bat datoz kin Dewey-ren portzentajeak:

Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzkén baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil. Dewey jada fijatua zen an proportzioak zein gero Zipf-ek sakonago aztertuko zituen. [1329] [>>>]

Etiketak: , ,

asteartea, uztaila 20, 2021

Baldin Zipf-en legea betetzen bada, Shannon-en 0.1 proportzio hori teorikoki izanen dá 1/Sn (ez da izanen independentea ti "n")

Shannon-ek zioén hemen ze:

Baina, 0.1 hori (= .1 an Shannon-en artikulua) dá a proportzioa artén maiztasun handiena an corpusa eta hitz-kopuru totala (0.1 hori dago ki Sn = 10), alegia: 

(1/Sn) = (1/10) = 0.1

eta Zipf-en erlazioa betetzen delarik, proportzio hori (0.1 hori edo, berdin ere, Sn = 10 hori) egonen da an funtzioa on zénbat hitz ezberdin erabili diren an corpus hori (hots, an funtzioa on "n"). Esan nahi baita ze proportzio hori (0.1) ez da independentea ti "n", baizik ze atera beharko litzake ti:

(1/Sn) = 1/(sum(1/(1:n)))

halan-ze, horrela eginez, hitz guztien probabilitate agregatua izanen dá beti 1 (ezin liteke izán infinitu):

sum((1/Sn)/(1:n)) = sum(1/(sum(1/(1:n)))/(1:n)) = 1

Zehazki, proportzio hori 0.1 izateko, hitz ezberdinen kopurua ("n") teorikoki izan beharko litzaké 12367:

S<-function(n){sum(1/(1:n))-10}

uniroot(S, c(1,100000)) 

$root
[1] 12367 

Horrela, ondoko aipuko batukari hori:

izanen da justuki 1 noiz batuketa dén egiten tikan 1 daino 12367 (horiek izanen liraké hitz guztiak, teorikoki):

(1/(sum(1/(1:12367)))) = 0.09999957 ≃ 0.1

Praktikan, kalkulatu beharko lirake hitz guztien probabilitate enpirikoak (zeinen batura derrigor izanen dén 1) eta hitz guztiak erabilí an konputoa on entropia, eta ez soilik lehenengo 8727 hitzak. Horrela, corpuseko hitz guztiak konsideratuz, entropia jaitsiko litzake ti 11.82 dara 9.716223:

TEnt(12367)

9.716223

Baldin soilik 8727 hitz ezberdin erabili balira (Zipf-en legea perfektuki beteta), entropia litzaké 9.414066:

TEnt(8727)

9.414066

zein den are urrutiago ti 11.82 bitak per hitza zein Shannon-ek kalkulatu zituen baztertuz hainbat hitz ti bere kalkulua. [1327] [>>>]

Etiketak: , , ,

astelehena, uztaila 19, 2021

Nóla aldatzen den entropia teorikoa an corpus linguistikoak artio 100000 hitz ezberdin

Sarrera honetan kalkulatu genuen a entropia teorikoa on bi corpus linguistiko non zeudén oso hitz ezberdin gutxi, bata kin n=2 (esan nahi baita, 2 hitz ezberdin):

TEnt(2)

0.9182958

eta bestea kin n=3 (esan nahi baita, 3 hitz ezberdin):

TEnt(3

1.435371

Baina, gauza da ze gure intereseko corpus linguistikoak dirá askoz zabalagoak zein 2 edo 3 hitz ezberdin, batez ere noiz nahi dugun kalkulatu a entropiá on hizkuntza bat (adibidez, ingles idatzia). Kasu horietan, hitz ezberdinen kopurua oszilatu ahal dira artén mila gutxi batzuk eta hamar mila batzuk, zein den tamaina askoz representagarriagoa.

Gure asmoa an sarrera hau dá aztertzea nóla aldatzen den entropia teorikoa noiz hitz ezberdinen kopurua mugitzen den artén 1 eta 100000 hitz diferente, adieraziz grafikoki ibilera hori bidéz ondorengo kodea an R:

plot(unlist(lapply(c(1:100000), FUN=TEnt)), type="l", xlab = "n", ylab = "TEnt(n)")

zek ematen digu honako grafikoa:

Hortxe ikus daikegu a entropia teorikoa an corpus linguistikoak artio 100000 hitz ezberdin, non:

TEnt(20000)

10.13008

eta

TEnt(100000)

11.4954

zein diren mugak zeinen artean aldatzen dén entropia teoriko hori noiz hitz ezberdinen kopurua mugitzen den tartén 20000 eta 100000 hitz ezberdin. Tarte horren zabalera dá:

11.4954 - 10.13008 = 1.36532

eta esan dugunez, soilik dependitzen da ti zénbat hitz ezberdin aurkitzen diren an corpusa ("n"). [1326] [>>>]

Etiketak: ,

asteartea, uztaila 06, 2021

Soilik lortuko dugu erabilera eta interpretazio egoki bat noiz ondo eta zehazki ulertzen dugun zér kalkulatzen ari garen

Txopi-k zioen atzo:

Pixkana naiz hasi ulertzen -gutxi gora-bera, geyo bera-, kontu hauek on estadistika.

Estadistikak (eta estadistika horietatik ateratako neurriak berdin) ez dira baizik zenbaketa (neurketa) gehio edo gutxio sofistikatuak. Kontua, benetako kontua da zér zenbatzen (neurtzen) dugun, eta zertáko erabiltzen ditugun zenbaketa (gehio edo gutxio sofistikatu) horiek, eta  nóla interpretatzen ditugun handik ateratako emaitzak. Eta soilik lortuko dugu erabilera eta interpretazio egoki bat noiz ondo eta zehazki ulertzen dugun zér kalkulatzen ari garen: alegia, guk aplikatutako neurri horiek zinez zér egiten duten.

Adibidez, entropia jaio zen ki neurtu zénbat bit beharko ziren ki transmititu mezu bat bidéz sistema kodifikatzaile bat (dá kapazitate-neurri fisiko bat), non kontua (eta kezka) zén transmititzea mezuaren forma inanbiguoki (nolabait esan, kontua zirén hitzak eurak, eta ez euren edukia edo interpretazio egokia). Marko horretan, hain ongi transmitituko da mezu bat zein ez den batere konprenitzen, nola mezu bat zein dén interpretatzen guztiz efektiboki. Izan ere,  eta esana dugunez, mezuaren esangura edo interpretazioa ez ziren sartzen artén interesak on personak zek sortu zutén ha kontzeptua on entropia, zein, genioenez, gehiago dagokio i telekomunikazio-ingeniaritza ezez ki linguistika. Hortaz, ondo justifikatu beharko litzake kontzeptu horren erabilera an kontextuak nola prozesamendu humanoa on mezu linguistikoak, zein den oso urrutiko esparrua respektu transmisio formala on ber mezuak.

Eta gauza da ze gure kasuan ez gaude (bereziki) interesaturik an transmisioa on mezu formalak gehio edo gutxio efizienteki, baizik an efektu komunikatiboak (informatibo-expresiboak) zein derivatzen diren ti mezuen estrukturazio diferenteak. Gure interesa zentratzen da an efektibitate komunikatiboa noiz kodetzen (sortzen) edo dekodetzen (interpretatzen) mezu linguistikoak.

Mezuen forma ez da guretzat zerbait emana, baizik gure aztergaia, halan ze gure erronka da aztertzea nolákoa izan beharko litzaken mezuen forma bera (estrukturalki, sintaktikoki) afin euren efektu komunikatiboa (kodifikazioan zein dekofikazioan) izan dadín, orohar, ahalik-eta efiziente-efektiboena. Nola genioen hemen, gure erronka linguistikoa hasten da noiz euren ingenieritza-erronka amaitzen den. [1313] [>>>]

Etiketak:

larunbata, uztaila 03, 2021

Berridátziz atzoko "TEnt" funtzioa an R erábiliz "Entropy" funtzioa ("DescTools")

Atzo emán genuén R funtzio(txo) bat non lotzen dirén Shannon-en entropia eta Zipf-en legea afin kalkúlatu corpus linguistiko baten entropia teorikoa:

Horrela, defini geinke (an R softwarea) ondorengo funtzioa ki kalkulatu ha entropia teorikoa on corpus linguistiko bat non den perfektuki betetzen (teorikoki ere) Zipf-en legea ("TEnt" dá hainbeste nola "Theoretical Entropy"):

TEnt <- function(n){sum((1/(sum(1/(1:n))*(1:n))*log2(1/(1/(sum(1/(1:n))*(1:n))))))} 

non "n" parametro bakarra dagoen, zeintan aplikatuko dugún edozein kopurú on hitz ezberdinak, hala nola n = 29899:

TEnt(29899)

zeinen emaitza izanen dén goragoko entropia teorikoa (an "Ulisses"): 

10.47395
Horretarako, soilik jakin behar dugu zénbat hitz ezberdin agertzen diren an corpusa: Zipf-en legeak determinatzen dú beste guztia.

Genioenez, funtzio hori eman dá an R softwarea, zein doan deskarka litekén an gune hau. Behin R instalatuta, funtzio horrekin kalkulatu ahalko dá ha entropia teorikoa on edozein "n", adibidez "n = 10000":

TEnt(10000)

zeinen erantzuna dén:

9.532297

eta zein, dakigunez, izanen dén ha entropia teorikoa on corpus linguistiko bat kin 10000 hitz diferente.

Bestalde, R-n programatuta aurkitzen dirá hainbat funtzio, eta bádira paketeak non kalkulatu ahal den Shannon-en entropia ("DescTools" edo "Entropy"), eta non aurkitzen dugún ondorengo aukera ("DescTools"):


 kin azalpen hau ("DescTools"):

The Shannon entropy equation provides a way to estimate the average minimum number of bits needed to encode a string of symbols, based on the frequency of the symbols. It is given by the formula \(H = - \sum(\pi log(\pi))\) where \(\pi\) is the probability of character number i showing up in a stream of characters of the given "script". The entropy is ranging from 0 to Inf.

"Entropy" funtzio hori erabiltzeko, aurrena kargatu behar da "DescTools" paketea (gure atzoko funtzioa erabiltzeko ez da ezer deskargatu behar, salbu R programa), eta, adibidez, hari emanez probabilitate-sorta oso bat (demagun 0.5 eta 0.5, bidez kodeá: c(0.5,0.5)), programak emanen digú haren entropia teorikoa (baita eman geneioke maiztasun absolutuak edota balio ez-numerikoak nola hitzen zerrenda bat, eta programak automatikoki kalkulatuko ditú euren probabilitateak):

Entropy(c(0.5,0.5)) = 1

Gure kasuan, berdefini geinke gure funtzioa erábiliz "Entropy" funtzioa, honela:

TEnt<- function(n){Entropy((1/((sum(1/(1:n)))*(1:n))))}

non (1/((sum(1/(1:n)))*(1:n)))) zati horrek adierazten du ha probabilitate-sorta zeinen entropia teorikoa kalkulatu nahi dugun:

TEnt(10000) = 9.532297
zein dén atzoko ber funtzioa baina orain erábiliz "Entropy" funtzioa ("DescTools"). [1310] [>>>]

Etiketak: ,

ostirala, uztaila 02, 2021

Entropia teorikoa soilik dependitzen da ti kopurua on hitz ezberdinak

Aurreko sarreretan kalkulatu dugú zenbait entropia teoriko:

  • Ulisses: 29899 hitz ezberdin, zeintako bakoitzari teorikoki dagozkión batezbeste 10.47396 bit.
  • lagin periodistiko bat: 6002 hitz ezberdin, zeintako bakoitzari teorikoki dagozkión batezbeste 9.087565 bit. 
  • C marra teorikoa: 10000 hitz ezberdin, zeintako bakoitzari teorikoki dagozkión batezbeste 9.532297 bit.

Eta gauza da ze entropia teoriko hori soilik dependitzen da ti kopurua on hitz ezberdinak: zenbat-eta hitz ezberdin gehiago agértu an corpus linguistiko jakin bat, orduan-eta altuagoa izanen da ha kopurua on bit-ak (ha kopurua on galdera-erantzun teorikoak) zein beharko genituzkén, batezbeste, ki identifikátu (transmitiíu) hitz horietako bakoitza bidéz sistema kodifikatu bat.

Horrela, defini geinke (an R softwarea) ondorengo funtzioa ki kalkulatu ha entropia teorikoa on corpus linguistiko bat non den perfektuki betetzen (teorikoki ere) Zipf-en legea ("TEnt" dá hainbeste nola "Theoretical Entropy"):

TEnt <- function(n){sum((1/(sum(1/(1:n))*(1:n))*log2(1/(1/(sum(1/(1:n))*(1:n))))))} 

non "n" parametro bakarra dagoen, zeintan aplikatuko dugún edozein kopurú on hitz ezberdinak, hala nola n = 29899:

TEnt(29899)

zeinen emaitza izanen dén goragoko entropia teorikoa (an "Ulisses"): 

10.47395
Horretarako, soilik jakin behar dugu zénbat hitz ezberdin agertzen diren an corpusa: Zipf-en legeak determinatzen dú beste guztia. [1309] [>>>]

Etiketak:

osteguna, uztaila 01, 2021

Entropia teorikoa dá marra zuzen baten entropia (non Zipf-en legea betetzen den perfektuki harik azken hitz ezberdina)

Kalkulatu dugú, hemen eta atzo, ha entropia teorikoak on "Ulisses" (non agertzen zirén 29.899 hitz ezberdin: A marra) eta ariketa berbera burutu dugú an lagin periodistiko bat (non agertzen zirén 6.002 hitz ezberdin: B marra), zeinen emaitzak zirén, hurrenez hurren:

H29899 = 10.47396

H6002 = 9.087565

Orain, zéin izanen litzake ha entropia teorikoa on corpus linguistiko bat kin 10.000 hitz ezberdin? Ba, izanen litzake ha entropia on beheragoko C marra, zeren C marra sortzez da teorikoa (hor, Zipf-en legea dá betetzen perfektuki harik azken hitz ezberdina, zein dén 10.000garrena), halan ze bere entropia dá gure entropia teorikoa.

Nabaria da nóla C marra horretan ez den gertatzen irregulartasunik (C marra dá perfektuki zuzena), ez eta, beraz, eskilara-maila modukorik an azken zatia, bitártean ze A eta B marretan bai agertzen zaizkigula halako eskilara-mailak justuki zatio izaera diskretua on maiztasunak. Gainera, C bezalako marra teoriko batean, malda dá -1.

Kalkula daigun, hortaz, C marrari dagokion S10.000 proportzioa:

S10000 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/10000) + (1/10000) = sum(1/(1:10000)) = 9.787606

Hortik, hitz erabilienaren probabilitate teorikoa litzaké:

(1/ 9.787606) =  0.10217

eta bilatutako entropia:

H10000 = sum((1/( 9.787606*(1:10000)))*log2(1/(1/(9.787606*(1:10000))))) =  9.532297 bit per hitza, batezbeste.

zein den aurkitzen artén entropia on "Ulisses" (H29899 = 10.47396) eta entropia on lagin periodistikoa (H6002 = 9.087565), nola espero geinken.

Hortaz, Ulisses-en entropia teorikoa izanen dá justuki ha entropia on marra zuzena zeinen ordenatu-balioa dén 29.899 an eskala lineala, edo log10(29899) = 4.475657 an eskala logaritmikoa; berdin nola lagin periodistikoaren entropia teorikoaha entropia on marra zuzena zeinen ordenatu-balioa dén 6.002 an eskala lineala, edo log10(6002) = 3.778296 an eskala logaritmikoa, beti ere kin maldá -1. [1308] [>>>]

Etiketak: ,

asteazkena, ekaina 30, 2021

Eta zéin litzake ha entropia teorikoa on corpus bat non agertzen dirén 6.002 hitz ezberdin? (B marra: lagin periodistiko bat)

Hemen ikusten genuén beheragoko grafikoa non Zipf-ek (1948) ilustratzen zuén bere erlazioa lótuz corpus bateko hitz ezberdinen maiztasuna (f) eta maiztasun horien ordinalitatea (r), zeinen biderkadura mantenduko zén aproximatuki konstante (f * r = C). Grafiko horretan, dakigunez, A marra referitzen da ki "Ulisses" nobela ga Joyce, bitárten B marra dagokio i lagin periodistiko bat zeinen bidez Zipf-ek erakutsi nahi zuen nóla bere erlazioaren aplikazioa zihoan haruntzago ti aipatutako "Ulisses". Eta, bai, bádirudi ze, neurri handi batean behintzat, Zipf-en proportzio hori betetzen da hor ere:

Hortaz, eta hemen kalkulatu dugularik Ulisses-en entropia teorikoa (alegia, ha entropia on corpus linguistiko hori baldin Zipf-en erlazioa beteko balitz perfektuki, nahiz hori soilik gertatu ahal den teorikoki zatio diskretutasuna on maiztasunak), gaurkoan nahi genuke kalkulatu zéin dén ha entropia teorikoa on lagin periodistikoa.

Horretarako, aurrena kalkulatuko dugú corpus horrentzako Sn proportzioa (alegia, zéin izanen litzaken ha proportzio teorikoa artén maiztasun altuena eta hitzen kopuru totala baldin Zipf-en erlazioa perfektuki beteko balitz):

S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = sum(1/(1:6002)) = 9.277147

Hortik, hitz erabilienaren probabilitate teorikoa litzaké:

(1/ 9.277147) =  0.1077918

eta bilatutako entropia teorikoa:

H = sum((1/( 9.277147*(1:6002)))*log2(1/(1/( 9.277147*(1:6002))))) = 9.087565 bit, batez beste, hitz bakoitzeko.
zein diren nabarmenki bit teoriko gutxiago zein batezbesteko 10.47396 bitak per hitza an Ulisses. [1307] [>>>]

Etiketak: ,

asteartea, ekaina 29, 2021

15 bit per hitza an kontextu ekiprobable bat = 15 galdera binario ki identifikatu hitz bakoitza artén 32.768 hitz ezberdin

Atzokoan genioen ze:

... izanen bagenu corpus linguistiko bat non agertuko lirakén 32.768 hitz diferente eta denak ere kin ber probabilitatea (maiztasuna), orduan hitz bakoitzaren probabilitatea litzaké:

(1/32768) = 3.051758e-05 (hitz bakoitzaren probabilitate berdina)

eta hitz bakoitzeko entropia:

H = 32768*(3.051758e-05*log2(1/3.051758e-05)) = 15 bit per hitza

Sarrera honetan genekusenez, emaitza hori (15 hori) interpretatu ahal da nola zénbat galdera binario beharko liraké ki identifikatu hitz konkretu bat artén 32.768 diferente

Izan ere, lehen galderan baztertuko genuké hitzen erdia:

(32768/2) = 16384

Bigarren galderan soilik geldituko zén hitzen laurden bat:

(16384/2) = 8192

eta hola jarraituko genuke kodetzen galdera-erantzunak harik 15. galdera (izan ere: log2(32768) = 15), non soilik geldituko litzaiguké hitz bat (hain justu húra zeinen bila genbiltzan):

(2/2) = 11
esan nahi baita ze, 15. erantzun horretan, identifikatua geldituko litzake dena delako hitza. [1306] [>>>]

Etiketak:

igandea, ekaina 27, 2021

Nóla kalkulatu zéin den ha entropia teorikoa on "Ulisses"?

Behin atzokoan ikusita nóla kalkulatu Sn proportzioa an "Ulisses" (alegia, nóla kalkulatu zéin den ha proportzioa artén hitz-kopuru totala eta hitz ezberdinen kopurua:

S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281

halan ze hitz ezberdin bakoitzeko, izanen dugú 10.88281 hitz, totalean), gaurko sarrera honetan saiatuko gara kalkulatzen zéin den ha entropia on "Ulisses" baldin corpus horretan Zipf-en erlazioa beteko balitz perfektuki (ordezta aproximatuki, nola betetzen den): esan nahi baita, baldin beheragoko irudiko A marra, "Ulisses"-i dagokiona, izango balitz perfektuki zuzena, nola dén C marra teorikoa, ordezta aproximatuki zuzena, nola den (ikus grafiko hori hemen ere).

Bestela galdetuta, zéin izango litzake C marra teorikoaren entropia baldin hasiko balitz an 29.899 hitz ezberdin (bere ordenatu-balioa = 29.899) ordezta hasí an 10.000 (hitz ezberdin)?

Kalkulu hori egiteko behar dugu "Ulisses"-en hitz ezberdin guztien probabilitateak (finean, euren maiztasun erlatiboak respektu hitz-kopuru totala), zeini aplikatuko diegún entropia-ren formula (ikus hemen edo hemen): 

Hortaz, zéin izanen da probabilitateá on hitz erabiliena an Ulisses? Ba, dakigularik ze hitz horren maiztasuna agertzen da an erlazioa 1/10.88281 respektuz hitz-kopuru totala, ondoriozta daikegu ze justuki horixe da bere probabilitatea, alegia:

(1/10.88281) = 0.09188803

Eta bigarren hitz erabilienaren probabilitatea? Ba, dakigularik ze probabilitate hori dá justuki erdia respektu lehenengo hitz erabiliena (zeren Zipf-en erlazioa perfektuki betetzen baita), hauxe izanen da:

(1/(10.88281*2)) = 0.04594402

Eta n-garren hitz erabilienaren probabilitatea?

pn = 1/(10.88281*n)

Eta hitz gutxien erabilienaren probabilitatea? 

(1/(10.88281*29.889)) = 0.003074309

Puntu honetan, ziurta gaitezen ze probabilitate-sorta horrek osatzen dú probabilitate-banaketa ondo definitu bat, hau dá, konproba daigun ze 29.899 probabilitate guzti horien batura dén 1, bidéz ondorengo operazioa:

sum(1/(10.88281*(1:29899))) = 1         

[OHARRA: Expresio horren lehenengo termino hori dá R kodetxo bat adiéraziz ze batu dirá goragoko n (29.899) probabilitate guzti horiek, zeinen emaitza ateratzen dén 1]

Hortaz, gure zenbaki-segida horrek betetzen ditú guk bilatutako eskakizunak: 

  • lehenengo zenbakia (finean, probabilitatea) dá (1/(10.88281*2)) = 0.04594402
  • n-garren zenbakia dá lehenengo zenbaki hori zati n, eta 
  • euren batura dá 1.

Orain kalkula daikegu zéin den entropia zeinen bila genbiltzan, H, hau dá, zéin den ha entropia on Ulisses:

H = sum((1/(10.88281*(1:29899)))*log2(1/(1/(10.88281*(1:29899))))) = 10.47396 bit, batez beste, hitz bakoitzeko.

[OHARRA: Expresio horren lehenengo termino hori dá R kodetxo bat adiéraziz ze batu dirá 29.899 entropia partzialak zein dagozkien ki 29.899 hitz ezberdinak, zeinen emaitza, hau dá  H entropia, dén 10.47396

Justuki horixe (10.47396 bit per hitza) izanen dá ha entropia teorikoa on "Ulisses" (kin bere 29.899 hitz ezberdin). [1304] [>>>]

Etiketak:

ostirala, ekaina 25, 2021

Zipf (1948): "...we can calculate the approximate size of any Sn (atzoko proportzioa) if we know the size of n (and vice versa)."

Galdetzen genuén atzo ea kalkulatu liteken teorikoki ha proportzioa artén corpus bateko hitz-kopuru totala (kin errepikapenak) eta corpus horretako hitz erabilienaren maiztasuna (adibidez, Zipf-en atzoko adibidean hitz-kopuru totala zén 10 aldiz handiago zein maiztaun altuena) supósatuz ze corpus horretan betetzen dén Zipf-en erlazioa. Eta erantzuna Zipf-ek berak ematen digu:

Hortaz, supósatuz lagin teoriko bat non dén betetzen Zipf-en erlazioa, kalkulatu geinke zéin proportziotan agertuko den hitz erabiliena respektuz hitzen kopuru totala (zein 2.1 taulan gutxi gorabehera zén 1/10), edo alderantziz, zénbat aldiz handiagoa izan beharko litzaken hitz-kopuru totala respektuz hitz erabiliena (2.1 taulan gutxi gorabehera 10 aldiz handiagoa), soilik erábiliz zénbat hitz ezberdin agertu diren an textua, hau dá n, bidéz formula hau:

Sn = 1 + (1/2) + (1/3) + (1/4) + ... + (1/(n-1)) + (1/n)

Adibidez, atzoko adibidean ("Ulisses" lanean) agertzen zirén 29.899 hitz diferente (artén 260.430 hitz, guztira), halan ze gure proportzioa izanen dá justuki:

S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281
esan nahi baita ze, teorikoki, proportzio hori izanen zén handixeagoa zein 10, zehazki S29.899 = 10.88281. [1302] [>>>]

Etiketak:

asteartea, ekaina 22, 2021

Zipf-ek eskainitako grafiko bat non dún erakusten bere erlazioa an bi corpus (1948)

Atzoko sarreran ikusten genuén nóla Zipf-ek, erábiliz James Joyce-ren Ulisses lana, deduzitzen zuén bere erlazioa arten hitzen maiztasunak (f) eta maiztasun horien ordena-zenbakia (r), non, aproximatuki, bi kantitate horien biderkadura mantenduko zén konstante: f * r = C. Joyce-k, obra horretan, erabili zituén justuki 28.899 hitz ezberdin, bakoitza kin bere maiztasuna, artio osatú guztira 260.430 hitz, halan-ze batezbesteko maiztasuna dá 9.011731, nahiz hitz guztiak ez dute ber maiztasuna. Hortxe sartzen da Zipf-en erlazioa, zeinen arabera, esan dugunez, maiztasunak gordetzen dute erlazio estu bat kin euren ordena

Erlazio hori ilustratzeko, beherago daukagu grafiko bat ganik Zipf bera (an bere "Human behavior an the principle of least effort", 1949), non A marra dagokio ki Joyce-ren lan aipatua, B marra dagokio ki beste lagin bat, oraingoan aterea ti egunkarietako textuak, eta C marra dá zuzen teorikoá (horregatik zuzen-zuzena) zein aterako litzake baldin lagin batean hitz erabilienak izanen balitú 10.000 erabilera eta n-garren hitz erabilienak ondoko fn erabilera-kopurua:

fn = (10.000/n)

Adibidez, lagin teoriko horretan, 3. hitz erabiliena agertuko litzaké justuki 10.000/3 aldiz.

[OHARRA: esan behar da ze grafikoan ordenatu-ardatzeko 10.000 kantitate hori ez da agertzen bere lekuan, baizik gorago, goragoko izkinean, non kantitatea dá ondo handiagoa zein 10.000, zeren eskalan konsideratzen ari dira logaritmo dezimalak: gorriz jarrita dago leku zehatza]

Grafikoan, Joyce-ren nobelaren marra (A) dá agertzen gorago zein egunkarietako laginaren marra (B), zeren Joyceren lanean hitz erabilienak dú maiztasun handiagoa (guztira Joyce-ren lanean erabiltzen dirá sei bat aldiz hitz gehiago: 260.430 aurka 43.989). Baina gauza da ze, bi kasuetan, malda dá gutxi gorabehera hóri bera zein espero genuen jarraiki Zipf-en erlazioa, alegia, -1. [1299] [>>>]

Etiketak: ,

astelehena, ekaina 21, 2021

Zipf-en erlazioa arten hitzen maiztasuna (f) eta maiztasun horien ordena-zenbakia (r), zein dén: r * f = C

Atzoko sarreran agertzen zitzaigun Zipf-en erlazioa arten hitzen maiztasuna eta maiztasun horien ordena-zenbakia, eta gaurkoan nahiko genuke aipatu Zipf bera an bere liburuá "Human behavior an the principle of least effort" (1949), non lantzen den erlazio hori. Zipf-ek dio:


Horrá erlazioa:

r * f = C

non 

log10(r * f) = log10(C)

nondik

log10(r) + log10(f) = log10(C)

eta kontuan hartuta ze C konstantearen logaritmoa konstantea ere izanen den, daukagu ze:

log10(r) + log10(f) = K
edo:
log10(f) = K - log10(r)
zein den ha expresioa on zuzen bat zeinen malda dén -1 (geldítuz 45 graduko angeluak kin ardatzak). [1298] [>>>]

Etiketak:

larunbata, ekaina 19, 2021

Hartley (1928): "... in estimating the capacity of the physical system to transmit information we should ignore the question of interpretation, ..."

Ondorengoa genioén atzo burúz komunikazio-teoriá on Hartley (1928) eta Shannon (1948):

Helburua dá:

...to set up a quantitative measure whereby the capacities of various systems to transmit information may be compared. [Hartley, 1928]

Gero, neurri hori aplikatzen duté ki hizkuntzak, konsideratuz corpus konkretuetan erabilitako hitzak eta hango maiztasun erlatiboak, eta tratatuz hitz guztiak berdin-berdin (izenak, aditzak, adjetiboak, adverbioak, artikuluak,...). Berriro nabarmentzakoa da nóla, tratamendu horretan, hitz guztiak dirén berdin, denak ere dirá parte ti kode bat zeintan diren erabiltzen zeinu (hitz) horiek kin probabilitate bat (respektu hitz-erabilera guztiak) nondik kalkulatuko den hitz bakoitzak aportatuko duen entropia [gure hemengo h(p)].

Eta, diogunez, kalkulu horretan ez da kontuan hartzen hitz-ordenarik, zein den gure ardura nagusia (zeren ordenazio horren arabera baldintzatzen dá kodearen irekitasun komunikatiboa, benetako potentzia komunikatiboa, ...), baizik ze soilik konsideratzen dirén hitzak (edo silabak, edo letrak, ...), denak berdin tratatuak, eta hitz horien maiztasun erlatiboak (an corpus printzipioz zabal bat): horrekin erabakiko litzaké hizkuntzaren entropia, zein konparatuko litzake kin beste hizkuntzen entropia (hizkuntzaren ustezko kapazitate kodifikatzailea).

Horretaz, ikus daigun ondoko pasartea ga Hartley (1928):

Hortxe dio:

... in estimating the capacity of the physical system to transmit information we should ignore the question of interpretation, make each selection perfectly arbitrary, and base our result on the possibility or the receiver's distinguishing the result of selecting any one symbol from that of selecting any other. [Hartley, 1928]

Oinarrian horretaz ari gara noiz kalkúlatu hizkuntza (sistema fisiko) baten entropia (hots, bere kapazitatea ki transmititu informazioa). [1296] [>>>]

Etiketak:

ostirala, ekaina 18, 2021

Hartley (1928): "...to set up a quantitative measure whereby the capacities of various systems to transmit information may be compared"

Aipatu genuén atzo Hartley-ren papera (1928) titulatzén "Transmission of information", non jartzen dirén oinarriak zeintan gero Shannon-ek (1948) eraikiko du bere teoria. Han ondo ikusi ahal da nóla komunikazio-teoria horren helburua, berez, ez du zerikusirik kin esaldien antolakuntza, hitz-ordena edo antzeko kontu sintaktikoak, baizik ze autore horien ardura dirá posibilitate kodifikatzaileak on sistema fisikoak zeinekin den transmititzen informazioa, euren kapazitate kodifikatzaile teorikoa, nahiz akaso ez erábili kapazitate hori:

Helburua dá:

...to set up a quantitative measure whereby the capacities of various systems to transmit information may be compared. [Hartley, 1928]

Gero, neurri hori aplikatzen duté ki hizkuntzak, konsideratuz corpus konkretuetan erabilitako hitzak eta hango maiztasun erlatiboak, eta tratatuz hitz guztiak berdin-berdin (izenak, aditzak, adjetiboak, adverbioak, artikuluak,...). Berriro nabarmentzakoa da nóla, tratamendu horretan, hitz guztiak dirén berdin, denak ere dirá parte ti kode bat zeintan diren erabiltzen zeinu (hitz) horiek kin probabilitate bat (respektu hitz-erabilera guztiak) nondik kalkulatuko den hitz bakoitzak aportatuko duen entropia [gure hemengo h(p)].

Eta, diogunez, kalkulu horretan ez da kontuan hartzen hitz-ordenarik, zein den gure ardura nagusia (zeren ordenazio horren arabera baldintzatzen dá kodearen irekitasun komunikatiboa, benetako potentzia komunikatiboa, ...), baizik ze soilik konsideratzen dirén hitzak (edo silabak, edo letrak, ...), denak berdin tratatuak, eta hitz horien maiztasun erlatiboak (an corpus printzipioz zabal bat): horrekin erabakiko litzaké hizkuntzaren entropia, zein konparatuko litzake kin beste hizkuntzen entropia (hizkuntzaren ustezko kapazitate kodifikatzailea). [1295] [>>>]

Etiketak:

osteguna, ekaina 17, 2021

Shannon-en (eta besteren) komunikazio-teoria ez doa gain prozesamendu efektiboa on mezu 'psikologikoa', baizik gain transmisio zehatz eta efizientea on mezu 'fisikoa'

Atzoko postak jada ematen zigún arrasto bat gain oraingo puntu hau, baina komeni da argi gel dadin ze Shannon-en komunikazio-teoria dá gehiago ingeniaritza-teoria bat ezez teoria linguistiko bat. Esan nahi baita ze Shannon-en kezka ez da aztertzea zéin diren bide linguistikoak zeinekin lórtu efektibitate komunikatibo handiena, baizik ze bere ardura exklusiboa dá aztertzea transmisioa on mezu fisikoak, zeinen estrukturan, esanguran edo efektuan ez den sartzen. Esan nahi baita ze euren helburua dá mezu fisikoa bera, eta ez mezu horren efektu psikologikoa

Ikus daigun nóla Shannon-ek hasieratik argi uzten duen puntu hau an bere jada aipatutako "A Mathematical Theory of Communication" (1948):

hau da:

The fundamental problem of communication is that of reproducing at one point either exactly or approximately a message selected at another point. Frequently the messages have meaning; that is they refer to or are correlated according to some system with certain physical or conceptual entities. These semantic aspects of communication are irrelevant to the engineering problem. The significant aspect is that the actual message is one selected from a set of possible messages.[Shannon, 1948]

Puntu hau, argi denez, oinarrizkoa da afin ondo interpreta daigun teoria osoa. Ikus orain nóla gorago aipatutako Hartley-k (an bere papera titulatzén "Transmission of information", 1928) argiki ezberdintzen zuén arten konsiderazio fisikoak (zein izanen zirén bere ardura noiz aztertzén transmisioa on informazioa) eta konsiderazio psikologikoak (zein ez ziren izanen bere ardura). Aipatutako artikuluaren laburpena hasten zen preseski honela:

hots:

A quantitative measure of "information" is developed which is based on physical as contrasted with psychological considerations.[Hartley, 1928]
Baina, gauza da ze justuki konsiderazio psikologiko horiek dirá gakoa an analisi linguistikoa on komunikazioa: esan nahi baita ze linguistikaren ardura nagusia dá aztertzea nóla bete gure helburu komunikatibo "psikologikoak", hau da informatibo-expresiboak, ahalik-eta modurik onenean. Hau dá, neurri handi batean, gure interes nagusia hasten da noiz Shannon-en (eta besteren) interesa amaitzen den. [1294] [>>>]

Etiketak:

igandea, ekaina 13, 2021

Eta zér gertatzen da noiz probabilitateak ez diren berdinak? Ba ze formula aplikatzen dá berdin-berdin

Herenegungo eta atzoko postetan ikusi ditugú zenbait adibide non genuen kalkulatzen zénbat bit (informazio-unitate) beharko genituzke ki transmititu ha emaitzá on saio aleatorioak non emaitza posible guztiek zutén ber probabilitatea. Horrela, eta adibidez, genuén:

H(1/2, 1/2)log2(2) = 1 bit 

Baina, zér gertatzen da baldin probabilitateak ez badira berdinak? Ba ze formula aplikatzen dá berdin-berdin (dakigunez, H(pi) jarraitua da an pi):

non daukagun ze: 

H(P(aurpegi), P(gurutze)) = P(aurpegi)*log2(1/P(aurpegi)) + P(gurutze)*log2(1/P(gurutze))

H(0.001, 0.999) = 0.001*log2(1/0.001) + 0.999*log2(1/0.999) = 0.01140776 = 0.011

H(0.01, 0.99) = 0.01*log2(1/0.01) + 0.99*log2(1/0.99) = 0.08079314 = 0.081

H(0.1, 0.9) = 0.1*log2(1/0.1) + 0.9*log2(1/0.9) = 0.4689956 = 0.47

H(0.2, 0.8) = 0.2*log2(1/0.2) + 0.8*log2(1/0.8) =  0.7219281 = 0.72

H(0.5, 0.5) = 0.5*log2(1/0.5) + 0.5*log2(1/0.5) = 1

Balio horiek bihurtzen dirá puntuak an ondoko grafikoa (dá goragoko grafiko bera, baina Shannon-ek berak emana an 1948):

Shannon-en irudia eta textua (1948)
Bestalde, txanpon irregular baten kasuan ez da hain intuitiboa interpretatzea emaitza horiek an terminuak on galderak (salbu an kasua non H(1,0)=0, beste kasu guztietan beharko zén galdera bat), halan ze egokiagoa dirudi interpretazio bat an terminuak on ziurtasun-gradua gain emaitza lehenda gauzátu saioa: zenbat eta ziurtasun gutxiago izán gain emaitza, emaitza horren informazio-edukia handiagoa izanen da, iritsiz eduki informatibo maximoa noiz emaitza posible guztiak dirén ekiprobableak (kasu horretan daukagu zalantza-gradu maximoa, nola ikusten dugun an goragoko grafikoa noiz P(aurpegi) = P(gurutze) = 0.5 [1290] [>>>]

Etiketak:

ostirala, ekaina 11, 2021

bit-en botere kodifikatzailea dá progresatzen geometrikoki

Herenegun eta atzo ikusten genuen nóla 1 bit zen hóri informazio-kantitatea zein den aurkitzen an aukera binario bat non bi emaitza posibleak dirén ekiprobrableak [adibidez, txanpon regular bat airera botata: P(aurpegi) = P(gurutze) = (1/2)]:

H(1/2, 1/2) = (1/2)*log2(2)+(1/2)*log2(2) = 2*(1/2)*log2(2) = log2(2) = 1 bit = 1 txanpon

eta nóla, adibidez 2 txanpon regular boteaz, lortzen genuen egoera probabilistiko bat zeinen emaitza transmititzeko nahikoa lirakén 2 bit [P(aurpegi, aurpegi) = P(aurpegi, gurutze) = P(gurutze, aurpegi) = P,(gurutze, gurutze) = (1/4)]:

H(1/4, 1/4, 1/4, 1/4) = (1/4)*log2(4)+(1/4)*log2(4)+(1/4)*log2(4)+(1/4)*log2(4) = 4*(1/4)*log2(4) = log2(4) = 2 bit = 2 txanpon

halan ze,

... halako saio baten emaitza jakinarazteko (4 emaitza posible eta ekiprobableak), nahikoa litzaké kode bat non emanen zirén bi erantzun binario (hain zuzen, 2 "binary unit", 2 bit). 

Eta horrela, 3 txanpon regular aldi berean botata, izanen genuke saio aleatorio bat kin 8 emaitza posible ekiprobable, zeinen emaitza transmititzeko nahikoa lirakén 3 bit:

H(1/8, 1/8, 1/8, 1/8,1/8, 1/8, 1/8, 1/8)log2(8) = 3 bit = 3 txanpon

non daukagu ze, bitárten bit-kopurua den progresatzen aritmetikoki (géhituz 1), saioaren emaitza posibleak progresatzen dirá geometrikoaki (bidérkatuz bider 2):

H(1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16,1/16, 1/16, 1/16, 1/16) = log2(16) = 4 bit = 4 txanpon  [16 emaitza posible]

H(1/32, ..., 1/32)log2(32) = 5 bit = 5 txanpon [32 emaitza posible

H(1/256, ..., 1/256)log2(256) = 8 bit  = 8 txanpon  [256 emaitza posible]

H(1/(2^n), ..., 1/(2^n))log2(2^n) = n bit  = n txanpon  [2^n (alegia, 2 ber n) emaitza posible]

Saio aleatorio batean 2 ber n  (2^n) emaitza posible ekiprobable egonda [adibidez, 2^20=1.048.576], nahikoa lirakén n bit [adibidez, log2(2^20) = 20 bit] ki transmititu bere emaitza.

Esan nahi baita ze konsideratuko bagenu saio aleatorio bat kin 32.768 emaitza posible ekiprobable, nahikoa litzaké kode bat non emanen zirén 15 erantzun binario (hain zuzen, 15 "binary unit", 15 bit) afin transmititu bere emaitza:

H(1/(2^15), ..., 1/(2^15))log2(2^15) = 15 bit = 15 txanpon [32.768 emaitza posible]

Eta, kodean, beste 5 bit gehiago erabilita, jaso geinke emaitza ti saio aleatorio bat kin 1.048.576 emaitza posible ekiprobable: 

2^20 = 1.048.576 eta hortaz log2(2^20 = 1.048.576) = 20 bit = 20 txanpon [1.048.576 emaitza posible]

20 bit, 20 erantzun binario, 20 txanpon, 1.048.576 emaitza posible, 1.048.576 aukera kodifikagarri. 

Eta hurrengo bit-ak emanen dú beste 1.048.576 aukera (kodifikagarri) gehigarri (diogunez, bit-en botere kodifikatzailea progresatzen dá geometrikoki). [1288] [>>>]

Etiketak: