balbula

larunbata, uztaila 24, 2021

Zipf (1949): "... we shall present further rank-frequency distributions from samples of many other languages, ..."

Shannon-ek zioén hemen ze:

eta Zipf-ek an bere "Human Behavior And The Principle Of Least Effort" (1949:34):

Esan nahi baita ze Zipf-en erlazioa artén hitzen frekuentziak eta euren ordinalitateak ez litzake soilik aplikagarria ki inglesa, baizik ze oinarrituko litzake an indar komunikatibo orokorrak zeinen eragina izanen litzaké orokorki esanguratsua. [1331] [>>>]

Etiketak: Shannon, Zipf

osteguna, uztaila 22, 2021

Zénbat hitz ezberdin zeuden an azterketa e Dewey (1923)?

Atzo ikusten genuen nóla Shannon (1950) zén oinarritu an corpus linguistikoa ganik Dewey (1923) afinda kalkulatu a entropia on ingles inprimatua, eta baita nóla Dewey-k jada postulatu zuén lehenengo hurbilketa bat ki erlazioa on Zipf (1949). Gaur interesatzen zaigu ezagutzea zénbat hitz ezberdin zeuden an lagin linguistikoa on Dewey, xedé konprobatu noráino datozen bat Dewey-k eta Zipf-ek emandako neurriak. Dewey-k (1923:6) emanen digu datu interesgarri hori: 10161 hitz ezberdin.

Beraz, baldin Zipf-en legea beteko balitz perfektuki artén 10161 hitz ezberdin horiek, izanen genuke ze a erlazioa artén hitz-kopuru totala eta maiztasun altuena izan beharko litzaké:

S10161 = sum(1/(1:10161))
9.803577

non hitz ezberdin guztien maiztasun erlatibo teorikoak batuta, aterako zaigú unitatea (ikus sarrera hau):

sum(1/(9.803577*(1:10161))) = 1

nondik kalkula geinkén maiztasun erlatibo teorikoak korresponditzén ki edozein ordinalitate (esan nahi baita, korresponditén ki n-garren hitza an rankina on hitzak) baldin, diogunez, Zipf-en legea beteko balitz perfektuki. Adibidez, hitz erabilienari korrespondiko litzaioke 0.1020036 edo %10.2:

sum(1/(9.803577*(1:1)))

0.1020036

10. hitz erabilienari tokatuko litzaioké 0.2987653 edo %29.9:

sum(1/(9.803577*(1:10)))

0.2987653

100. hitz erabilienari 0.5291311 edo %52.9:

sum(1/(9.803577*(1:100)))

0.5291311

eta 1000.ari 0.7635449 edo %76.4:

sum(1/(9.803577*(1:1000)))

0.7635449

eta, 10000.ari 0.9983709 edo %99.9:

sum(1/(9.803577*(1:10000)))

0.9983709

zein aski bat datoz kin Dewey-ren portzentajeak:

Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzkén baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil. Dewey jada fijatua zen an proportzioak zein gero Zipf-ek sakonago aztertuko zituen. [1329] [>>>]

Etiketak: Dewey, Shannon, Zipf

asteazkena, uztaila 21, 2021

Dewey-ren erlazioa artén hitz komunenak eta euren portzentajeak an ingles konektatua (1923)

Shannon-ek (an bere "Prediction an entropy of printed English", 1950) aipatzen ditú Dewey (1923) eta Zipf (1949) noiz kalkulatzen zénbat entropia duén ingles inprimatuak:

eta jada komentatua dugu Zipf-ek proposatutako erlazioa artén hitzen maizasuna eta euren ordinaltasuna an corpus linguistikoak, baina gaur komentatu nahi genuke nóla Dewey-k jada an 1923 proposatua zuén Zipf-en erlazio horren lehenengo hurbilketa interesgarri bat noiz propósatu ondorengo erlazioa artén hitz komunenak eta euren portzentajeak an ingles konektatua (1923:17):

Diogunez, hor daukagu lehenengo proposamen bat erlázionatuz corpus bateko hitzen maiztasunak eta euren ordinaltasunak, zein postulatzen den soilik an:

...any specimen of connected English sufficiently long to be fairly representativ... [Dewey, 1923]

Bai, Dewey-ren 1923ko erlazio hori postulatzen da an corpus zabalak on ingles konektatua. Zipf-ek (1949) erlazio hori gehiago zehaztu zuén eta bere aplikagarritasuna zabaldu zuen. [1328] [>>>]

Etiketak: Dewey, Zipf

asteartea, uztaila 20, 2021

Baldin Zipf-en legea betetzen bada, Shannon-en 0.1 proportzio hori teorikoki izanen dá 1/Sn (ez da izanen independentea ti "n")

Shannon-ek zioén hemen ze:

Baina, 0.1 hori (= .1 an Shannon-en artikulua) dá a proportzioa artén maiztasun handiena an corpusa eta hitz-kopuru totala (0.1 hori dago ki Sn = 10), alegia:

(1/Sn) = (1/10) = 0.1

eta Zipf-en erlazioa betetzen delarik, proportzio hori (0.1 hori edo, berdin ere, Sn = 10 hori) egonen da an funtzioa on zénbat hitz ezberdin erabili diren an corpus hori (hots, an funtzioa on "n"). Esan nahi baita ze proportzio hori (0.1) ez da independentea ti "n", baizik ze atera beharko litzake ti:

(1/Sn) = 1/(sum(1/(1:n)))

halan-ze, horrela eginez, hitz guztien probabilitate agregatua izanen dá beti 1 (ezin liteke izán infinitu):

sum((1/Sn)/(1:n)) = sum(1/(sum(1/(1:n)))/(1:n)) = 1

Zehazki, proportzio hori 0.1 izateko, hitz ezberdinen kopurua ("n") teorikoki izan beharko litzaké 12367:

S<-function(n){sum(1/(1:n))-10}
uniroot(S, c(1,100000))
$root
[1] 12367

Horrela, ondoko aipuko batukari hori:

izanen da justuki 1 noiz batuketa dén egiten tikan 1 daino 12367 (horiek izanen liraké hitz guztiak, teorikoki):

(1/(sum(1/(1:12367)))) = 0.09999957 ≃ 0.1

Praktikan, kalkulatu beharko lirake hitz guztien probabilitate enpirikoak (zeinen batura derrigor izanen dén 1) eta hitz guztiak erabilí an konputoa on entropia, eta ez soilik lehenengo 8727 hitzak. Horrela, corpuseko hitz guztiak konsideratuz, entropia jaitsiko litzake ti 11.82 dara 9.716223:

TEnt(12367)
9.716223

Baldin soilik 8727 hitz ezberdin erabili balira (Zipf-en legea perfektuki beteta), entropia litzaké 9.414066:

TEnt(8727)
9.414066

zein den are urrutiago ti 11.82 bitak per hitza zein Shannon-ek kalkulatu zituen baztertuz hainbat hitz ti bere kalkulua. [1327] [>>>]

Etiketak: daino, dara, Shannon, Zipf

igandea, uztaila 04, 2021

Adibide bat konpáratuz entropia eta entropia teorikoa

Ikus daigun adibide sinple bat nahirik argitu zéin den erlazioa artén entropia eta entropia teorikoa.

Demagun hitz-banaketa bat zeintan soilik agertzen zaizkigun bi hitz: bata, erabiliena, bi aldiz agertzen da an corpus hori; eta bestea, gutxien erabilia, behin agertzen da soilik. Guztira, hitz-kopurua dá 3, eta hitz ezberdinen kopurua dá 2, kin maiztasun absolutuák 2 eta 1. Corpus horretan betetzen dá Zipf-en erlazioa perfektuki, zeren bigarren hitz erabiliena dá erabiltzen %50 respektu lehenengo hitz erabiliena, halan-ze corpuseko bi hitzetan (guztietan) betetzen da Zifp-en erlazio hori estuki. Galdera dá: zéin izanen litzake corpus horren entropia?

Entropy(c(2,1))
0.9182958

Eta, zéin izanen litzake corpus horren entropia teorikoa? (gogora ze entropia teorikoa kalkulatzeko, soilik jakin behar dugu zénbat hitz diferente agertzen diren an corpusa: kasu honetan, 2 hitz ezberdin, n = 2):

TEnt(2)
0.9182958

Eta entropia teorikoa horixe izanen da (0.9182958) noiz ere agertzen dirén 2 hitz diferente an corpus bat non den perfektuki betetzen Zipf-en legea (erlazio horrek determinatzen dú beste guztia). Horrela, beste corpus batean berdin agertuko balira soilik bi hitz, baina bata, adibidez 2244 aldiz, eta bestea 1122 aldiz (hau da aurrekoaren erdia) halan-ze hor ere betetzen da perfektuki Zipf-en legea, orduan corpus horren entropia izanen litzaké:

Entropy(c(2244,1122))
0.9182958

hots, lehengo berbera, zein orobat izanen dén berbera zein gure entropia teorikoa:

TEnt(2)
0.9182958

Esan nahi baita ze, Zipf-en legea beteta, berdin izanen zaizkigu maiztasun absolutu konkretuak, soilik inportako zaigu zénbat hitz ezberdin agertzen zaizkigun an corpusa, nondik kalkula daikegún haren entropia teorikoa. [1311] [>>>]

Etiketak: entropia, Shannon, Zipf

larunbata, uztaila 03, 2021

Berridátziz atzoko "TEnt" funtzioa an R erábiliz "Entropy" funtzioa ("DescTools")

Atzo emán genuén R funtzio(txo) bat non lotzen dirén Shannon-en entropia eta Zipf-en legea afinda kalkúlatu corpus linguistiko baten entropia teorikoa:

Horrela, defini geinke (an R softwarea) ondorengo funtzioa ki kalkulatu entropia teorikoa on corpus linguistiko bat non perfektuki betetzen dén (teorikoki ere) Zipf-en legea ("TEnt" dá hainbeste nola "Theoretical Entropy"):
TEnt <- function(n){sum((1/(sum(1/(1:n))*(1:n))*log2(1/(1/(sum(1/(1:n))*(1:n))))))}
non "n" parametro bakarra dagoen, zeintan aplikatuko dugún edozein kopuru on hitz ezberdinak, hala nola adibidez n = 29899:
TEnt(29899)
zeinen emaitza izanen dén goragoko entropia teorikoa (an "Ulisses"):
10.47395
Horretarako, soilik jakin behar dugu zénbat hitz ezberdin agertzen diren an corpusa: Zipf-en legeak determinatzen dú beste guztia.

Genioenez, funtzio hori eman dá an R softwarea, zein doan deskarka litekén an gune hau. Behin R instalatuta, funtzio horrekin kalkulatu ahalko dá entropia teorikoa on edozein "n", adibidez "n = 10000":

TEnt(10000)

zeinen erantzuna dén:

9.532297

eta zein, dakigunez, izanen dén hori entropia teorikoa on corpus linguistiko bat kin 10000 hitz diferente.

Bestalde, R-n programatuta aurkitzen dirá hainbat funtzio, eta bádira paketeak non kalkulatu ahal den Shannon-en entropia ("DescTools" edo "Entropy"), eta non aurkitzen dugún ondorengo aukera ("DescTools"):

kin azalpen hau ("DescTools"):

The Shannon entropy equation provides a way to estimate the average minimum number of bits needed to encode a string of symbols, based on the frequency of the symbols. It is given by the formula $H = - \sum(\pi log(\pi))$ where $\pi$ is the probability of character number i showing up in a stream of characters of the given "script". The entropy is ranging from 0 to Inf.

"Entropy" funtzio hori erabiltzeko, aurrena kargatu behar da "DescTools" paketea (gure atzoko funtzioa erabiltzeko ez da ezer deskargatu behar, salbu R programa), eta, adibidez, hari emanez probabilitate-sorta oso bat (demagun 0.5 eta 0.5, bidez kodeá: c(0.5,0.5)), programak emanen digú haren entropia teorikoa (baita eman geneioke maiztasun absolutuak edota balio ez-numerikoak nola hitzen zerrenda bat, eta programak automatikoki kalkulatuko ditú euren probabilitateak):

Entropy(c(0.5,0.5)) = 1

Gure kasuan, berdefini geinke gure funtzioa erábiliz "Entropy" funtzioa, honela:

TEnt<- function(n){Entropy((1/((sum(1/(1:n)))*(1:n))))}

non (1/((sum(1/(1:n)))*(1:n)))) zati horrek adierazten du hori probabilitate-sorta zeinen entropia teorikoa kalkulatu nahi dugun:

TEnt(10000) = 9.532297

zein dén atzoko ber funtzioa baina orain erábiliz "Entropy" funtzioa ("DescTools"). [1310] [>>>]

Etiketak: entropia, Shannon, Zipf

osteguna, uztaila 01, 2021

Entropia teorikoa dá marra zuzen baten entropia (non Zipf-en legea betetzen den perfektuki harik azken hitz ezberdina)

Kalkulatu dugú, hemen eta atzo, hori entropia teorikoa on "Ulisses" (non agertzen zirén 29.899 hitz ezberdin: A marra) eta ariketa berbera burutu dugú an lagin periodistiko bat (non agertzen zirén 6.002 hitz ezberdin: B marra), zeinen emaitzak zirén, hurrenez hurren:

H29899 = 10.47396
H6002 = 9.087565

Orain galdera da: zéin izanen litzake entropia teorikoa on corpus linguistiko bat kin 10.000 hitz ezberdin? Ba, izanen litzake hori entropia on beheragoko C marra, zeren C marra sortzez da teorikoa (hor, Zipf-en legea dá betetzen perfektuki harik azken hitz ezberdina, zein dén 10.000garrena), halan-ze bere entropia dá gure entropia teorikoa.

Nabaria da nóla C marra horretan ez den gertatzen irregulartasunik (C marra dá perfektuki zuzena), ez eta, beraz, eskilara-maila modukorik an azken zatia, bitartean-ze A eta B marretan bai agertzen zaizkigula halako eskilara-mailak justuki zatio izaera diskretua on maiztasunak. Gainera, C bezalako marra teoriko batean, malda dá -1.

Kalkula daigun, hortaz, C marrari dagokion S10.000 proportzioa:

S10000 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/10000) + (1/10000) = sum(1/(1:10000)) = 9.787606

Hortik, hitz erabilienaren probabilitate teorikoa litzaké:

(1/ 9.787606) = 0.10217

eta bilatutako entropia:

H10000 = sum((1/( 9.787606*(1:10000)))*log2(1/(1/(9.787606*(1:10000))))) = 9.532297 bit per hitza, batezbeste.

zein den aurkitzen artén entropia on "Ulisses" (H29899 = 10.47396) eta entropia on lagin periodistikoa (H6002 = 9.087565), nola espero geinken.

Hortaz, Ulisses-en entropia teorikoa izanen dá justuki entropia on marra zuzen hori zeinen ordenatu-balioa dén 29.899 an eskala lineala, edo log10(29899) = 4.475657 an eskala logaritmikoa; berdin nola lagin periodistikoaren entropia teorikoa dén entropia on marra zuzenhori zeinen ordenatu-balioa dén 6.002 an eskala lineala, edo log10(6002) = 3.778296 an eskala logaritmikoa, beti ere kin maldá -1. [1308] [>>>]

Etiketak: Shannon, Zipf

asteazkena, ekaina 30, 2021

Eta zéin litzake ha entropia teorikoa on corpus bat non diren agertzen 6.002 hitz ezberdin? (B marra: lagin periodistiko bat)

Hemen ikusten genuén beheragoko grafikoa non Zipf-ek (1948) ilustratzen zuén bere erlazioa lótuz corpus bateko hitz ezberdinen maiztasuna (f) eta maiztasun horien ordinalitatea (r), zeinen biderkadura mantenduko zén aproximatuki konstante (f * r = C). Grafiko horretan, dakigunez, A marra referitzen da ki "Ulisses" novela ga Joyce, bitárten B marra dagokio ki lagin periodistiko bat, zeinen bidez Zipf-ek erakutsi nahi zuen nóla bere erlazioaren aplikazioa zihoan harantzago zein aipatutako "Ulisses". Eta, bai, bádirudi ze, neurri handi batean behintzat, Zipf-en proportzio hori betetzen da hor ere:

Hortaz, eta hemen kalkulatu dugularik "Ulisses"-en entropia teorikoa (alegia, "Ulisses"-en entropia baldin Zipf-en erlazioa beteko balitz perfektuki, nahiz hori soilik gertatu ahal den teorikoki, ez praktikan, zatio diskretutasuna on maiztasunak), gaurkoan nahi genuke kalkulatu zéin dén ha entropia teorikoa on lagin periodistikoa.

Horretarako, aurrena kalkulatuko dugú corpus horrentzako Sn proportzioa (alegia, zéin izanen litzaken proportzioa artén maiztasun altuena eta hitzen kopuru totala baldin Zipf-en erlazioa perfektuki beteko balitz):

S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = sum(1/(1:6002)) = 9.277147

Hortik aterako genuke hitz erabilienaren probabilitate teorikoa:

(1/ 9.277147) = 0.1077918

eta gero, gure helburuko entropia teorikoa:

H = sum((1/( 9.277147*(1:6002)))*log2(1/(1/( 9.277147*(1:6002))))) = 9.087565 bit, batez beste, hitz bakoitzeko.

zein diren nabarmenki bit teoriko gutxiago zein batezbesteko 10.47396 bitak per hitza an Ulisses. [1307] [>>>]

Etiketak: Shannon, Zipf

larunbata, ekaina 26, 2021

"Sn" proportzioa hazten da kin "n": zénbat-eta "n" handiagoa, "Sn" ere handiagoa

Herenegungo sarreran orobat galdetzen genuén ea hango 10 proportzio biribil hori mantenduko al zen an edozein corpus non betetzen dén Zipf-en erlazioa, edo alternatiboki, ea proportzio hori aldatuko zen an funtzioa on beste zerbait (bete aldagairen bat):

corpus guztietan mantendu beharko litzake?, ala: aldatu beharko litzake an funtzioa on beste zerbait?

Erantzuna atzoko sarreran bertan irakurri ahal genuen, noiz genioén kin Zipf ezen:

Hortaz, supósatuz lagin teoriko bat non dén betetzen Zipf-en erlazioa, kalkulatu geinke zéin proportziotan agertuko den hitz erabiliena respektuz hitzen kopuru totala (zein 2.1 taulan gutxi gorabehera zén 1/10), edo alderantziz, zénbat aldiz handiagoa izan beharko litzaken hitz-kopuru totala respektuz hitz erabiliena (2.1 taulan gutxi gorabehera 10 aldiz handiagoa), soilik erábiliz zénbat hitz ezberdin agertu diren an textua, hau dá n, bidéz formula hau:
Sn = 1 + (1/2) + (1/3) + (1/4) + ... + (1/(n-1)) + (1/n)

Adibidez, atzoko adibidean ("Ulisses" lanean) agertzen zirén 29.899 hitz diferente (artén 260.430 hitz, guztira), halan ze gure proportzioa izanen dá justuki:
S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281
esan nahi baita ze, teorikoki, proportzio hori izanen zén handixeagoa zein 10, zehazki S29.899 = 10.88281.

Esan nahi baita ze, erántzunez ki goragoko galdera, proportzio hori ez da konstantea, baizik emaitza on goragoko formula hori, zeinen balioa aldatuko dén an funtzioa on kopuru totala on hitz diferenteak zein díren agertzen an corpusa: zénbat-eta hitz diferente gehiago, Sn ere handiagoa.

Adibidez, hemen Zipf-ek ematen zigún B zuzena zein referitzen zen ki lagin linguistiko bat aterea tik prensa, eta non, aparte beté Zipf-en erlazioa, ikusten dugun ze hitz ezberdinen kopurua zén 6.002, lau aldiz txikiagoa zein Ulisses-en hitz-kopuru totala. Kasu horretan, zénbat aldiz handiagoa litzake hitz-kopuru osoa respektuz maiztasun altuena? Kalkula daigun:

S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = 9.277147

edo, bestela esanda, hitz erabiliena agertuko dá an proportzioá 1/9.277147 respektu corpusaren tamaina (hitz-kopurua). Diferentzia erlatiboki handia da: 10.88281 - 9.277147 = 1.605663.

Gauza da ze zénbat eta handiagoa izan n (hau da, hitz ezberdien kopurua), handiagoa ere izanen da gure proportzio teoriko zehatza, Sn. [1303] [>>>]

Etiketak: Zipf

ostirala, ekaina 25, 2021

Zipf (1948): "...we can calculate the approximate size of any Sn (atzoko proportzioa) if we know the size of n (and vice versa)."

Galdetzen genuén atzo ea kalkulatu liteken teorikoki hori proportzioa artén corpus bateko hitz-kopuru totala (kin errepikapenak) eta corpus horretako hitz erabilienaren maiztasuna (adibidez, Zipf-en atzoko adibidean hitz-kopuru totala zén 10 aldiz handiago zein maiztaun altuena) supósatuz ze corpus horretan betetzen dén Zipf-en erlazioa. Eta erantzuna Zipf-ek berak ematen digu:

Hortaz, suposatuz lagin teoriko bat non dén betetzen Zipf-en erlazioa, kalkulatu geinke zéin proportziotan agertuko den hitz erabiliena respektuz hitzen kopuru totala (2.1 taulan gutxi gorabehera zén 1/10), edo alderantziz, zénbat aldiz handiagoa izan beharko litzaken hitz-kopuru totala respektuz hitz erabiliena (2.1 taulan gutxi gorabehera 10 aldiz handiagoa), soilik erábiliz zénbat hitz ezberdin agertu diren an textua, hau dá n, bidéz formula hau:

Sn = 1 + (1/2) + (1/3) + (1/4) + ... + (1/(n-1)) + (1/n)

Adibidez, atzoko adibidean ("Ulisses" lanean) agertzen zirén 29.899 hitz diferente (artén 260.430 hitz, guztira), halan-ze gure proportzioa izanen dá justuki:

S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281

esan nahi baita ze, teorikoki, proportzio hori izanen zén handixeagoa zein 10, zehazki S29.899 = 10.88281. [1302] [>>>]

Etiketak: Shannon, Zipf

osteguna, ekaina 24, 2021

[Zipf, enpirikoki: C * 10 ≈ corpusaren hitz-kopuru totala] Baina, kalkulatu al liteke proportzio hori (10 misteriotsu hori) teorikoki?

Atzoko sarreran konprobatzen genuen nóla adieraz geinken grafikoki Zipf-en erlazioa (artén hitzen maiztasuna eta maiztasun horien ordenalitatea) an corpus teoriko bat non Zipf-en formula beteko baitzén (hortaz, emaitza dá zuzen teoriko bat, zein atzoko grafikoan geldituko zén gorago edo beherago aráuz maiztasuna on hitz erabiliena: zénbat eta altuagoa, gorago).

Bide teoriko beretik, duela gutxi ikusten genuén ondorengo taula (aterea tik ber liburua ga Zipf) non agertzen baitzen 10 zenbaki (proportzio) interesgarri bezain misteriotsu bat lótuz C kantitatea (hitz erabilienaren frekuentzia noiz f = 1) eta aztertutako corpusaren hitz-kopuru totala (C * 10). Gogora daigun:

hau dá:

Baina,

kalkulatu al liteke proportzio hori (10 misteriotsu hori) teorikoki?

corpus guztietan mantendu beharko litzake?, ala: aldatu beharko lizake an funtzioa on beste zerbait?

nóla erlazionatu ahal dira proportzio hori eta entropiaren kalkulua an corpus linguisiko bat?

Horretaz saiatuko gara mintzatzen an ondorengo sarrerak. [1301] [>>>]

Etiketak: entropia, Zipf

asteartea, ekaina 22, 2021

Zipf-ek eskainitako grafiko bat non erakusten duén bere (Zipf-en) erlazioa an bi corpus (1948)

Atzoko sarreran ikusten genuén nóla Zipf-ek, erábiliz James Joyce-ren Ulisses lana, deduzitzen zuén bere erlazioa artén hango hitzen maiztasunak (f) eta maiztasun horien ordena-zenbakia (edo ordinalitatea: r), non, aproximatuki, bi kantitate horien biderkadura mantenduko zén konstante: f * r = C. Joyce-k, obra horretan, erabili zituén justuki 28.899 hitz ezberdin, bakoitza kin bere maiztasuna, artio osátu guztira 260.430 hitz, halan ze hitzen batezbesteko maiztasuna dá 9.011731, nahiz, esan gabe doa, hitz guztiek ez duten ber maiztasuna. Hortxe sartzen da Zipf-en erlazioa, zeinen arabera, esan dugunez, hitzen maiztasunek gordetzen dutén erlazio estu bat kin euren ordinalitatea.

Erlazio hori ilustratzeko, beherago daukagu grafiko bat ganik Zipf bera (an bere "Human behavior an the principle of least effort", 1949), non A marra dago-ki Ulisses, B marra dago-ki beste lagin bat, aterea ti egunkarietako textuak, eta C marra dá marra teoriko hori (horregatik zuzen-zuzena) zein aterako litzakén baldin lagin batean hitz erabilienak izanen balitú justuki 10.000 erabilera eta n-garren hitz erabilienak ondoko fn erabilera-kopurua:

fn = (10.000/n)

Adibidez, lagin teoriko horretan, 3. hitz erabiliena textuan agertuko litzaké justuki 10.000/3 aldiz.

[OHARRA: ohartu ze grafikoan ordenatu-ardatzeko 10.000 hori ez da agertzen an bere lekua, baizik gorago, izkinean, non kantitatea dén ondo handiagoa zein 10.000, zeren eskalan konsideratzen ari dira logaritmo dezimalak: gorriz jarri dugu an bere lekua]

Grafikoan, Joyce-ren novelaren marra (A) dá agertzen gorago zein egunkarietako laginaren marra (B), zeren Joyce-ren lanean hitz erabilienak dú maiztasun handiagoa (guztira Joyce-ren lanean erabiltzen dirá sei bat aldiz hitz gehiago: 260.430 aúrka 43.989). Baina kontua da ze, bi kasuetan, malda dá gutxi gorabehera hori bera zein espero genuen jarráiki Zipf-en erlazioa, alegia, -1. [1299] [>>>]

Etiketak: Shannon, Zipf

astelehena, ekaina 21, 2021

Zipf-en erlazioa artén hitzen maiztasuna (f) eta maiztasun horien ordena-zenbakia (r), zein dén: r * f = C

Atzoko sarreran agertzen zitzaigun Zipf-en erlazioa artén hitzen maiztasuna eta maiztasun horien ordena-zenbakia, eta gaurkoan nahiko genuke aipatu Zipf bera an bere liburuá "Human behavior an the principle of least effort" (1949), non lantzen den erlazio hori. Zipf-ek dio:

Horrá erlazioa:

r * f = C

non

log10(r * f) = log10(C)

nondik

log10(r) + log10(f) = log10(C)

eta kontuan hartuta ze C konstantearen logaritmoa konstantea izanen den, daukagu ze:

log10(r) + log10(f) = K

edo:

log10(f) = K - log10(r)

zein den expresioa on zuzen bat zeinen malda dén -1 (geldítuz 45 graduko angeluak kin ardatzak). [1298] [>>>]

Etiketak: Shannon, Zipf

balbula

larunbata, uztaila 24, 2021

Zipf (1949): "... we shall present further rank-frequency distributions from samples of many other languages, ..."

osteguna, uztaila 22, 2021

Zénbat hitz ezberdin zeuden an azterketa e Dewey (1923)?

asteazkena, uztaila 21, 2021

Dewey-ren erlazioa artén hitz komunenak eta euren portzentajeak an ingles konektatua (1923)

asteartea, uztaila 20, 2021

Baldin Zipf-en legea betetzen bada, Shannon-en 0.1 proportzio hori teorikoki izanen dá 1/Sn (ez da izanen independentea ti "n")

igandea, uztaila 04, 2021

Adibide bat konpáratuz entropia eta entropia teorikoa

larunbata, uztaila 03, 2021

Berridátziz atzoko "TEnt" funtzioa an R erábiliz "Entropy" funtzioa ("DescTools")

osteguna, uztaila 01, 2021

Entropia teorikoa dá marra zuzen baten entropia (non Zipf-en legea betetzen den perfektuki harik azken hitz ezberdina)

asteazkena, ekaina 30, 2021

Eta zéin litzake ha entropia teorikoa on corpus bat non diren agertzen 6.002 hitz ezberdin? (B marra: lagin periodistiko bat)

larunbata, ekaina 26, 2021

"Sn" proportzioa hazten da kin "n": zénbat-eta "n" handiagoa, "Sn" ere handiagoa

ostirala, ekaina 25, 2021

Zipf (1948): "...we can calculate the approximate size of any Sn (atzoko proportzioa) if we know the size of n (and vice versa)."

osteguna, ekaina 24, 2021

[Zipf, enpirikoki: C * 10 ≈ corpusaren hitz-kopuru totala] Baina, kalkulatu al liteke proportzio hori (10 misteriotsu hori) teorikoki?

asteartea, ekaina 22, 2021

Zipf-ek eskainitako grafiko bat non erakusten duén bere (Zipf-en) erlazioa an bi corpus (1948)

astelehena, ekaina 21, 2021

Zipf-en erlazioa artén hitzen maiztasuna (f) eta maiztasun horien ordena-zenbakia (r), zein dén: r * f = C

Niri buruz

Previous Posts

Archives