ostirala, uztaila 23, 2021

Dewey-ren corpus linguistikoa: zabala (100000 hitz guztira) eta diversifikatua (idatzia, mintzatua eta inprimatua)

Atzoko sarreran irakurtzen genuen nóla Dewey-k bere azterketan erabili zuén corpus linguistiko bat kin 100000 hitz guztira, zeinen artean 10161 zirén diferenteak. Corpus horrek batzen zuén material diversifikatua, aterea ti garai hartako iturri idatziak, mintzatuak eta inprimatuak (1923:8):

Eta, nola ikusten genuen an sarrera titúlatzen "Interpretátuz Sn an corpus bat non Zipf-en legea betetzen den perfektuki", baldin:

S10161 = 9.803577  eta hortaz, atzo genioenez, (1/S10161) = 0.1020036 edo %10.2:

orduan, guztira 100000 hitz izanda, maiztasun erabiliena izan beharko litzaké teorikoki:

100000*0.102003610200

nahizta, Dewey-ren datuetan, hitz erabiliena (zein dén "the" artikulu determinatua) soilik agertuko dá 7310 aldiz, zein den maiztasun aski baxuagoa:

2. hitz erabilienaren maiztasun teorikoa litzaké 1.aren erdia: 10200/2 = 5100, nahizta datuetan 2. hitz hori soilik agertú 3998 aldiz, markátuz hor ere diferentzia erlatiboki handia. Eta berdin gertatzen da kin maiztasunak korresponditzén ki 3., 4. eta 5. hitzei ere, nahiz distantziak ez diren hain nabarmenak. Gero 6. hitzetik aurrera, maiztasun teorikoetatik gora ibiltzen dirá maiztasun realak. Adibidez, 18. hitzak izan beharko luke teorikoki ("on"):

10200/18 567 aldiz

nahizta datuetan agertú 643 aldiz

Orohar, atzo ikusitako maiztasun erlatibo metatuak ere mantentzen dira gainétikan euren ustezko teorikoak:

Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzke baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil.
Horrek guztiak sugeritzen digu banaketa real bat non maiztasun altuenak (konkretuki 5 maiztasun altuenak) dirén nabarmenki baxuagoak zein teorikoak, bitárten hortik aurrerakoak jotzen dute alde izán erlatiboki altuagoak zein teorikoak. Hortik espero geinké corpus horretako entropia reala (kalkulatua kin 10161 hitzak) izateá altuagoa zein bere entropia teorikoa (nolabait esán, banaketa realean maiztasunak erlatiboki "berdinagoak" baitira). [1330] [>>>]

Etiketak:

osteguna, uztaila 22, 2021

Zénbat hitz ezberdin zeuden an azterketa e Dewey (1923)?

Atzo ikusten genuen nóla Shannon (1950) zén oinarritu an corpus linguistikoa ganik Dewey (1923) afinda kalkulatu a entropia on ingles inprimatua, eta baita nóla Dewey-k jada postulatu zuén lehenengo hurbilketa bat ki erlazioa on Zipf (1949). Gaur interesatzen zaigu ezagutzea zénbat hitz ezberdin zeuden an lagin linguistikoa on Dewey, xedé konprobatu noráino datozen bat Dewey-k eta Zipf-ek emandako neurriak. Dewey-k (1923:6) emanen digu datu interesgarri hori: 10161 hitz ezberdin.

Beraz, baldin Zipf-en legea beteko balitz perfektuki artén 10161 hitz ezberdin horiek, izanen genuke ze a erlazioa artén hitz-kopuru totala eta maiztasun altuena izan beharko litzaké:

S10161 = sum(1/(1:10161))

9.803577

non hitz ezberdin guztien maiztasun erlatibo teorikoak batuta, aterako zaigú unitatea (ikus sarrera hau):

sum(1/(9.803577*(1:10161))) = 1

nondik kalkula geinkén maiztasun erlatibo teorikoak korresponditzén ki edozein ordinalitate (esan nahi baita, korresponditén ki n-garren hitza an rankina on hitzak) baldin, diogunez, Zipf-en legea beteko balitz perfektuki. Adibidez, hitz erabilienari korrespondiko litzaioke 0.1020036 edo %10.2:

sum(1/(9.803577*(1:1)))

0.1020036

10. hitz erabilienari tokatuko litzaioké 0.2987653 edo %29.9

sum(1/(9.803577*(1:10)))

0.2987653

100. hitz erabilienari 0.5291311 edo %52.9

sum(1/(9.803577*(1:100)))

0.5291311

eta 1000.ari 0.7635449 edo %76.4:

sum(1/(9.803577*(1:1000)))

0.7635449

eta, 10000.ari 0.9983709 edo %99.9

sum(1/(9.803577*(1:10000)))

0.9983709

zein aski bat datoz kin Dewey-ren portzentajeak:

Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzkén baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil. Dewey jada fijatua zen an proportzioak zein gero Zipf-ek sakonago aztertuko zituen. [1329] [>>>]

Etiketak: , ,

asteazkena, uztaila 21, 2021

Dewey-ren erlazioa artén hitz komunenak eta euren portzentajeak an ingles konektatua (1923)

Shannon-ek (an bere "Prediction an entropy of printed English", 1950) aipatzen ditú Dewey (1923) eta Zipf (1949) noiz kalkulatzen zénbat entropia duén ingles inprimatuak:

eta jada komentatua dugu Zipf-ek proposatutako erlazioa artén hitzen maizasuna eta euren ordinaltasuna an corpus linguistikoak, baina gaur komentatu nahi genuke nóla Dewey-k jada an 1923 proposatua zuén Zipf-en erlazio horren lehenengo hurbilketa interesgarri bat noiz propósatu ondorengo erlazioa artén hitz komunenak eta euren portzentajeak an ingles konektatua (1923:17):

Diogunez, hor daukagu lehenengo proposamen bat erlázionatuz corpus bateko hitzen maiztasunak eta euren ordinaltasunak, zein postulatzen den soilik an:

...any specimen of connected English sufficiently long to be fairly representativ... [Dewey, 1923]

Bai, Dewey-ren 1923ko erlazio hori postulatzen da an corpus zabalak on ingles konektatua. Zipf-ek (1949) erlazio hori gehiago zehaztu zuén eta bere aplikagarritasuna zabaldu zuen. [1328] [>>>]

Etiketak: ,