ostirala, uztaila 23, 2021

Dewey-ren corpus linguistikoa: zabala (100000 hitz guztira) eta diversifikatua (idatzia, mintzatua eta inprimatua)

Atzoko sarreran irakurtzen genuen nóla Dewey-k bere azterketan erabili zuén corpus linguistiko bat kin 100000 hitz guztira, zeinen artean 10161 zirén diferenteak. Corpus horrek batzen zuén material diversifikatua, aterea ti garai hartako iturri idatziak, mintzatuak eta inprimatuak (1923:8):

Eta, nola ikusten genuen an sarrera titulatzén "Interpretátuz Sn an corpus bat non Zipf-en legea betetzen den perfektuki", baldin:

S10161 = 9.803577  eta hortaz, atzo genioenez, (1/S10161) = 0.1020036 edo %10.2:

orduan, guztira 100000 hitz izanda, maiztasun erabiliena izan beharko litzaké teorikoki:

100000*0.102003610200

nahizta, Dewey-ren datuetan, hitz erabiliena (zein dén "the" artikulu determinatua) soilik agertuko dá 7310 aldiz, zein den maiztasun aski baxuagoa:

2. hitz erabilienaren maiztasun teorikoa litzaké 1.aren erdia: 10200/2 = 5100, nahizta datuetan 2. hitz hori soilik agertú 3998 aldiz, markátuz hor ere diferentzia erlatiboki handia. Eta berdin gertatzen da kin maiztasunak korresponditzén ki 3., 4. eta 5. hitzei ere, nahiz distantziak ez diren hain nabarmenak. Gero 6. hitzetik aurrera, maiztasun teorikoetatik gora ibiltzen dirá maiztasun realak. Adibidez, 18. hitzak izan beharko luke teorikoki ("on"):

10200/18 567 aldiz

nahizta datuetan agertú 643 aldiz

Orohar, atzo ikusitako maiztasun erlatibo metatuak ere mantentzen dira gainétikan euren ustezko teorikoak:

Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzke baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil.
Horrek guztiak sugeritzen digu banaketa real bat non maiztasun altuenak (konkretuki 5 maiztasun altuenak) dirén nabarmenki baxuagoak zein teorikoak, bitárten hortik aurrerakoak jotzen dute alde izán erlatiboki altuagoak zein teorikoak. Hortik espero geinké corpus horretako entropia reala (kalkulatua kin 10161 hitzak) izateá altuagoa zein bere entropia teorikoa (nolabait esán, banaketa realean maiztasunak erlatiboki "berdinagoak" baitira). []