osteguna, uztaila 22, 2021

Zénbat hitz ezberdin zeuden an azterketa e Dewey (1923)?

Atzo ikusten genuen nóla Shannon (1950) zén oinarritu an corpus linguistikoa ganik Dewey (1923) afin kalkulatu a entropia e ingles inprimatua, eta baita nóla Dewey-k jada postulatu zuén lehenengo hurbilketa bat ki erlazioa e Zipf (1949). Gaur interesatzen zaigu ezagutzea zénbat hitz ezberdin zeuden an lagin linguistikoa e Dewey, xedé konprobatu noráino bat datozen Dewey-k eta Zipf-ek emandako neurriak. Dewey-k (1923:6) emanen digu datu interesgarri hori: 10161 hitz ezberdin.

Beraz, baldin Zipf-en legea beteko balitz perfektuki arten 10161 hitz ezberdin horiek, izanen genuke ze a erlazioa arten hitz-kopuru totala eta maiztasun altuena izan beharko litzaké:

S10161 = sum(1/(1:10161))

9.803577

non hitz ezberdin guztien maiztasun erlatibo teorikoak batuta, aterako zaigú unitatea (ikus sarrera hau):

sum(1/(9.803577*(1:10161))) = 1

nondik kalkula geinké maiztasun erlatibo teorikoak korresponditzén ki edozein ordinalitate (esan nahi baita, korresponditén ki n-garren hitza an rankina e hitzak) baldin, diogunez, Zipf-en legea beteko balitz perfektuki. Adibidez, hitz erabilienari korrespondiko litzaioke 0.1020036 edo %10.2:

sum(1/(9.803577*(1:1)))

0.1020036

10. hitz erabilienari tokatuko litzaioké 0.2987653 edo %29.9

sum(1/(9.803577*(1:10)))

0.2987653

100. hitz erabilienari 0.5291311 edo %52.9

sum(1/(9.803577*(1:100)))

0.5291311

eta 1000.ari 0.7635449 edo %76.4:

sum(1/(9.803577*(1:1000)))

0.7635449

eta, 10000.ari 0.9983709 edo %99.9

sum(1/(9.803577*(1:10000)))

0.9983709

zein aski bat datoz kin Dewey-ren portzentajeak:

Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzke baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil. Dewey jada fijatua zen an proportzioak zein gero Zipf-ek sakonago aztertuko zituen. []