osteguna, uztaila 22, 2021

Zénbat hitz ezberdin zeuden an azterketa e Dewey (1923)?

Atzo ikusten genuen nóla Shannon (1950) zén oinarritu an corpus linguistikoa ganik Dewey (1923) afinda kalkulatu a entropia on ingles inprimatua, eta baita nóla Dewey-k jada postulatu zuén lehenengo hurbilketa bat ki erlazioa on Zipf (1949). Gaur interesatzen zaigu ezagutzea zénbat hitz ezberdin zeuden an lagin linguistikoa on Dewey, xedé konprobatu noráino datozen bat Dewey-k eta Zipf-ek emandako neurriak. Dewey-k (1923:6) emanen digu datu interesgarri hori: 10161 hitz ezberdin.

Beraz, baldin Zipf-en legea beteko balitz perfektuki artén 10161 hitz ezberdin horiek, izanen genuke ze a erlazioa artén hitz-kopuru totala eta maiztasun altuena izan beharko litzaké:

S10161 = sum(1/(1:10161))

9.803577

non hitz ezberdin guztien maiztasun erlatibo teorikoak batuta, aterako zaigú unitatea (ikus sarrera hau):

sum(1/(9.803577*(1:10161))) = 1

nondik kalkula geinkén maiztasun erlatibo teorikoak korresponditzén ki edozein ordinalitate (esan nahi baita, korresponditén ki n-garren hitza an rankina on hitzak) baldin, diogunez, Zipf-en legea beteko balitz perfektuki. Adibidez, hitz erabilienari korrespondiko litzaioke 0.1020036 edo %10.2:

sum(1/(9.803577*(1:1)))

0.1020036

10. hitz erabilienari tokatuko litzaioké 0.2987653 edo %29.9

sum(1/(9.803577*(1:10)))

0.2987653

100. hitz erabilienari 0.5291311 edo %52.9

sum(1/(9.803577*(1:100)))

0.5291311

eta 1000.ari 0.7635449 edo %76.4:

sum(1/(9.803577*(1:1000)))

0.7635449

eta, 10000.ari 0.9983709 edo %99.9

sum(1/(9.803577*(1:10000)))

0.9983709

zein aski bat datoz kin Dewey-ren portzentajeak:

Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzkén baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil. Dewey jada fijatua zen an proportzioak zein gero Zipf-ek sakonago aztertuko zituen. [1329] [>>>]

Etiketak: , ,