Zénbat hitz ezberdin zeuden an azterketa e Dewey (1923)?
Atzo ikusten genuen nóla Shannon (1950) zén oinarritu an corpus linguistikoa ganik Dewey (1923) afin kalkulatu a entropia e ingles inprimatua, eta baita nóla Dewey-k jada postulatu zuén lehenengo hurbilketa bat ki erlazioa e Zipf (1949). Gaur interesatzen zaigu ezagutzea zénbat hitz ezberdin zeuden an lagin linguistikoa e Dewey, xedé konprobatu noráino bat datozen Dewey-k eta Zipf-ek emandako neurriak. Dewey-k (1923:6) emanen digu datu interesgarri hori: 10161 hitz ezberdin.
S10161 = sum(1/(1:10161))
9.803577
non hitz ezberdin guztien maiztasun erlatibo teorikoak batuta, aterako zaigú unitatea (ikus sarrera hau):
sum(1/(9.803577*(1:10161))) = 1
nondik kalkula geinké maiztasun erlatibo teorikoak korresponditzén ki edozein ordinalitate (esan nahi baita, korresponditén ki n-garren hitza an rankina e hitzak) baldin, diogunez, Zipf-en legea beteko balitz perfektuki. Adibidez, hitz erabilienari korrespondiko litzaioke 0.1020036 edo %10.2:
sum(1/(9.803577*(1:1)))
0.1020036
10. hitz erabilienari tokatuko litzaioké 0.2987653 edo %29.9:
sum(1/(9.803577*(1:10)))
0.2987653
100. hitz erabilienari 0.5291311 edo %52.9:
sum(1/(9.803577*(1:100)))
0.5291311
eta 1000.ari 0.7635449 edo %76.4:
sum(1/(9.803577*(1:1000)))
0.7635449
eta, 10000.ari 0.9983709 edo %99.9:
sum(1/(9.803577*(1:10000)))
0.9983709
zein aski bat datoz kin Dewey-ren portzentajeak:
Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzke baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil. Dewey jada fijatua zen an proportzioak zein gero Zipf-ek sakonago aztertuko zituen. [⇶]
0 Comments:
Argitaratu iruzkina
<< Home