Zénbat hitz ezberdin zeuden an azterketa e Dewey (1923)?
Atzo ikusten genuen nóla Shannon (1950) zén oinarritu an corpus linguistikoa ganik Dewey (1923) afinda kalkulatu a entropia on ingles inprimatua, eta baita nóla Dewey-k jada postulatu zuén lehenengo hurbilketa bat ki erlazioa on Zipf (1949). Gaur interesatzen zaigu ezagutzea zénbat hitz ezberdin zeuden an lagin linguistikoa on Dewey, xedé konprobatu noráino datozen bat Dewey-k eta Zipf-ek emandako neurriak. Dewey-k (1923:6) emanen digu datu interesgarri hori: 10161 hitz ezberdin.
S10161 = sum(1/(1:10161))
9.803577
non hitz ezberdin guztien maiztasun erlatibo teorikoak batuta, aterako zaigú unitatea (ikus sarrera hau):
sum(1/(9.803577*(1:10161))) = 1
nondik kalkula geinkén maiztasun erlatibo teorikoak korresponditzén ki edozein ordinalitate (esan nahi baita, korresponditén ki n-garren hitza an rankina on hitzak) baldin, diogunez, Zipf-en legea beteko balitz perfektuki. Adibidez, hitz erabilienari korrespondiko litzaioke 0.1020036 edo %10.2:
sum(1/(9.803577*(1:1)))
0.1020036
10. hitz erabilienari tokatuko litzaioké 0.2987653 edo %29.9:
sum(1/(9.803577*(1:10)))
0.2987653
100. hitz erabilienari 0.5291311 edo %52.9:
sum(1/(9.803577*(1:100)))
0.5291311
eta 1000.ari 0.7635449 edo %76.4:
sum(1/(9.803577*(1:1000)))
0.7635449
eta, 10000.ari 0.9983709 edo %99.9:
sum(1/(9.803577*(1:10000)))
0.9983709
zein aski bat datoz kin Dewey-ren portzentajeak:
Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzkén baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil. Dewey jada fijatua zen an proportzioak zein gero Zipf-ek sakonago aztertuko zituen. [1329] [>>>]
0 Comments:
Argitaratu iruzkina
<< Home