[Zipf, enpirikoki: C * 10 ≈ corpusaren hitz-kopuru totala] Baina, kalkulatu al liteke proportzio hori (10 misteriotsu hori) teorikoki?
Atzoko sarreran konprobatzen genuen nóla adieraz geinken grafikoki Zipf-en erlazioa (arten hitzen maiztasuna eta maiztasun horien ordenalitatea) an corpus teoriko bat non Zipf-en formula beteko baitzén (hortaz, emaitza dá zuzen teoriko bat, zein atzoko grafikoan geldituko zén gorago edo beherago aráuz maiztasuna e hitz erabiliena: zénbat eta altuagoa, gorago).
Bide teoriko beretik, duela gutxi ikusten genuén ondorengo taula (aterea ti ber liburua ga Zipf) non agertzen baitzen 10 zenbaki (proportzio) interesgarri bezain misteriotsu bat lótuz C kantitatea (hitz erabilienaren frekuentzia noiz f = 1) eta aztertutako corpusaren hitz-kopuru totala (C * 10). Gogora daigun:
hau dá:
Baina,
- kalkulatu al liteke proportzio hori (10 misteriotsu hori) teorikoki?
- corpus guztietan mantendu beharko litzake?, ala: aldatu beharko lizake an funtzioa e beste zerbait?
- nóla erlaziona daiteke proportzio hori kin kalkulua e entropia e corpus linguisiko bat?
0 Comments:
Argitaratu iruzkina
<< Home