osteguna, ekaina 24, 2021

[Zipf, enpirikoki: C * 10 ≈ corpusaren hitz-kopuru totala] Baina, kalkulatu al liteke proportzio hori (10 misteriotsu hori) teorikoki?

Atzoko sarreran konprobatzen genuen nóla adieraz geinken grafikoki Zipf-en erlazioa (arten hitzen maiztasuna eta maiztasun horien ordenalitatea) an corpus teoriko bat non Zipf-en formula beteko baitzén (hortaz, emaitza dá zuzen teoriko bat, zein atzoko grafikoan geldituko zén gorago edo beherago aráuz maiztasuna e hitz erabiliena: zénbat eta altuagoa, gorago). 

Bide teoriko beretik, duela gutxi ikusten genuén ondorengo taula (aterea ti ber liburua ga Zipf) non agertzen baitzen 10 zenbaki (proportzio) interesgarri bezain misteriotsu bat lótuz C kantitatea (hitz erabilienaren frekuentzia noiz f = 1) eta aztertutako corpusaren hitz-kopuru totala (C * 10). Gogora daigun:


 hau dá:

Baina,

  • kalkulatu al liteke proportzio hori (10 misteriotsu hori) teorikoki?
  • corpus guztietan mantendu beharko litzake?, ala: aldatu beharko lizake an funtzioa e beste zerbait?
  • nóla erlaziona daiteke proportzio hori kin kalkulua e entropia e corpus linguisiko bat?
Horretaz saiatuko gara mintzatzen an ondorengo sarrerak. []