igandea, ekaina 20, 2021

Nóla kalkulatu ha entropiá on ingles inprimatua

Genúen komentatzen atzo eta  herenegun nóla aplikatu ahal den entropiaren formula ki hizkuntza bat (hártuz hitzak nola oinarrizko seinalea an sistema):

  • aurrena, kalkúlatuz hizkuntza horrentzako hitzen probabilitateak (bere maiztasunak an corpus bat), 
  • eta gero, sartuz probabilitate horiek an formula on entropia

Ikusten denez, kalkulu horietan soilik behar dira hitzen probabilitateak

Zehaztu daigun orain nóla Shannon-ek berak kalkulatu zuén ha entropia on ingles inprimatua, an bere artikulua titulatzen "Prediction an entropy of printed English" (1950)a: hain zuzen, lehenik, hartuko zituén hitzen maiztasunak ti artikulu bat (gaur egun klasikoa) zein Zipf-ek baitzuén publikatua an 1949, titulatzén "Human behavior an the principle of least effort":

eta gero aplikatuko zuén entropiaren formula ki probabilitate horiek harik hitzá 8.727, zeintan guztira osatzen baitzen 1-eko probabilitatea (gainerako hitzek, maiztasun txikienekoek, ez dute parte hartzen an kalkulua):

Hots, ingles inprimatuan, hitz bakoitzeko kapazitate informatiboa (mintzo gara gain kapazitatea zein kode batek beharko lukén ki transmititu hitz bakoitza, batez beste) izanen litzaké 11.82 bit, batez beste. [1297] [>>>]