igandea, ekaina 20, 2021

Nóla kalkulatu entropia on ingles inprimatua

Genúen komentatzen atzo eta  herenegun nóla aplikatu ahal den entropiaren formula ki hizkuntza bat (hártuz hitzak nola oinarrizko seinalea an sistema):

  • aurrena, kalkúlatuz hizkuntza horrentzako hitzen probabilitateak (bere maiztasunak an corpus bat), 
  • eta gero, sartuz probabilitate horiek an formula on entropia

Ikusten denez, kalkulu horietan soilik behar dira hitzen probabilitateak

Zehaztu daigun orain nóla Shannon-ek berak kalkulatu zuén entropia on ingles inprimatua, an bere artikulua titulatzen "Prediction an entropy of printed English" (1950): hain zuzen, lehenik, hartuko zituén hitzen maiztasunak tik artikulu bat (gaur egun klasikoa) zein Zipf-ek baitzuén publikatua an 1949, titulatzén "Human behavior an the principle of least effort":

eta gero aplikatuko zuén entropiaren formula ki probabilitate horiek harik hitzá 8.727, zeintan guztira osatzen baitzen 1-eko probabilitatea (gainerako hitzek, maiztasun txikienekoek, ez dute parte hartzen an kalkulua):

Hots, ingles inprimatuan, hitz bakoitzeko kapazitate informatiboa (mintzo gara gain kapazitatea zein kode batek beharko lukén ki transmititu hitz bakoitza, batez beste) izanen litzaké 11.82 bit, batez beste. [1297] [>>>]