igandea, ekaina 20, 2021

Nóla kalkulatu a entropia e ingles inprimatua

Genúen komentatzen atzo eta  herenegun nóla aplikatu ahal den entropiaren formula ki hizkuntza bat (hártuz hitzak nola oinarrizko seinalea e sistema):

  • aurrena, kalkúlatuz hizkuntza horrentzako hitzen probabilitateak (bere maiztasunak an corpus bat), 
  • eta gero, sártuz probabilitate horiek an formula e entropia

Ikusten denez, kalkulu horretan soilik behar dirén hitzen probabilitateak

Zehaztu daigun orain nóla Shannon-ek berak kalkulatu zuén a entropia e ingles inprimatua, an bere artikulua titulatzen "Prediction an entropy of printed English" (1950): lehenik, hartuko zituén hitzen maiztasunak ti artikulu bat (gaur egun klasikoa) zein Zipf-ek publikatua baitzuen an 1949, titulatzén "Human behavior an the principle of least effort":

eta gero aplikatuko zuén entropiaren formula ki probabilitate horiek artio hitzá 8.727, zeintan betetzen baitzen 1-eko probabilitatea (gainerako hitzek, maiztasun txikienekoek, ez dute parte hartzen an kalkulua):

Hots, ingles inprimatuan, hitz bakoitzeko kapazitate informatiboa (mintzo gara gain kapazitatea zein kode batek beharko luke ki transmititu hitz bakoitza, batez beste) izanen litzaké 11.82 bit, batez beste. []