ostirala, uztaila 02, 2021

Entropia teorikoa soilik dependitzen da ti kopurua e hitz ezberdinak

Aurreko sarreretan kalkulatu dugú zenbait entropia teoriko:

  • Ulisses: 29899 hitz ezberdin, zeinetako bakoitzari teorikoki dagozkio batezbeste 10.47396 bit.
  • lagin periodistiko bat: 6002 hitz ezberdin, zeinetako bakoitzari teorikoki dagozkio batezbeste 9.087565 bit. 
  • C marra teorikoa: 10000 hitz ezberdin, zeinetako bakoitzari teorikoki dagozkio batezbeste 9.532297 bit.

Eta gauza da ze entropia teoriko hori soilik dependitzen da ti kopurua e hitz ezberdinak: zénbat-eta hitz ezberdin gehiago agertu an corpus linguistiko jakin bat, orduan-eta altuagoa izanen da a kopurua e bitak (a kopurua e galdera-erantzun teoriko) zein beharko genituzken, batezbeste, ki identifikatu (transmititu) hitz horietako bakoitza bidez sistema kodifikatu bat.

Horrela, defini geinke (an R) ondorengo funtzioa ki kalkulatu a entropia teorikoa e corpus linguistiko bat non perfektuki (teorikoki ere) betetzen den Zipf-en legea ("TEnt" dá hainbeste nola "Theoretical Entropy"):

TEnt <- function(n){sum((1/(sum(1/(1:n))*(1:n))*log2(1/(1/(sum(1/(1:n))*(1:n))))))} 

non argumentu bakarra dago ("n"), eta zeintan aplikatuko dugú edozein kopuru e hitz ezberdinak, hala nola n = 29899:

TEnt(29899)

zeinen emaitza izanen dá goragoko entropia teorikoa (Ulisses): 

10.47395
Horretarako, soilik jakin behar dugu zénbat hitz ezberdin agertzen diren an corpusa: Zipf-en legeak determinatzen du beste guztia. []