ostirala, uztaila 02, 2021

Entropia teorikoa soilik dependitzen da ti kopurua on hitz ezberdinak

Aurreko sarreretan kalkulatu dugú zenbait entropia teoriko:

  • Ulisses: 29899 hitz ezberdin, zeintako bakoitzari teorikoki dagozkión batezbeste 10.47396 bit.
  • lagin periodistiko bat: 6002 hitz ezberdin, zeintako bakoitzari teorikoki dagozkión batezbeste 9.087565 bit. 
  • C marra teorikoa: 10000 hitz ezberdin, zeintako bakoitzari teorikoki dagozkión batezbeste 9.532297 bit.

Eta gauza da ze entropia teoriko hori soilik dependitzen da ti kopurua on hitz ezberdinak: zenbat-eta hitz ezberdin gehiago agértu an corpus linguistiko jakin bat, orduan-eta altuagoa izanen da ha kopurua on bit-ak (ha kopurua on galdera-erantzun teorikoak) zein beharko genituzkén, batezbeste, ki identifikátu (transmitiíu) hitz horietako bakoitza bidéz sistema kodifikatu bat.

Horrela, defini geinke (an R softwarea) ondorengo funtzioa ki kalkulatu ha entropia teorikoa on corpus linguistiko bat non den perfektuki betetzen (teorikoki ere) Zipf-en legea ("TEnt" dá hainbeste nola "Theoretical Entropy"):

TEnt <- function(n){sum((1/(sum(1/(1:n))*(1:n))*log2(1/(1/(sum(1/(1:n))*(1:n))))))} 

non "n" parametro bakarra dagoen, zeintan aplikatuko dugún edozein kopurú on hitz ezberdinak, hala nola n = 29899:

TEnt(29899)

zeinen emaitza izanen dén goragoko entropia teorikoa (an "Ulisses"): 

10.47395
Horretarako, soilik jakin behar dugu zénbat hitz ezberdin agertzen diren an corpusa: Zipf-en legeak determinatzen dú beste guztia. [1309] [>>>]

Etiketak: