Entropia teorikoa soilik dependitzen da ti kopurua on hitz ezberdinak
Aurreko sarreretan kalkulatu dugú zenbait entropia teoriko:
- Ulisses: 29899 hitz ezberdin, zeintako bakoitzari teorikoki dagozkión batezbeste 10.47396 bit.
- lagin periodistiko bat: 6002 hitz ezberdin, zeintako bakoitzari teorikoki dagozkión batezbeste 9.087565 bit.
- C marra teorikoa: 10000 hitz ezberdin, zeintako bakoitzari teorikoki dagozkión batezbeste 9.532297 bit.
Eta gauza da ze entropia teoriko hori soilik dependitzen da ti kopurua on hitz ezberdinak: zenbat-eta hitz ezberdin gehiago agértu an corpus linguistiko jakin bat, orduan-eta altuagoa izanen da ha kopurua on bit-ak (ha kopurua on galdera-erantzun teorikoak) zein beharko genituzkén, batezbeste, ki identifikátu (transmitiíu) hitz horietako bakoitza bidéz sistema kodifikatu bat.
Horrela, defini geinke (an R softwarea) ondorengo funtzioa ki kalkulatu ha entropia teorikoa on corpus linguistiko bat non den perfektuki betetzen (teorikoki ere) Zipf-en legea ("TEnt" dá hainbeste nola "Theoretical Entropy"):
TEnt <- function(n){sum((1/(sum(1/(1:n))*(1:n))*log2(1/(1/(sum(1/(1:n))*(1:n))))))}
non "n" parametro bakarra dagoen, zeintan aplikatuko dugún edozein kopurú on hitz ezberdinak, hala nola n = 29899:
TEnt(29899)
zeinen emaitza izanen dén goragoko entropia teorikoa (an "Ulisses"):
10.47395Horretarako, soilik jakin behar dugu zénbat hitz ezberdin agertzen diren an corpusa: Zipf-en legeak determinatzen dú beste guztia. [1309] [>>>]
Etiketak: Shannon
0 Comments:
Argitaratu iruzkina
<< Home