Entropia teorikoa soilik dependitzen da ti kopurua e hitz ezberdinak
Aurreko sarreretan kalkulatu dugú zenbait entropia teoriko:
- Ulisses: 29899 hitz ezberdin, zeinetako bakoitzari teorikoki dagozkio batezbeste 10.47396 bit.
- lagin periodistiko bat: 6002 hitz ezberdin, zeinetako bakoitzari teorikoki dagozkio batezbeste 9.087565 bit.
- C marra teorikoa: 10000 hitz ezberdin, zeinetako bakoitzari teorikoki dagozkio batezbeste 9.532297 bit.
Eta gauza da ze entropia teoriko hori soilik dependitzen da ti kopurua e hitz ezberdinak: zénbat-eta hitz ezberdin gehiago agertu an corpus linguistiko jakin bat, orduan-eta altuagoa izanen da a kopurua e bitak (a kopurua e galdera-erantzun teoriko) zein beharko genituzken, batezbeste, ki identifikatu (transmititu) hitz horietako bakoitza bidez sistema kodifikatu bat.
Horrela, defini geinke (an R) ondorengo funtzioa ki kalkulatu a entropia teorikoa e corpus linguistiko bat non perfektuki (teorikoki ere) betetzen den Zipf-en legea ("TEnt" dá hainbeste nola "Theoretical Entropy"):
TEnt <- function(n){sum((1/(sum(1/(1:n))*(1:n))*log2(1/(1/(sum(1/(1:n))*(1:n))))))}
non argumentu bakarra dago ("n"), eta zeintan aplikatuko dugú edozein kopuru e hitz ezberdinak, hala nola n = 29899:
TEnt(29899)
zeinen emaitza izanen dá goragoko entropia teorikoa (Ulisses):
10.47395Horretarako, soilik jakin behar dugu zénbat hitz ezberdin agertzen diren an corpusa: Zipf-en legeak determinatzen du beste guztia. [⇶]
0 Comments:
Argitaratu iruzkina
<< Home