igandea, uztaila 04, 2021

Adibide bat konpáratuz entropia eta entropia teorikoa

Ikus daigun adibide sinple bat nahizik argitu zéin den erlazioa arten entropia eta entropia teorikoa

Demagun hitz-banaketa bat zeintan soilik agertzen zaizkigun bi hitz: bata, erabiliena, bi aldiz agertzen da an corpus hori; eta bestea, gutxien erabiliena, behin agertzen da soilik. Guztira, hitz-kopurua dá 3, eta hitz ezberdinen kopurua dá 2, kin maiztasun absolutuák 2 eta 1. Corpus horretan betetzen dá Zipf-en erlazioa perfektuki, zeren bigarren hitz erabiliena dá erabiltzen %50 respektu lehenengo hitz erabiliena, halan-ze corpuseko bi hitzetan (guztietan) betetzen da Zifp-en erlazio hori estuki. Galdera dá. zéin izanen litzake corpus horren entropia?

Entropy(c(2,1))

0.9182958

Eta, zéin izanen litzake corpus horren entropia teorikoa? (gogorá ze entropia teorikoa kalkulatzeko, soilik jakin behar dugu zénbat hitz diferente agertzen diren an corpusa: kasu honetan, 2 hitz ezberdin, n = 2):

TEnt(2)

 0.9182958

Eta entropia teorikoa horixe izanen da (0.9182958) noiz-ere agertzen diren 2 hitz diferente an corpus bat non perfektuki betetzen den Zipf-en legea (erlazio horrek beste guztia determinatzen du). Horrela, beste corpus batean berdin agertuko balira soilik bi hitz, baina bata, adibidez 2244 aldiz, eta bestea 1122 aldiz (hau da aurrekoaren erdia) halan-ze hor ere betetzen da perfektuki Zipf-en legea, orduan corpus horren entropia izanen litzaké:

Entropy(c(2244,1122))

0.9182958

hots, lehengo berbera, zein orobat izanen den berbera zein gure entropia teorikoa:

TEnt(2)

 0.9182958

Esan nahi baita ze, Zipf-en legea beteta, berdin izanen zaizkigu maiztasun absolutu konkretuak, soilik inportako zaigu zénbat hitz ezberdin agertzen zaizkigun an corpusa, nondik kalkula daikegú a entropia teorikoa. []