osteguna, uztaila 01, 2021

Entropia teorikoa dá marra zuzen baten entropia (non Zipf-en legea betetzen den perfektuki harik azken hitz ezberdina)

Kalkulatu dugú, hemen eta atzo, ha entropia teorikoak on "Ulisses" (non agertzen zirén 29.899 hitz ezberdin: A marra) eta ariketa berbera burutu dugú an lagin periodistiko bat (non agertzen zirén 6.002 hitz ezberdin: B marra), zeinen emaitzak zirén, hurrenez hurren:

H29899 = 10.47396

H6002 = 9.087565

Orain, zéin izanen litzake ha entropia teorikoa on corpus linguistiko bat kin 10.000 hitz ezberdin? Ba, izanen litzake ha entropia on beheragoko C marra, zeren C marra sortzez da teorikoa (hor, Zipf-en legea dá betetzen perfektuki harik azken hitz ezberdina, zein dén 10.000garrena), halan ze bere entropia dá gure entropia teorikoa.

Nabaria da nóla C marra horretan ez den gertatzen irregulartasunik (C marra dá perfektuki zuzena), ez eta, beraz, eskilara-maila modukorik an azken zatia, bitártean ze A eta B marretan bai agertzen zaizkigula halako eskilara-mailak justuki zatio izaera diskretua on maiztasunak. Gainera, C bezalako marra teoriko batean, malda dá -1.

Kalkula daigun, hortaz, C marrari dagokion S10.000 proportzioa:

S10000 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/10000) + (1/10000) = sum(1/(1:10000)) = 9.787606

Hortik, hitz erabilienaren probabilitate teorikoa litzaké:

(1/ 9.787606) =  0.10217

eta bilatutako entropia:

H10000 = sum((1/( 9.787606*(1:10000)))*log2(1/(1/(9.787606*(1:10000))))) =  9.532297 bit per hitza, batezbeste.

zein den aurkitzen artén entropia on "Ulisses" (H29899 = 10.47396) eta entropia on lagin periodistikoa (H6002 = 9.087565), nola espero geinken.

Hortaz, Ulisses-en entropia teorikoa izanen dá justuki ha entropia on marra zuzena zeinen ordenatu-balioa dén 29.899 an eskala lineala, edo log10(29899) = 4.475657 an eskala logaritmikoa; berdin nola lagin periodistikoaren entropia teorikoaha entropia on marra zuzena zeinen ordenatu-balioa dén 6.002 an eskala lineala, edo log10(6002) = 3.778296 an eskala logaritmikoa, beti ere kin maldá -1. [1308] [>>>]

Etiketak: ,