osteguna, uztaila 01, 2021

Entropia teorikoa dá marra zuzen baten entropia (non Zipf-en legea betetzen den perfektuki artio azken hitz ezberdina)

Kalkulatu dugú, hemen eta atzo, a entropia teorikoak e Ulisses (non agertzen zirén 29.899 hitz ezberdin: A marra) eta lagin periodistiko bat (non agertzen zirén 6.002 hitz ezberdin: B marra), zeinen emaitzak zirén, hurrenez hurren:

H29899 = 10.47396

H6002 = 9.087565

Orain, zéin izanen litzake a entropia teorikoa e corpus linguistiko bat kin 10.000 hitz ezberdin? Ba, izanen litzake a entropia zein dagoki C marra an beheragoko grafiko jada ezaguna, zeren C marra sortzez da teorikoa (hor, Zipf-en legea dá betetzen perfektuki artio azken hitz ezberdina, zein dén 10.000garrena), halan-ze bere entropia dá gure entropia teorikoa.

Nabaria da nóla C marra horretan ez den gertatzen irregulartasunik (C marra dá perfektuki zuzena), ez-eta, beraz, eskilara-maila modukorik an azken zatia, bitártean-ze A eta B marretan bai agertzen zaizkigula halako eskilara-mailak justuki zatio izaera diskretua e maiztasunak. Gainera, C bezalako marra teoriko batean, malda dá -1.

Kalkula daigun, hortaz, C marrari dagokion S10.000 proportzioa:

S10000 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/10000) + (1/10000) = sum(1/(1:10000)) = 9.787606

Hortik, hitz erabilienaren probabilitate teorikoa litzaké:

(1/ 9.787606) =  0.10217

eta bilatutako entropia:

H10000 = sum((1/( 9.787606*(1:10000)))*log2(1/(1/(9.787606*(1:10000))))) =  9.532297 bit per hitza, batezbeste.

zein den aurkitzen arten entropiak e Ulisses (H29899 = 10.47396) eta lagin periodistikoa (H6002 = 9.087565), nola espero geinken.

Hortaz, Ulisses-en entropia teorikoa izanen dá justuki a entropia e marra zuzena zeinen ordenatu-balioa dén 29.899 an eskala lineala, edo log10(29899) = 4.475657 an eskala logaritmikoa; berdin nola lagin periodistikoaren entropia teorikoaa entropia e marra zuzena zeinen ordenatu-balioa dén 6.002 an eskala lineala, edo log10(6002) = 3.778296 an eskala logaritmikoa, beti ere kin maldá -1. []