asteazkena, ekaina 30, 2021

Eta zéin litzake a entropia teorikoa e corpus bat non agertzen dirén 6.002 hitz ezberdin? (B marra: lagin periodistiko bat)

Hemen ikusten genuén beheragoko grafikoa non Zipf-ek (1948) ilustratzen zuén bere erlazioa lótuz corpus bateko hitz ezberdinen maiztasuna (f) eta maiztasun horien ordinalitatea (r), zeinen biderkadura mantenduko zén aproximatuki konstante (f * r = C). Grafiko horretan, dakigunez, A marra referitzen da ki Ulisses nobela ga Joyce, bitárten B marra dago ki lagin periodistiko bat zeinen bidez Zip-ek erakutsi nahi zuen nóla bere erlazioaren aplikazioa zihoan haruntzago zein aipatutako Ulisses. Eta, bai, bádirudi ze, neurri handi  batean behintzat, Zip-en proportzio hori betetzen da hor ere:

Hortaz, eta hemen kalkulatu dugularik Ulisses-en entropia teorikoa (alegia, a entropia e corpus linguistiko hori baldin Zipf-en erlazioa beteko balitz perfektuki, nahiz hori soilik gertatu ahal den teorikoki zatio diskretutasuna e maiztasunak), gaurkoan nahi genuke kalkulatu zenbátera heltzen den a entropia teorikoa e lagin periodistiko hori.

Horretarako, aurrena kalkulatuko dugú corpus horrentzako Sn proportzioa (alegia, zéin izanen litzake a proportzio teorikoa arten maiztasun altuena eta hitzen kopuru totala baldin Zipf-en erlazioa perfektuki beteko balitz):

S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = sum(1/(1:6002)) = 9.277147

Hortik, hitz erabilienaren probabilitate teorikoa litzaké:

(1/ 9.277147) =  0.1077918

eta bilatutako entropia teorikoa:

H = sum((1/( 9.277147*(1:6002)))*log2(1/(1/( 9.277147*(1:6002))))) = 9.087565 bit, batez beste, hitz bakoitzeko.
zein diren nabarmenki bit teoriko gutxiago zein batezbesteko 10.47396 bitak per hitza an Ulisses. []