Eta zéin litzake a entropia teorikoa e corpus bat non agertzen dirén 6.002 hitz ezberdin? (B marra: lagin periodistiko bat)
Hemen ikusten genuén beheragoko grafikoa non Zipf-ek (1948) ilustratzen zuén bere erlazioa lótuz corpus bateko hitz ezberdinen maiztasuna (f) eta maiztasun horien ordinalitatea (r), zeinen biderkadura mantenduko zén aproximatuki konstante (f * r = C). Grafiko horretan, dakigunez, A marra referitzen da ki Ulisses nobela ga Joyce, bitárten B marra dago ki lagin periodistiko bat zeinen bidez Zip-ek erakutsi nahi zuen nóla bere erlazioaren aplikazioa zihoan haruntzago zein aipatutako Ulisses. Eta, bai, bádirudi ze, neurri handi batean behintzat, Zip-en proportzio hori betetzen da hor ere:
Hortaz, eta hemen kalkulatu dugularik Ulisses-en entropia teorikoa (alegia, a entropia e corpus linguistiko hori baldin Zipf-en erlazioa beteko balitz perfektuki, nahiz hori soilik gertatu ahal den teorikoki zatio diskretutasuna e maiztasunak), gaurkoan nahi genuke kalkulatu zenbátera heltzen den a entropia teorikoa e lagin periodistiko hori.
Horretarako, aurrena kalkulatuko dugú corpus horrentzako Sn proportzioa (alegia, zéin izanen litzake a proportzio teorikoa arten maiztasun altuena eta hitzen kopuru totala baldin Zipf-en erlazioa perfektuki beteko balitz):
S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = sum(1/(1:6002)) = 9.277147
Hortik, hitz erabilienaren probabilitate teorikoa litzaké:
(1/ 9.277147) = 0.1077918
eta bilatutako entropia teorikoa:
H = sum((1/( 9.277147*(1:6002)))*log2(1/(1/( 9.277147*(1:6002))))) = 9.087565 bit, batez beste, hitz bakoitzeko.zein diren nabarmenki bit teoriko gutxiago zein batezbesteko 10.47396 bitak per hitza an Ulisses. [⇶]