Eta zéin litzake entropia teorikoa on corpus bat non agertzen dirén 6.002 hitz ezberdin? (B marra: lagin periodistiko bat)
Hemen ikusten genuén beheragoko grafikoa non Zipf-ek (1948) ilustratzen zuén bere erlazioa lótuz corpus bateko hitz ezberdinen maiztasuna (f) eta maiztasun horien ordinalitatea (r), zeinen biderkadura mantenduko zén aproximatuki konstante (f * r = C). Grafiko horretan, dakigunez, A marra referitzen da ki "Ulisses" novela ga Joyce, bitárten B marra dagokio ki lagin periodistiko bat zeinen bidez Zipf-ek erakutsi nahi zuen nóla bere erlazioaren aplikazioa zihoan haruntzago tik aipatutako "Ulisses". Eta, bai, bádirudi ze, neurri handi batean behintzat, Zipf-en proportzio hori betetzen da hor ere:
Hortaz, eta hemen kalkulatu dugularik "Ulisses"-en entropia teorikoa (alegia, "Ulisses"-en entropia baldin Zipf-en erlazioa beteko balitz perfektuki, nahiz hori soilik gertatu ahal den teorikoki zatio diskretutasuna on maiztasunak), gaurkoan nahi genuke kalkulatu zéin dén entropia teorikoa on lagin periodistikoa.
Horretarako, aurrena kalkulatuko dugú corpus horrentzako Sn proportzioa (alegia, zéin izanen litzaken proportzio teorikoa artén maiztasun altuena eta hitzen kopuru totala baldin Zipf-en erlazioa perfektuki beteko balitz):
S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = sum(1/(1:6002)) = 9.277147
Hortik, hitz erabilienaren probabilitate teorikoa litzaké:
(1/ 9.277147) = 0.1077918
eta bilatutako entropia teorikoa:
H = sum((1/( 9.277147*(1:6002)))*log2(1/(1/( 9.277147*(1:6002))))) = 9.087565 bit, batez beste, hitz bakoitzeko.zein diren nabarmenki bit teoriko gutxiago zein batezbesteko 10.47396 bitak per hitza an Ulisses. [1307] [>>>]