asteazkena, ekaina 30, 2021

Eta zéin litzake ha entropia teorikoa on corpus bat non diren agertzen 6.002 hitz ezberdin? (B marra: lagin periodistiko bat)

Hemen ikusten genuén beheragoko grafikoa non Zipf-ek (1948) ilustratzen zuén bere erlazioa lótuz corpus bateko hitz ezberdinen maiztasuna (f) eta maiztasun horien ordinalitatea (r), zeinen biderkadura mantenduko zén aproximatuki konstante (f * r = C). Grafiko horretan, dakigunez, A marra referitzen da ki "Ulisses" novela ga Joyce, bitárten B marra dagokio ki lagin periodistiko bat, zeinen bidez Zipf-ek erakutsi nahi zuen nóla bere erlazioaren aplikazioa zihoan harantzago zein aipatutako "Ulisses". Eta, bai, bádirudi ze, neurri handi batean behintzat, Zipf-en proportzio hori betetzen da hor ere:

Hortaz, eta hemen kalkulatu dugularik "Ulisses"-en entropia teorikoa (alegia, "Ulisses"-en entropia baldin Zipf-en erlazioa beteko balitz perfektuki, nahiz hori soilik gertatu ahal den teorikoki, ez praktikan, zatio diskretutasuna on maiztasunak), gaurkoan nahi genuke kalkulatu zéin dén ha entropia teorikoa on lagin periodistikoa.

Horretarako, aurrena kalkulatuko dugú corpus horrentzako Sn proportzioa (alegia, zéin izanen litzaken proportzioa artén maiztasun altuena eta hitzen kopuru totala baldin Zipf-en erlazioa perfektuki beteko balitz):

S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = sum(1/(1:6002)) = 9.277147

Hortik aterako genuke hitz erabilienaren probabilitate teorikoa:

(1/ 9.277147) =  0.1077918

eta gero, gure helburuko entropia teorikoa:

H = sum((1/( 9.277147*(1:6002)))*log2(1/(1/( 9.277147*(1:6002))))) = 9.087565 bit, batez beste, hitz bakoitzeko.

zein diren nabarmenki bit teoriko gutxiago zein batezbesteko 10.47396 bitak per hitza an Ulisses. [1307] [>>>]

Etiketak: ,