astelehena, uztaila 05, 2021

Interpretátuz Sn an corpus bat non Zipf-en legea betetzen den perfektuki

Genuen ikusten atzo adibide bat non saiatzen ginen ilustratzen zélan, corpus linguistiko batean Zipf-en legea betetzen bada perfektuki, orduan corpus horren entropia soilik dependituko da ti bere kopurua e hitz ezberdinak ("n"): 

Demagun hitz-banaketa bat zeintan soilik agertzen zaizkigun bi hitz: bata, erabiliena, bi aldiz agertzen da an corpus hori; eta bestea, gutxien erabiliena, behin agertzen da soilik. Guztira, hitz-kopurua dá 3, eta hitz ezberdinen kopurua dá 2, kin maiztasun absolutuák 2 eta 1. Corpus horretan betetzen dá Zipf-en erlazioa perfektuki, zeren bigarren hitz erabiliena dá erbailtzen %50 respektu lehenengo hitz erabiliena, halan-ze corpuseko bi hitzetan (guztietan) betetzen da Zifp-en erlazio hori estuki. Zéin izanen litzake ecorpus horretako entropia?

Entropy(c(2,1))

0.9182958

Eta, zéin izanen litzake corpus horren entropia teorikoa? (Gogora daigun ze entropia teorikoa kalkulatzeko, soilik behar dugú jakin zénbat hitz diferentek parte hartzen duten an corpusa: kasu honetan, 2 hitz ezberdin, n = 2):

TEnt(2)

 0.9182958

Gaur erakutsi nahi genuke beste adibide bat nahizik ilustratu nóla, corpus linguistiko batean Zipf-en legea betetzen bada perfektuki, soilik jakin beharko dugu hantxe zénbat hitz ezberdin dauden finéz kalkulatu zéin den proportzioa arten maiztasunik altuena (a maiztasuna e hitz erabiliena) eta hitzen kopuru totala

Demagun, gaurkoan, corpus bat non dauzkagun 3 hitz ezberdin halan-ze hitz erabiliena agertzen dá 900 aldiz, bigarren erabilienak 450 aldiz, eta hirugarren erabiliena (gutxien erabiliena) 300 aldiz, eta non perfektuki betetzen dirén Zipf-en proportzioak arten hitzen maiztasunak eta euren ordinalitateak (2. hitzaren maiztasuna dá 2.aren erdia, eta 3. hitzaren maiztasuna da 1.aren herena). Orduan, kalkulatu ahal dugu corpus horren entropia erábiliz "Entropy" funtzioa (behin bere paketea instalaturik an R) honela:

Entropy(c(900,450,300)) 

1.435371

edo "TEnt" funtzioa (honek ez du behar aurreinstalaziorik, soilik sesioan bertan definitzea nola egin genuén hemen):

TEnt(3

1.435371

Atzo ikusten gnuenez, entropia hori ez litzake aldatuko baldin hiru hitz horien maiztasun absolutuak 100 aldiz txikiagoak (edo handiagoak) balira:

Entropy(c(9000,4500,3000)) 

1.435371

Baina bi corpus horien tamainak ondo ezberdinak dira, zeren lehenengoan:

900 + 450 + 300 = 1650

bitárten bigarrenean:

9000 + 4500 + 3000 = 16500

Hala izanik ere, bi corpus horietan berdina izanen da proportzioá arten maiztasun altuena (900 edo 9000) eta hitzen kopuru totala (1650 edo 16500):

(1650/ 900) = (16500/9000) = 1.833333

Eta justuki proportzio hori kalkulaten dugu noiz kalkulatzen dugún Sn:

S3 = 1 + (1/2) + (1/3)  = sum(1/(1:3)) = 1.833333

zeinen inversoa izanen dén hain justu a probabilitatea e hitz erabiliena (zein den ber proportzioa baina alderantzikatuta): 

(1/1.833333) = 0.5454546

Horrela:

1650 * 0.5454546 = 900.0001 (ez da guztiz zehatza, zeren kalkuluan ez dira sartu dezimal guztiak),

edo

16500 * 0.5454546 = 9000.001 (berdin ere dezimalak tartean)
Hor ikusten dugu argiki nóla interpretatu Sn an corpus bat non Zipf-en legea betetzen den perfektuki: dá proportzioá arten maiztasun altuena eta hitz guztien kopurua. []

1 Comments:

Anonymous Anonimoa said...

Pixkana naiz hasi ulertzen -gutxi gora-bera, geyo bera-, kontu hauek on estadistika.

Txopi

astelehena, uztaila 05, 2021 1:18:00 PM  

Argitaratu iruzkina

<< Home