astelehena, uztaila 05, 2021

Interpretátuz Sn an corpus bat non Zipf-en legea betetzen den perfektuki

Genuen ikusten atzo adibide bat non saiatzen ginen ilustratzen zélan, corpus linguistiko batean Zipf-en legea betetzen bada perfektuki, orduan corpus horren entropia soilik dependituko da ti bere kopurua on hitz ezberdinak ("n"): 

Demagun hitz-banaketa bat zeintan soilik agertzen zaizkigun bi hitz: bata, erabiliena, bi aldiz agertzen da an corpus hori; eta bestea, gutxien erabilia, behin agertzen da soilik. Guztira, hitz-kopurua dá 3, eta hitz ezberdinen kopurua dá 2, kin maiztasun absolutuák 2 eta 1. Corpus horretan betetzen dá Zipf-en erlazioa perfektuki, zeren bigarren hitz erabiliena dá erabiltzen %50 respektu lehenengo hitz erabiliena, halan ze corpuseko bi hitzetan (guztietan) betetzen da Zifp-en erlazio hori estuki. Galdera dá: zéin izanen litzake corpus horren entropia?

Entropy(c(2,1))

0.9182958

Eta, zéin izanen litzake corpus horren entropia teorikoa? (gogora ze entropia teorikoa kalkulatzeko, soilik jakin behar dugu zénbat hitz diferente agertzen diren an corpusa: kasu honetan, 2 hitz ezberdin, n = 2):

TEnt(2)

 0.9182958

Gaur erakutsi nahi genuke beste adibide bat nahizik ilustratu nóla, baldin corpus linguistiko batean Zipf-en legea betetzen bada perfektuki, soilik jakin beharko dugu hantxe zénbat hitz ezberdin dauden finéz kalkulatu zéin den proportzioa artén maiztasunik altuena (ha maiztasuna on hitz erabiliena) eta hitzen kopuru totala

Demagun, gaurkoan, corpus bat non dauzkagún 3 hitz ezberdin halan ze hitz erabiliena agertzen dá 900 aldiz, bigarren erabilienak 450 aldiz, eta hirugarren erabiliena (gutxien erabiliena) 300 aldiz, eta non perfektuki betetzen dirén Zipf-en proportzioak artén hitzen maiztasunak eta euren ordinalitateak (2. hitzaren maiztasuna dá 2.aren erdia, eta 3. hitzaren maiztasuna da 1.aren herena). Orduan, kalkulatu ahal dugu corpus horren entropia erábiliz "Entropy" funtzioa (behin bere paketea instalaturik an R) honela:

Entropy(c(900,450,300)) 

1.435371

edo "TEnt" funtzioa (honek ez du behar aurreinstalaziorik, soilik sesioan bertan definitzea nola egin genuén hemen):

TEnt(3

1.435371

Atzo ikusten gnuenez, entropia hori ez litzake aldatuko baldin hiru hitz horien maiztasun absolutuak 100 aldiz txikiagoak (edo handiagoak) balira:

Entropy(c(9000,4500,3000)) 

1.435371

Baina bi corpus horien tamainak ondo ezberdinak dira, zeren lehenengoan:

900 + 450 + 300 = 1650

bitárten bigarrenean:

9000 + 4500 + 3000 = 16500

Hala izanik ere, bi corpus horietan berdina izanen da proportzioá arten maiztasun altuena (900 edo 9000) eta hitzen kopuru totala (1650 edo 16500):

(1650/ 900) = (16500/9000) = 1.833333

Eta justuki proportzio hori kalkulaten dugu noiz kalkulatzen dugún Sn:

S3 = 1 + (1/2) + (1/3)  = sum(1/(1:3)) = 1.833333

zeinen inversoa izanen dén hain justu ha probabilitatea on hitz erabiliena (zein den ber proportzioa baina alderantzikatuta): 

(1/1.833333) = 0.5454546

Horrela:

1650 * 0.5454546 = 900.0001 (ez da guztiz zehatza, zeren kalkuluan ez dira sartu dezimal guztiak),

edo

16500 * 0.5454546 = 9000.001 (berdin ere dezimalak tartean)
Hor ikusten dugu argiki nóla interpretatu Sn an corpus bat non Zipf-en legea betetzen den perfektuki: hain zuzen dá proportzioá arten maiztasun altuena eta hitz guztien kopurua. [1312] [>>>]

1 Comments:

Anonymous Anonimoa said...

Pixkana naiz hasi ulertzen -gutxi gora-bera, geyo bera-, kontu hauek on estadistika.

Txopi

astelehena, uztaila 05, 2021 1:18:00 PM  

Argitaratu iruzkina

<< Home