"Sn" proportzioa hazten da kin "n": zénbat-eta "n" handiagoa, "Sn" ere handiagoa
Herenegungo sarreran orobat galdetzen genuén ea hango 10 proportzio biribil hori mantenduko al zen an edozein corpus non beté Zipf-en erlazioa, edo alternatiboki, ea proportzio hori aldatuko zen an funtzioa e beste zerbait (bete aldagairen bat):
- corpus guztietan mantendu beharko litzake?, ala: aldatu beharko lizake an funtzioa e beste zerbait?
Erantzuna atzoko sarreran bertan irakurri ahal genuen, noiz genioén kin Zipf ezen:
Hortaz, supósatuz lagun teoriko bat non dén betetzen Zipf-en erlazioa, kalkulatu geinke zéin proportziotan agertuko den hitz erabiliena respektuz hitzen kopuru totala (zein 2.1 taulan gutxi gorabehera zén 1/10), edo alderantziz, zénbat aldiz handiagoa izan beharko litzaken hitz-kopuru totala respektuz hitz erabiliena (2.1 taulan gutxi gorabehera 10 aldiz handiagoa), soilik erábiliz zénbat hitz ezberdin agertu diren an textua, hau dá n, bidéz formula hau:
Sn = 1 + (1/2) + (1/3) + (1/4) + ... + (1/(n-1)) + (1/n)Adibidez, atzoko adibidean (Ulisses lanean) zíren agertzen 29.899 hitz diferente (arten 260.430 hitz, guztira), halan-ze gure proportzioa izanen dá justuki:
S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281esan nahi baita ze, teorikoki, proportzio hori izanen zén handixeagoa zein 10, zehazki S29.899 = 10.88281.
Esan nahi baita ze, erántzunez ki goragoko galdera, proportzio hori ez da konstantea, baizik emaitzá ti goragoko formula hori, zeinen balioa aldatuko da an funtzioa e kopuru totala e hitz diferenteak zein díren agertzen an corpusa: zénbat-eta hitz diferente gehiago, Sn ere handiagoa.
Adibidez, hemen Zipf-ek ematen zigún B zuzena zein referitzen zen ki lagin linguistiko bat aterea ti prensa, eta non, aparte beté Zipf-en erlazioa, ikusten dugu ze hitz ezberdinen kopurua zén 6.002, lau aldiz txikiagoa zein Ulisses-en hotz-kopuru totala. Kasu horretan, ¿zénbat aldiz handiagoa litzake hitz-kopuru osoa respektuz maiztasun altuena? Kalkula daigun:
S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = 9.277147
edo, bestela esanda, hitz erabiliena agertuko dá an proportzioá 1/9.277147 respektu corpusaren tamaina (hitz-kopurua). Diferentzia erlatiboki handia da: 10.88281 - 9.277147 = 1.605663.
Gauza da ze zénbat eta handiagoa izan n (hau da, hitz ezberdien kopurua), handiagoa ere izanen da gure proportzio teoriko zehatza, Sn. [⇶]
0 Comments:
Argitaratu iruzkina
<< Home