larunbata, ekaina 26, 2021

"Sn" proportzioa hazten da kin "n": zénbat-eta "n" handiagoa, "Sn" ere handiagoa

Herenegungo sarreran orobat galdetzen genuén ea hango 10 proportzio biribil hori mantenduko al zen an edozein corpus non beté Zipf-en erlazioa, edo alternatiboki, ea proportzio hori aldatuko zen an funtzioa e beste zerbait (bete aldagairen bat): 

  • corpus guztietan mantendu beharko litzake?, ala: aldatu beharko lizake an funtzioa e beste zerbait?

Erantzuna atzoko sarreran bertan irakurri ahal genuen, noiz genioén kin Zipf ezen:

Hortaz, supósatuz lagun teoriko bat non dén betetzen Zipf-en erlazioa, kalkulatu geinke zéin proportziotan agertuko den hitz erabiliena respektuz hitzen kopuru totala (zein 2.1 taulan gutxi gorabehera zén 1/10), edo alderantziz, zénbat aldiz handiagoa izan beharko litzaken hitz-kopuru totala respektuz hitz erabiliena (2.1 taulan gutxi gorabehera 10 aldiz handiagoa), soilik erábiliz zénbat hitz ezberdin agertu diren an textua, hau dá n, bidéz formula hau:

Sn = 1 + (1/2) + (1/3) + (1/4) + ... + (1/(n-1)) + (1/n)

Adibidez, atzoko adibidean (Ulisses lanean) zíren agertzen 29.899 hitz diferente (arten 260.430 hitz, guztira), halan-ze gure proportzioa izanen dá justuki:

S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281

esan nahi baita ze, teorikoki, proportzio hori izanen zén handixeagoa zein 10, zehazki S29.899 = 10.88281.

Esan nahi baita ze, erántzunez ki goragoko galdera, proportzio hori ez da konstantea, baizik emaitzá ti goragoko formula hori, zeinen balioa aldatuko da an funtzioa e kopuru totala e hitz diferenteak zein díren agertzen an corpusa: zénbat-eta hitz diferente gehiago, Sn ere handiagoa.

Adibidez, hemen Zipf-ek ematen zigún B zuzena zein referitzen zen ki lagin linguistiko bat aterea ti prensa, eta non, aparte beté Zipf-en erlazioa, ikusten dugu ze hitz ezberdinen kopurua zén 6.002, lau aldiz txikiagoa zein Ulisses-en hotz-kopuru totala. Kasu horretan, ¿zénbat aldiz handiagoa litzake hitz-kopuru osoa respektuz maiztasun altuena? Kalkula daigun:

S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = 9.277147

edo, bestela esanda, hitz erabiliena agertuko dá an proportzioá 1/9.277147 respektu corpusaren tamaina (hitz-kopurua). Diferentzia erlatiboki handia da: 10.88281 - 9.277147 = 1.605663.

Gauza da ze  zénbat eta handiagoa izan n (hau da, hitz ezberdien kopurua), handiagoa ere izanen da gure proportzio teoriko zehatza, Sn. []