larunbata, ekaina 26, 2021

"Sn" proportzioa hazten da kin "n": zénbat-eta "n" handiagoa, "Sn" ere handiagoa

Herenegungo sarreran orobat galdetzen genuén ea hango 10 proportzio biribil hori mantenduko al zen an edozein corpus non beté Zipf-en erlazioa, edo alternatiboki, ea proportzio hori aldatuko zen an funtzioa on beste zerbait (bete aldagairen bat): 

  • corpus guztietan mantendu beharko litzake?, ala: aldatu beharko lizake an funtzioa on beste zerbait?

Erantzuna atzoko sarreran bertan irakurri ahal genuen, noiz genioén kin Zipf ezen:

Hortaz, supósatuz lagin teoriko bat non dén betetzen Zipf-en erlazioa, kalkulatu geinke zéin proportziotan agertuko den hitz erabiliena respektuz hitzen kopuru totala (zein 2.1 taulan gutxi gorabehera zén 1/10), edo alderantziz, zénbat aldiz handiagoa izan beharko litzaken hitz-kopuru totala respektuz hitz erabiliena (2.1 taulan gutxi gorabehera 10 aldiz handiagoa), soilik erábiliz zénbat hitz ezberdin agertu diren an textua, hau dá n, bidéz formula hau:

Sn = 1 + (1/2) + (1/3) + (1/4) + ... + (1/(n-1)) + (1/n)

Adibidez, atzoko adibidean ("Ulisses" lanean) agertzen zirén 29.899 hitz diferente (artén 260.430 hitz, guztira), halan ze gure proportzioa izanen dá justuki:

S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281
esan nahi baita ze, teorikoki, proportzio hori izanen zén handixeagoa zein 10, zehazki S29.899 = 10.88281.

Esan nahi baita ze, erántzunez ki goragoko galdera, proportzio hori ez da konstantea, baizik emaitzá ti goragoko formula hori, zeinen balioa aldatuko da an funtzioa on kopuru totala on hitz diferenteak zein díren agertzen an corpusa: zénbat-eta hitz diferente gehiago, Sn ere handiagoa.

Adibidez, hemen Zipf-ek ematen zigún B zuzena zein referitzen zen ki lagin linguistiko bat aterea ti prensa, eta non, aparte beté Zipf-en erlazioa, ikusten dugu ze hitz ezberdinen kopurua zén 6.002, lau aldiz txikiagoa zein Ulisses-en hitz-kopuru totala. Kasu horretan, ¿zénbat aldiz handiagoa litzake hitz-kopuru osoa respektuz maiztasun altuena? Kalkula daigun:

S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = 9.277147

edo, bestela esanda, hitz erabiliena agertuko dá an proportzioá 1/9.277147 respektu corpusaren tamaina (hitz-kopurua). Diferentzia erlatiboki handia da: 10.88281 - 9.277147 = 1.605663.

Gauza da ze  zénbat eta handiagoa izan n (hau da, hitz ezberdien kopurua), handiagoa ere izanen da gure proportzio teoriko zehatza, Sn. [1303] [>>>]