larunbata, ekaina 26, 2021

"Sn" proportzioa hazten da kin "n": zénbat-eta "n" handiagoa, "Sn" ere handiagoa

Herenegungo sarreran orobat galdetzen genuén ea hango 10 proportzio biribil hori mantenduko al zen an edozein corpus non betetzen dén Zipf-en erlazioa, edo alternatiboki, ea proportzio hori aldatuko zen an funtzioa on beste zerbait (bete aldagairen bat): 

  • corpus guztietan mantendu beharko litzake?, ala: aldatu beharko litzake an funtzioa on beste zerbait?

Erantzuna atzoko sarreran bertan irakurri ahal genuen, noiz genioén kin Zipf ezen:

Hortaz, supósatuz lagin teoriko bat non dén betetzen Zipf-en erlazioa, kalkulatu geinke zéin proportziotan agertuko den hitz erabiliena respektuz hitzen kopuru totala (zein 2.1 taulan gutxi gorabehera zén 1/10), edo alderantziz, zénbat aldiz handiagoa izan beharko litzaken hitz-kopuru totala respektuz hitz erabiliena (2.1 taulan gutxi gorabehera 10 aldiz handiagoa), soilik erábiliz zénbat hitz ezberdin agertu diren an textua, hau dá n, bidéz formula hau:

Sn = 1 + (1/2) + (1/3) + (1/4) + ... + (1/(n-1)) + (1/n)

Adibidez, atzoko adibidean ("Ulisses" lanean) agertzen zirén 29.899 hitz diferente (artén 260.430 hitz, guztira), halan ze gure proportzioa izanen dá justuki:

S29.899 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/29.898) + (1/29.899) = 10.88281
esan nahi baita ze, teorikoki, proportzio hori izanen zén handixeagoa zein 10, zehazki S29.899 = 10.88281.

Esan nahi baita ze, erántzunez ki goragoko galdera, proportzio hori ez da konstantea, baizik emaitza on goragoko formula hori, zeinen balioa aldatuko dén an funtzioa on kopuru totala on hitz diferenteak zein díren agertzen an corpusa: zénbat-eta hitz diferente gehiago, Sn ere handiagoa.

Adibidez, hemen Zipf-ek ematen zigún B zuzena zein referitzen zen ki lagin linguistiko bat aterea tik prensa, eta non, aparte beté Zipf-en erlazioa, ikusten dugun ze hitz ezberdinen kopurua zén 6.002, lau aldiz txikiagoa zein Ulisses-en hitz-kopuru totala. Kasu horretan, zénbat aldiz handiagoa litzake hitz-kopuru osoa respektuz maiztasun altuena? Kalkula daigun:

S6.002 = 1 + (1/2) + (1/3) + (1/4) + ... + (1/6.001) + (1/6.002) = 9.277147

edo, bestela esanda, hitz erabiliena agertuko dá an proportzioá 1/9.277147 respektu corpusaren tamaina (hitz-kopurua). Diferentzia erlatiboki handia da: 10.88281 - 9.277147 = 1.605663.

Gauza da ze  zénbat eta handiagoa izan n (hau da, hitz ezberdien kopurua), handiagoa ere izanen da gure proportzio teoriko zehatza, Sn. [1303] [>>>]

Etiketak: