asteartea, ekaina 22, 2021

Zipf-ek eskainitako grafiko bat non erakusten duén bere (Zipf-en) erlazioa an bi corpus (1948)

Atzoko sarreran ikusten genuén nóla Zipf-ek, erábiliz James Joyce-ren Ulisses lana, deduzitzen zuén bere erlazioa artén hitzen maiztasunak (f) eta maiztasun horien ordena-zenbakia (r), non, aproximatuki, bi kantitate horien biderkadura mantenduko zén konstante: f * r = C. Joyce-k, obra horretan, erabili zituén justuki 28.899 hitz ezberdin, bakoitza kin bere maiztasuna, artio osátu guztira 260.430 hitz, halan-ze batezbesteko maiztasuna dá 9.011731, nahiz hitz guztiak ez duten ber maiztasuna. Hortxe sartzen da Zipf-en erlazioa, zeinen arabera, esan dugunez, hitzen maiztasunek gordetzen dutén erlazio estu bat kin euren ordena

Erlazio hori ilustratzeko, beherago daukagu grafiko bat ganik Zipf bera (an bere "Human behavior an the principle of least effort", 1949), non A marra dagokión ki Joyce-ren lan aipatua, B marra dagokión ki beste lagin bat, oraingoan aterea tik egunkarietako textuak, eta C marra dá zuzen teorikoá (horregatik zuzen-zuzena) zein aterako litzakén baldin lagin batean hitz erabilienak izanen balitú 10.000 erabilera eta n-garren hitz erabilienak ondoko fn erabilera-kopurua:

fn = (10.000/n)

Adibidez, lagin teoriko horretan, 3. hitz erabiliena agertuko litzaké justuki 10.000/3 aldiz.

[OHARRA: esan behar da ze grafikoan ordenatu-ardatzeko 10.000 kantitate hori ez da agertzen bere lekuan, baizik gorago, goragoko izkinean, non kantitatea dén ondo handiagoa zein 10.000, zeren eskalan konsideratzen ari dira logaritmo dezimalak: gorriz jarrita dago leku zehatza]

Grafikoan, Joyce-ren nobelaren marra (A) dá agertzen gorago zein egunkarietako laginaren marra (B), zeren Joyce-ren lanean hitz erabilienak dú maiztasun handiagoa (guztira Joyce-ren lanean erabiltzen dirá sei bat aldiz hitz gehiago: 260.430 aurka 43.989). Baina gauza da ze, bi kasuetan, malda dá gutxi gorabehera hóri bera zein espero genuen jarráiki Zipf-en erlazioa, alegia, -1. [1299] [>>>]

Etiketak: ,