asteartea, ekaina 22, 2021

Zipf-ek eskainitako grafiko bat non erakusten duén bere (Zipf-en) erlazioa an bi corpus (1948)

Atzoko sarreran ikusten genuén nóla Zipf-ek, erábiliz James Joyce-ren Ulisses lana, deduzitzen zuén bere erlazioa artén hango hitzen maiztasunak (f) eta maiztasun horien ordena-zenbakia (edo ordinalitatea: r), non, aproximatuki, bi kantitate horien biderkadura mantenduko zén konstante: f * r = C. Joyce-k, obra horretan, erabili zituén justuki 28.899 hitz ezberdin, bakoitza kin bere maiztasuna, artio osátu guztira 260.430 hitz, halan ze hitzen batezbesteko maiztasuna dá 9.011731, nahiz, esan gabe doa, hitz guztiek ez duten ber maiztasuna. Hortxe sartzen da Zipf-en erlazioa, zeinen arabera, esan dugunez, hitzen maiztasunek gordetzen dutén erlazio estu bat kin euren ordinalitatea.

Erlazio hori ilustratzeko, beherago daukagu grafiko bat ganik Zipf bera (an bere "Human behavior an the principle of least effort", 1949), non A marra dago-ki Ulisses, B marra dago-ki beste lagin bat, aterea ti egunkarietako textuak, eta C marra dá marra teoriko hori (horregatik zuzen-zuzena) zein aterako litzakén baldin lagin batean hitz erabilienak izanen balitú justuki 10.000 erabilera eta n-garren hitz erabilienak ondoko fn erabilera-kopurua:

fn = (10.000/n)

Adibidez, lagin teoriko horretan, 3. hitz erabiliena textuan agertuko litzaké justuki 10.000/3 aldiz.

[OHARRA: ohartu ze grafikoan ordenatu-ardatzeko 10.000 hori ez da agertzen an bere lekua, baizik gorago, izkinean, non kantitatea dén ondo handiagoa zein 10.000, zeren eskalan konsideratzen ari dira logaritmo dezimalak: gorriz jarri dugu an bere lekua]

Grafikoan, Joyce-ren novelaren marra (A) dá agertzen gorago zein egunkarietako laginaren marra (B), zeren Joyce-ren lanean hitz erabilienak dú maiztasun handiagoa (guztira Joyce-ren lanean erabiltzen dirá sei bat aldiz hitz gehiago: 260.430 aúrka 43.989). Baina kontua da ze, bi kasuetan, malda dá gutxi gorabehera hori bera zein espero genuen jarráiki Zipf-en erlazioa, alegia, -1. [1299] [>>>]

Etiketak: ,