balbula: uztaila 2021

larunbata, uztaila 31, 2021

Gil (1998): "..., with OV languages being evolutionarily prior to VO languages with respect to word order typology."

Atzo, Yamamoto-k aipatzen zuelarik Givón-en lana, nahiko genuke gaur gogoratu ha sarrera titulatzén "XK5: Teoria gardena eta ebidentzia enpiriko sendoa bat-eginik", non, indirektoki bada ere, Givón-ek erantzuten dio ki ondorengo galdera on David Gil:

1998an David Gil hizkuntzalariak (erantzunez ki bere kolega Bingfu Lu) zúen planteatzen honako galdera hau (ikus XK4):

First a question: Is it actually the case that there's more OV>VO than VO>OV among ATTESTED changes, or only amongst RECONSTRUCTED changes.
Eta Gil-ek berak zioskun zér deduzitu beharko genuken baldin erantzuna balitz baiezko biribila (ikus Gil-en mezu osoa hemen):

... , if the former, then I see no way to avoid the conclusion that what we have here is a fascinating window into linguistic evolution, with OV languages being evolutionarily prior to VO languages with respect to word order typology.

(An inevitable disclaimer. To say that, say, OV Japanese is evolutionarily prior to, say, VO English with respect to word order typology is not to rule out the possibility that, say, OV Japanese might be more advanced evolutionarily than VO English with respect to other linguistic properties not correlated with word order. And needless to say, such claims say nothing about extra-linguistic matters.)

Gil-ek, esan bezala, zúen planteatzen hori-galdera an 1998. Eta 2005ean Tom Givón hizkuntzalariak (zein baita figura zentral bat an hizkuntzalaritza funtzionala) zioén (ikus Givón-en mezu osoa hemen):

1. Synchronic morphology is most often the best guide for reconstructing older syntax. There is not a single shred of evidence in Japanese morphology indicating anything but SOV syntax (see Givon 1971, 1979, 1983 ed., 2001, inter alia).

2. In general, SOV is the oldest attested word-order in human language. Most natural (non-contact induced) drift is, as far as I know, always away from SOV, not toward it (Givon 1979; Ruhlen & Gell-Man, forthcoming).
Honek du erakusten haruntzago ti edozein duda razonable ezen, afera honetan, bat datoz teoria gardena eta ebidentzia enpiriko sendoa. Hau da, ... I see no way to avoid the conclusion that...

Bai, oso-oso bát datoz. [1338] [>>>]

ostirala, uztaila 30, 2021

Yamamoto (2005): "... it seems most likely that human languages originally started with SOV basic word order..."

Txopi-k atzo:

Badakigu beraz, nola izan ahal zen sintaxia on hizkuntzak an Neolitiko garaia. [Txopi]

Horretaz ikus daigun ondorengo artikulua ganik Hideki Yamamoto (2005) titúlatzen "A historical view on areal distribution of word order around the world", non dioskún:

When the distribution is considered from a historical point of view, however, it is very likely that most of the areas had been covered with (S)OV-type languages and that the areas of a VO type had been very restricted before many large language families expanded after the Neolithic age. [Yamamoto, 2005]

edo, aurrerago:

The present work does demonstrate and argue that SOV order is most likely to have covered most of the world as far as we go back to the past based on the studies of areal and genetic distribution of word order of the world's languages, but it does not necessarily argue that SOV was the earliest word order of human languages. If SOV order was predominant in most areas on the globe when we trace back to the past, however, there should be some reason for this and it seems most likely that human languages originally started with SOV basic word order unless there are good grounds for judging that languages developed SOV order from another order. The reason for this, however, should be found in studies of pidgin or creole languages and language typology rather than in the speculation made by Givón based on tbe observation of animal comunication or language acquisition.

Beraz, eta labúrbilduz:

... it seems most likely that human languages originally started with SOV basic word order unless there are good grounds for judging that languages developed SOV order from another order. [Yamamoto, 2005]

Gure ikuspuntutik, OVS ere aurki zitekén are lehenago zein SVO (hori ere OV), nahizta OVS ez da batere egonkorra azpi baldintza komunikatibo minimoki exigenteak. [1337] [>>>] [A2] [A3] [A4]

Etiketak: garabideak, gradualki, SOV

osteguna, uztaila 29, 2021

Ezberdindu behar dirá, alde batetik, hizkuntzen sorrerako baldintza/behar bereziak, eta bestetik, behar komunikatibo orokorrak

Hoeks-en atzoko laburpenaren harira (hurrengo sarreretan saiatuko gara sakontzen an Hoeks-en azterketa), gaurkoan gogoratu nahi genuke ondoko sarrera publikatuá azpi titulu hau:

zeinen textu osoa dén ondorengo hau:

Bádirudi ze hizkuntza (edo hizkuntzak) ezerezetik sortzean nagusitzen dá ordena buruazkena (SOV postpositiboa, edo akaso hasiera-hasieran OVS postpositiboa) gain SVO burulehena. Horretarako batu egiten dirá gutxienez bi faktore (ikus ere "Evoluzio sintaktikoak bilatzen dú optimizazio (edo maximizazio) komunikatiboa"):
Alde batetik, hasiera horretan, aurrena sortuko zirén elementu konkretuagoak, esan nahi baitá seinalagarriagoak, objetibagarriagoak (nola dirén objetuak, eta ez edozein objetu baizik soilik objetu konkretuak, seinalagarriak), zein izanen lirakén nola oinarria zeinen gainean sortuko ziren elementu abstraktuagoak, eta horregatik zailagoak ki sortu ti ezereza.
Bestetik, sorrera horretan komunikazioa litzaké oso kontextuala, askotan nahastua kin keinuak, halan ze mezuek ez lukete behar estrategia komunikatibo berezirik, esan nahi baita ze mezuak izanen ziren oso sinpleak, oso eliptikoak, eta bereziki zentratuak an objetua (askotan ez zen besterik beharko, ez zen aditzik beharko ezta sujeturik ere, soilik objetua: beste guztia, nolabait, izanen zén haren osagarri opzionala, zein soilik explizitatuko zén baldin behar bazen).
Eta nahizta oinarrizko estrategia komunikatibo buruazken hori ez izán teknikoki potentea azpi baldintza orokorrak, sintaxi hori joan liteke finkatzen (ikus an "Sintaxigintzaren norabide komunikativoa", 2015:183-184):
Bai, zenbat eta beranduago hasi hizkuntza bat ibiltzen bere bidea aldén estruktura burulehenagoak, orduan eta oztopo intralinguistiko eta extralinguistiko gehiago. Nahizta, bestalde, genioenez, egoera hori guztia alda daiteke baldin, behin arazoa ondo ulertuta, eginen balira ahalegin proaktiboak afin arindu oztopo horiek.

Gradualdi, asmoz eta jakitez. [1336] [>>>] [A11] [A12] [COMRIE]

Etiketak: Hoeks, SOV->SVO

asteazkena, uztaila 28, 2021

Hoeks (2016): "... a general shift from SOV towards SVO in fully developed languages."

Gaurkoan aipatu nahi genuke lan oso-oso-oso interesgarri bat idatzia ga Morwenna Hoeks (2016), non, hemen bai, analisiaren zentruan jartzen baitira maiztasun evolutiboak on hitz-ordenak barrén mundua, esan nahi baita euren dimensio diakronikoa, dinamikoa, zein, bistan denez, dá berez zentrala an edozein analisi evolutibo-funtzional non bilatzen den aztertzea nóndik nora joaten diren sintaxiak, zéin baldintzetan eta zergátik. Honá lanaren titulua:

eta bere laburpen mamitsua:

An explanation for the observation that most languages nowadays exhibit an SOV or SVO word order is provided by suggesting that SOV and SVO can both be seen as advantageous, but from different perspectives and under different circumstances. There seems to be an asymmetry in the preference for SOV and SVO word orders in the sense that SOV word orders are mostly adopted in newly emerging languages, while there also has been a general shift from SOV towards SVO in fully developed languages. The main point of this paper is therefore that the change into SVO can be explained as driven by functional preferences that become more prominent when more complexity arises in languages that evolve over time, while the emergence of an SOV proto-language can be explained because SOV is more preferred when languages are still in a rudimentary state and no stable lexicon is available. [Hoeks, 2016]

Zinez, Hoeks-ek (ikus lan osoa hemen) jotzen du an kako zentral bat: maiztasun dinamikoak. [1335] [>>>]

Etiketak: dimensio dinamikoa, Hoeks, SOV->SVO

asteartea, uztaila 27, 2021

Bichakjian (2000): "... languages have been steadily replacing the ancestral implements with ever more advantageous alternatives (linguistically more powerful and biologically less costly),..."

Bernard H. Bichakjian hizkuntalariak zioén an bere "Reply to Suddendorf on Bichakjian on Language-Complexity" (2000):

My target article, which showed that, ... languages have been steadily replacing the ancestral implements with ever more advantageous altenatives (linguistically more powerful and biologically less costly), provided data that clearly suggest there is no empirical support for the steady state conception, and that language evolution is a gradual process with roots going very far back in time. Indeed, just as industry started with primitive tools and weapons and steadily evolved into the sophisticated hardware available to us to day, so language began with an improvised set of features which consistently remodelled into ever more efficient instruments of thought and communication.[Bichakjian, "Language Origin and Language Evolution", Psycoloquy, 2000]

eta referituz ki kontrastea artén sintaxi buruazkena eta sintaxi burulehena (zeini deitzen dión the modern word order), egiten ditú ondoko reflexioak (an bere artikulua titúlatzen "Language evolution and the complexity criterion", 1999):

The shift from the head-last to the head-first order constitutes an important step in the expression of thought and thence in thinking itself. The ancient order is based on a global perception and requires a processing that is also global. The sequence victoriam reportavit or aere perennius can only be interpreted when the entire utterance has been heard, i.e., when the phrase-final head has been uttered. Instead, in the head-first languages, the analysis begins immediately and goes on as the modifiers unfold. The ancient model requires therefore a global interpretation, whereas the modern one lends itself to a progressive analysis.

...

The modern word order has therefore a double advantage: in the first place, it allows for the coding and decoding of linguistic messages with a minimum of mental effort, since it taxes the working memory of speakers and listeners as little as possible; and, in the second place, because the processing of linguistic messages is facilitated, it makes it possible to conceive and express increasingly more complex thoughts. [Bichakjian, "Language Evolution and the Complexity Criterion", Psycoloquy, 1999]

Gauza da ze prozesu gradual horretan munduko mintzaira guztiek ez dutela iritsi ber estadioa simultaneoki (nola nahiago genuken), halako moduan ze gaur egun, suerte txarrez, existitzen dirá diferentzia ondo nabarmenak artén erraztasun komunikatiboak zein sintaxi ezberdinek eskaintzen dituzten. Eta soluzioa soilik datorke ti jarráitu bidea an norabide egokia harik irítsí estadio sintaktiko bat non diferentziak ez diren jada esanguratsuak (behar dirá aukera burulehen funtzionalak). Bichakjian-ek dioenez (ikus goragoko aipua):

Indeed, just as industry started with primitive tools and weapons and steadily evolved into the sophisticated hardware available to us to day, so ... [Bichakjian, 2000]

Edonola ere, esan behar da ze, teknologia linguistikoak bádu konponente oso inportante bat zein den ezberdina respektu beste teknologia edo erreminta batzuk: konponente soziala, halan ze bere evoluzioa ez da hain erraza, nahiz, gure ikuspegitik, ez den hain zaila ere, eta dudagabe, eman daitezke aurrerapusu oso errazak, emanez bide ki beste aurrerapusu batzuk... (gradualki, asmoz eta jakitez). [1334] [>>>] [A9] [A10] [A11]

Etiketak: Bichakjian, garabideak, SOV->SVO, teknologia

astelehena, uztaila 26, 2021

Txopi: "... ahal dugu konprobatu an modu praktikoa noiz ikusten dugun film japoniar bat, hizkuntza bat zurrunki regresivoa."

Txopi-k zioén atzo:

Lagunak on Balbula, nahi dut komentatu film bat zein nuen ikusi ostegunean Donostin. Film japoniarra da eta dute botatzen an bertsio originala; titulua da gazteleraz "La Mujer del Espía" ta dago oinarritua an istorio bat on bikote japoniar bat an urteak 1940-1945.

Dena dala, ez da nire asmoa hitz egitea buruz filma baizik ta buruz erabiltzen duten hizkuntza. Hasieratik du deitzen atentzioa zeren dira elkarrizketa oso xinpleak: esaldi bakun bat gehi esaldi bakun bat ta honelo aldiro. Tarteka dute sartzen esaldiren bat subordinatua baina oso gutxi ta gainera ez dakit zertaz, alegia zeren zegoen an jatorrizko bertsioa ala zeren zuten idatzi itzulpenean. Hau da nire ustez, azaldu zen esaldirik gehien zaila:

- ¿A qué debo el placer de tu visita?

Alegia, hemen tratatzen diren gaiak ez direla bakarrik teoria hutsa eta hau ahal dugu konprobatu an modu praktikoa noiz ikusten dugun film japoniar bat, hizkuntza bat zurrunki regresivoa. [Txopi]

Bai, japonieraren teknologia sintaktiko hori (zurrunki regresiboa) dá teknologia bat zein ondo zetórren noiz hizkuntzak sortzen ari ziren, noiz mezuak zirén oso kontextualak, noiz nahikoa zen esatea hitz bat (izen bat) afinda uler zedin mezu osoa (aditza eta sujetua gehien-gehienetan kontextualak baitziren), noiz ez zen bereziki lagungarria aisa diskurritzea gain ideiak zeren kontextuak azaltzen zuén ia dena, ia beti. Halako sintaxi buruazkena sortu zen naturalki tikan (edo kin) keinuak (ezin kontextualagoak), eta hola, baliabide buruazkenak joan ziren garátzen naturalki gain oinarrizko OV estruktura hori, sortuz baliabide buruazkenak an sintaxi buruazkena (OV kin postposizioak).

Baina hizkuntza bat dá erreminta ikaragarri bat zeinen posibilitateak ez diren amaitzen kin mezu zuzen-labur-bapatekoak, eta baldintza batzuetan, hiztunak joanen ziren aurkitzen bideak ki teknologia potenteagoa, emanez aukera komunikatibo aberatsagoak eta efektiboagoak azpi baldintza komunikatibo gerota orokorragoak. Eta ez gaude mintzatzen gain lexiko zabalagoa (hori ere), baizik nagusiki gain estruktura sintaktiko progresibo eta irekiagoak zein zúten ahalbidetzen komunikazio aberatsagoa, finagoa, erosoago eta, denaz gain, efektiboagoa.

Teknologia hori ez da inorena, dá sinpleki humanoa, nola dén komunikazioa, eta da hain gauza ona eta aberasgarria zein jendaki guztioi dagokigún saiatzea laguntzen adáptatzen posibilitate potente horiek ki munduko mintzaira guztiak (antzera nola ere zenbakiak, edo idazkera bera, edo...), zeren horrela mintzaira horien hiztunak komunikatiboki hobeki biziko baitira. Horren alde jotzea dá jotzea aldé garapen/progreso komunikatiboa, zein dén hain zentrala an bizitza humanoa ze konsideratu ahal dá garapen humanoa.

Hortaz, eta amaitzeko, azpimarratu nahi genuke ze hau guztia ez da teoria hutsa: japonieraren erabiltzaileak komunikatiboki askoz hobeki biziko lirake baldin gradualki (asmoz eta jakitez) joango balira adaptatzen gerota aukera burulehen gehiago ki euren teknologia komunikatibo buruazkena. Horrela egongo lirake gutxio baldintzatuak an euren gauzapen komunikatiboa, eta izanen lirake gehio eurak. [1333] [>>>]

Etiketak: bikoizketa/zinea, evoluzioa, japoniera, OV>VO, sorrera, teknologia

igandea, uztaila 25, 2021

Textu bat (demagun novela bat) guztiz atzekoz aurrera idatziz gero, bere entropia ez litzake aldatuko

Baldin berridatziko bagenu novela bat (demagun Joyce-ren "Ulisses" bera), baina járriz hitzak guztiz alderantziz (esan nahi baita, hasiz tika originaleko azken hitza eta bukatuz kin originaleko lehena), novela alderantzizkatu horren entropia ez litzake aldatuko (halakoxea da entropia), nahiz irakurleak ezin izanen lukén interpretatu (prozesatu) bere edukia linealki, aurrerantza.

Gainera, baldin irakurleak ahalko balu joan memórizatzen alderantzizko informazio guzti hori (milaka hitz horiek), ezin izanen luke ondo intérpretatu gordetako informazio hori harik jaso bukerako informazioa (originalean, hasierakoa), non aurkituko lukén oinarrizko informazioa zeintaz ari diren novelaren kontu guztiak (esan nahi baita ze bukaerako informazio alderantzizkatu hori dá originaleko hasiera).

Areago, novelaren hitz berberak jarriko balira guztiz aleatorioki, textuaren entropia ez litzake horregatik aldatuko (zeren hitzen maiztasunak ez liraken aldatuko), nahiz interpretazioa izanen litzaké ezin ezinagoa. [1332] [>>>]

Etiketak: entropia, Shannon

larunbata, uztaila 24, 2021

Zipf (1949): "... we shall present further rank-frequency distributions from samples of many other languages, ..."

Shannon-ek zioén hemen ze:

eta Zipf-ek an bere "Human Behavior And The Principle Of Least Effort" (1949:34):

Esan nahi baita ze Zipf-en erlazioa artén hitzen frekuentziak eta euren ordinalitateak ez litzake soilik aplikagarria ki inglesa, baizik ze oinarrituko litzake an indar komunikatibo orokorrak zeinen eragina izanen litzaké orokorki esanguratsua. [1331] [>>>]

Etiketak: Shannon, Zipf

ostirala, uztaila 23, 2021

Dewey-ren corpus linguistikoa: zabala (100000 hitz guztira) eta diversifikatua (idatzia, mintzatua eta inprimatua)

Atzoko sarreran irakurtzen genuen nóla Dewey-k bere azterketan erabili zuén corpus linguistiko bat kin 100000 hitz guztira, zeinen artean 10161 zirén diferenteak. Corpus horrek batzen zuén material diversifikatua, aterea ti garai hartako iturri idatziak, mintzatuak eta inprimatuak (1923:8):

Eta, nola ikusten genuen an sarrera titúlatzen "Interpretátuz Sn an corpus bat non Zipf-en legea betetzen den perfektuki", baldin:

S10161 = 9.803577 eta hortaz, atzo genioenez, (1/S10161) = 0.1020036 edo %10.2:

orduan, guztira 100000 hitz izanda, maiztasun erabiliena izan beharko litzaké teorikoki:

100000*0.1020036 ≃ 10200

nahizta, Dewey-ren datuetan, hitz erabiliena (zein dén "the" artikulu determinatua) soilik agertuko dá 7310 aldiz, zein den maiztasun aski baxuagoa:

2. hitz erabilienaren maiztasun teorikoa litzaké 1.aren erdia: 10200/2 = 5100, nahizta datuetan 2. hitz hori soilik agertú 3998 aldiz, markátuz hor ere diferentzia erlatiboki handia. Eta berdin gertatzen da kin maiztasunak korresponditzén ki 3., 4. eta 5. hitzei ere, nahiz distantziak ez diren hain nabarmenak. Gero 6. hitzetik aurrera, maiztasun teorikoetatik gora ibiltzen dirá maiztasun realak. Adibidez, 18. hitzak izan beharko luke teorikoki ("on"):

10200/18 ≃ 567 aldiz
nahizta datuetan agertú 643 aldiz.

Orohar, atzo ikusitako maiztasun erlatibo metatuak ere mantentzen dira gainétikan euren ustezko teorikoak:

Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzke baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil.

Horrek guztiak sugeritzen digu banaketa real bat non maiztasun altuenak (konkretuki 5 maiztasun altuenak) dirén nabarmenki baxuagoak zein teorikoak, bitárten hortik aurrerakoak jotzen dute alde izán erlatiboki altuagoak zein teorikoak. Hortik espero geinké corpus horretako entropia reala (kalkulatua kin 10161 hitzak) izateá altuagoa zein bere entropia teorikoa (nolabait esán, banaketa realean maiztasunak erlatiboki "berdinagoak" baitira). [1330] [>>>]

Etiketak: Dewey

osteguna, uztaila 22, 2021

Zénbat hitz ezberdin zeuden an azterketa e Dewey (1923)?

Atzo ikusten genuen nóla Shannon (1950) zén oinarritu an corpus linguistikoa ganik Dewey (1923) afinda kalkulatu a entropia on ingles inprimatua, eta baita nóla Dewey-k jada postulatu zuén lehenengo hurbilketa bat ki erlazioa on Zipf (1949). Gaur interesatzen zaigu ezagutzea zénbat hitz ezberdin zeuden an lagin linguistikoa on Dewey, xedé konprobatu noráino datozen bat Dewey-k eta Zipf-ek emandako neurriak. Dewey-k (1923:6) emanen digu datu interesgarri hori: 10161 hitz ezberdin.

Beraz, baldin Zipf-en legea beteko balitz perfektuki artén 10161 hitz ezberdin horiek, izanen genuke ze a erlazioa artén hitz-kopuru totala eta maiztasun altuena izan beharko litzaké:

S10161 = sum(1/(1:10161))
9.803577

non hitz ezberdin guztien maiztasun erlatibo teorikoak batuta, aterako zaigú unitatea (ikus sarrera hau):

sum(1/(9.803577*(1:10161))) = 1

nondik kalkula geinkén maiztasun erlatibo teorikoak korresponditzén ki edozein ordinalitate (esan nahi baita, korresponditén ki n-garren hitza an rankina on hitzak) baldin, diogunez, Zipf-en legea beteko balitz perfektuki. Adibidez, hitz erabilienari korrespondiko litzaioke 0.1020036 edo %10.2:

sum(1/(9.803577*(1:1)))

0.1020036

10. hitz erabilienari tokatuko litzaioké 0.2987653 edo %29.9:

sum(1/(9.803577*(1:10)))

0.2987653

100. hitz erabilienari 0.5291311 edo %52.9:

sum(1/(9.803577*(1:100)))

0.5291311

eta 1000.ari 0.7635449 edo %76.4:

sum(1/(9.803577*(1:1000)))

0.7635449

eta, 10000.ari 0.9983709 edo %99.9:

sum(1/(9.803577*(1:10000)))

0.9983709

zein aski bat datoz kin Dewey-ren portzentajeak:

Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzkén baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil. Dewey jada fijatua zen an proportzioak zein gero Zipf-ek sakonago aztertuko zituen. [1329] [>>>]

Etiketak: Dewey, Shannon, Zipf

asteazkena, uztaila 21, 2021

Dewey-ren erlazioa artén hitz komunenak eta euren portzentajeak an ingles konektatua (1923)

Shannon-ek (an bere "Prediction an entropy of printed English", 1950) aipatzen ditú Dewey (1923) eta Zipf (1949) noiz kalkulatzen zénbat entropia duén ingles inprimatuak:

eta jada komentatua dugu Zipf-ek proposatutako erlazioa artén hitzen maizasuna eta euren ordinaltasuna an corpus linguistikoak, baina gaur komentatu nahi genuke nóla Dewey-k jada an 1923 proposatua zuén Zipf-en erlazio horren lehenengo hurbilketa interesgarri bat noiz propósatu ondorengo erlazioa artén hitz komunenak eta euren portzentajeak an ingles konektatua (1923:17):

Diogunez, hor daukagu lehenengo proposamen bat erlázionatuz corpus bateko hitzen maiztasunak eta euren ordinaltasunak, zein postulatzen den soilik an:

...any specimen of connected English sufficiently long to be fairly representativ... [Dewey, 1923]

Bai, Dewey-ren 1923ko erlazio hori postulatzen da an corpus zabalak on ingles konektatua. Zipf-ek (1949) erlazio hori gehiago zehaztu zuén eta bere aplikagarritasuna zabaldu zuen. [1328] [>>>]

Etiketak: Dewey, Zipf

asteartea, uztaila 20, 2021

Baldin Zipf-en legea betetzen bada, Shannon-en 0.1 proportzio hori teorikoki izanen dá 1/Sn (ez da izanen independentea ti "n")

Shannon-ek zioén hemen ze:

Baina, 0.1 hori (= .1 an Shannon-en artikulua) dá a proportzioa artén maiztasun handiena an corpusa eta hitz-kopuru totala (0.1 hori dago ki Sn = 10), alegia:

(1/Sn) = (1/10) = 0.1

eta Zipf-en erlazioa betetzen delarik, proportzio hori (0.1 hori edo, berdin ere, Sn = 10 hori) egonen da an funtzioa on zénbat hitz ezberdin erabili diren an corpus hori (hots, an funtzioa on "n"). Esan nahi baita ze proportzio hori (0.1) ez da independentea ti "n", baizik ze atera beharko litzake ti:

(1/Sn) = 1/(sum(1/(1:n)))

halan-ze, horrela eginez, hitz guztien probabilitate agregatua izanen dá beti 1 (ezin liteke izán infinitu):

sum((1/Sn)/(1:n)) = sum(1/(sum(1/(1:n)))/(1:n)) = 1

Zehazki, proportzio hori 0.1 izateko, hitz ezberdinen kopurua ("n") teorikoki izan beharko litzaké 12367:

S<-function(n){sum(1/(1:n))-10}
uniroot(S, c(1,100000))
$root
[1] 12367

Horrela, ondoko aipuko batukari hori:

izanen da justuki 1 noiz batuketa dén egiten tikan 1 daino 12367 (horiek izanen liraké hitz guztiak, teorikoki):

(1/(sum(1/(1:12367)))) = 0.09999957 ≃ 0.1

Praktikan, kalkulatu beharko lirake hitz guztien probabilitate enpirikoak (zeinen batura derrigor izanen dén 1) eta hitz guztiak erabilí an konputoa on entropia, eta ez soilik lehenengo 8727 hitzak. Horrela, corpuseko hitz guztiak konsideratuz, entropia jaitsiko litzake ti 11.82 dara 9.716223:

TEnt(12367)
9.716223

Baldin soilik 8727 hitz ezberdin erabili balira (Zipf-en legea perfektuki beteta), entropia litzaké 9.414066:

TEnt(8727)
9.414066

zein den are urrutiago ti 11.82 bitak per hitza zein Shannon-ek kalkulatu zituen baztertuz hainbat hitz ti bere kalkulua. [1327] [>>>]

Etiketak: daino, dara, Shannon, Zipf

astelehena, uztaila 19, 2021

Nóla aldatzen den entropia teorikoa an corpus linguistikoak artio 100000 hitz ezberdin

Sarrera honetan kalkulatu genuen a entropia teorikoa on bi corpus linguistiko non zeudén oso hitz ezberdin gutxi, bata kin n=2 (esan nahi baita, 2 hitz ezberdin):

TEnt(2)
0.9182958

eta bestea kin n=3 (esan nahi baita, 3 hitz ezberdin):

TEnt(3)
1.435371

Baina, gauza da ze gure intereseko corpus linguistikoak dirá askoz zabalagoak zein 2 edo 3 hitz ezberdin, batez ere noiz nahi dugun kalkulatu a entropiá on hizkuntza bat (adibidez, ingles idatzia). Kasu horietan, hitz ezberdinen kopurua oszilatu ahal dira artén mila gutxi batzuk eta hamar mila batzuk, zein den tamaina askoz representagarriagoa.

Gure asmoa an sarrera hau dá aztertzea nóla aldatzen den entropia teorikoa noiz hitz ezberdinen kopurua mugitzen den artén 1 eta 100000 hitz diferente, adieraziz grafikoki ibilera hori bidéz ondorengo kodea an R:

plot(unlist(lapply(c(1:100000), FUN=TEnt)), type="l", xlab = "n", ylab = "TEnt(n)")

zek ematen digu honako grafikoa:

Hortxe ikus daikegu a entropia teorikoa an corpus linguistikoak artio 100000 hitz ezberdin, non:

TEnt(20000)
10.13008

eta

TEnt(100000)
11.4954

zein diren mugak zeinen artean aldatzen dén entropia teoriko hori noiz hitz ezberdinen kopurua mugitzen den tartén 20000 eta 100000 hitz ezberdin. Tarte horren zabalera dá:

11.4954 - 10.13008 = 1.36532

eta esan dugunez, soilik dependitzen da ti zénbat hitz ezberdin aurkitzen diren an corpusa ("n"). [1326] [>>>]

Etiketak: entropia, Shannon

igandea, uztaila 18, 2021

Bai, naturaltasun osoz

Atzo aipatzen genuén ondorengo erabilera, zein iruditzen zitzaigun oso erakusgarria respektu naturaltasuna zeinekin agertzen zaigún "kin" soziatiboa:

Hona hemen, lehengo egunean hartutako beste adibide bat, non, modu divertigarri batean, agertzen zaigún "kin" soziatiboa:

Bai, naturaltasun osoz. [1325] [>>>]

Etiketak: garabideak, giroa, kin

larunbata, uztaila 17, 2021

"kin" ere, naturaltasun osoz

Sarrera honetan ikusi genuen nóla:

..., naturaltasun osoz agertzen zaigú "an..." baliabide prepositibo inesiboa an hurrengo erabilera:

eta, beste sarrera honetan.gauza berbera ikusten genuen, baina orain kin "tik..." elatiboa:

Nola genioen hemen:

... báda halaber "ti..." aldaera zaharragoa eta sinpleagoa, eta baita "tika..." eta "tikan..." aldaerak ere

Orain gutxi, Euskaltel-en kanpaina publizitario batean, ikusten genuén beste erabilera hau, orobat oso interesgarria, non agertzen zaigún "kin..." soziatiboa:

Bai, naturaltasun osoz. [1324] [>>>]

Etiketak: garabideak, kin

ostirala, uztaila 16, 2021

Fernández eta Ortiz de Urbina (2007): "... perpausari (...) nahitaeztoa zaiola subjektua."

Atzokoaren harira, esan geinke ze sujetuak jokatzen dú paper berezi bat an esaldia:

diskursiboki thematikoa,

posizionalki an aurreneko posizioa,

non prozesatzen den hobeki zein atzerago, orohar,

Eta horretaz gainera, Fernández eta Ortiz de Urbinak dioskutenez (an euren "Hizkuntzari itzulia 80 hizkuntzatan", 2007:56):

... perpausari (...) nahitaeztoa zaiola subjektua.

Gaurkoan ekarri nahi genuke pare bat aipu ganik Fernández eta Ortiz de Urbina (2007) non aipatzen dute azken puntu hori. Aurrenekoan diote:

Kontuan izan, berez inflexio sintagma diogunean, perpausaz ari garela, garai batean genioen bezala, eta irakurleak badaki, hizkuntza senak hala esanda, perpausari —edo, nahiago bada, inflexio sintagmari— nahitaezkoa zaiola subjektua, ez dago-eta subjekturik ez duen perpausik inongo hizkuntzatan. Subjektua, hortaz, ezkerretara, hauxe da esandakoa laburbiltzeko leloa. [2007:56]

eta bigarrenean:

Bai, bai, badira pozik gaude edo llueve bezalakoak, ageriko subjekturik erakusten ez dutenak, baina horiexetan, subjektua ezkutuan edo inplizituki dagoela uste dugu hizkuntzalariok. Subjektua egon badago, ikusten ez badugu ere. [2007:62]

Bai, sujetuak jokatzen dú zinez paper diskursibo ondo berezia, zeren berari referitzen zaio geroko predikatuko informazio rhematiko guztia. [1323] [>>>]

Etiketak: Fernández-Urbina

osteguna, uztaila 15, 2021

Gure helburu funtzionaletarako, sujetua konsidera daiteké buru diskursiboa on esaldia (zeinen osagarri diskursiboa dén predikatua)

Atzokoan aipatzen genuen nóla estatistikak lagundu ahal digún azáltzen zergátik hitz-ordenak erakusten dituztén hain maiztasun diferenteak. Eta hor ere, estatistikak lagundu ahal digu argitzen realitate berez-aski-ezkutu eta iheskorrak zein geldi litezkén agerian noiz tratatu kopuru handiak, zeintan antzeman ohi dirén joera interesgarriak. Puntu honetaz, gogora daigun gure sarrera titúlatzen "Sujetu sintaktikoa da tipikoki thema diskursiboa eta agente semantikoa", non orobat mintzo ginén an termino estatistikoak:

Gure kasu honetan, eta zuk diozunez, sujetu gramatikala ez da beti izan behar thema edo/ta agentea, baina sujetua izaten dá húra zeintaz esaten dugun zerbait (esan nahi baita ze, maiz askoan sujetua izanen dá thema), eta predikatua izaten dá húra zein esaten dugun burúz sujetua (esan nahi baita ze, maiz askoan predikatua izaten da rhema).

Jakina, sujetua izan ahal dá thema edo rhema, agente semantikoa edo paziente semantikoa (edo eliptikoa), baina horrek ez digu ezkutatu behar ze existitzen dira korrelazio sendoak artén sujetu sintaktikoak eta thema diskursiboak edo/ta agente semantikoak (berriro diot: esaldi bakan batean diskutitu daiteke edozer, baina agregatuki argi dira ageri erlazio estu horiek, eta datu agregatuetan ikusten dirá tendentziak).

Jon Aske hizkuntzalari euskaldunak zioskun hemen:

There is a strong correlation between grammatical subject and topic, on the one hand and grammatical object (when there is one) and focus. Indeed, the category subject seems to be but the grammaticalization of the category topic (although not all subjects are topics, and some are indeed foci). [Jon Aske]
eta Comrie hizkuntzalariak hemen:

Las explicaciones para el predominio de los órdenes de palabras en los que el sujeto precede al objeto parecen tener base psicológica, de acuerdo con la preeminencia del agente en la posición agente-acción-paciente y la gran correlación entre el agente semántico y el sujeto sintáctico: ... [Comrie]
Aipatzen duzu, Patxi, Euskaltzaindiaren gramatika; eta Euskaltzaindiak berak sinatzen du ondorengoa (Euskal gramatika laburra: perpaus bakuna):

Gramatika egituraz eta mintzagai egituraz mintzatu gara. galdera hauxe da orain: ba ote da bi egitura horien artean nolabaiteko loturarik edo bakoitza bere aldetik ote dabil? Badirudi erantzuna baiezkoa dela, hots, nolabaiteko lotura badela. Oro har, mintzagai egituran ditugun mintzagaia eta iruzkina gramatika egiturako subjektua eta objektua-aditza osagaiekin bat datozelako. [Euskaltzaindia, "Euskal gramatika laburra: perpaus bakuna", 2002:29]

Eta justuki horrregatik, zatio bere izaera thematiko tipikoa, hizkuntza gehienek bukatzen dute jartzen sujetua aurrén beste edozer an esaldi kanonikoak, eta orobat horregatixe azal daiteke zergátik...

...prozesamendu-lanetan ia aho batez onartzen dela subjektuak hasieran dituzten hurrenkerak prozesatzeko errazagoak direla" [Laka: ikus hemen].

Eta azpimarratu nahi genuke ze prozesamendu-lan horiek eragiten dituzté efektuak, zeinen azterketan estatistikak berriro jokatzen duén oinarrizko papera (ikus adibidez "[#3] Zero OSV hizkuntza an Tomlin (1986), esan nahi baita, bat ere ez"):

... ikusi dugu an [#1] nóla Lakak laburbiltzen zigun ze:
... prozesamendu-lanetan ia aho batez onartzen dela subjektuak hasieran dituzten hurrenkerak prozesatzeko errazagoak direla hizkuntzan. [Laka]
eta an [#2] aurreko horren azalpen komunikatibo sendoa:
... izan ere, sujetua, baldintza orokorretan, gehientsuenetan izaten dá tematikoa (zehaztuz zértaz mintzo den), eta halako referentzia informatiboa, noiz behar den, komunikatiboki hobeki joango da hasieran zeinda ez beste edonon, nola an OSV. Honela genioen an "Buruz hizkuntzen garapen sintaktikoa" (2014:135):
.

Hortaz, bádirudi ze sujetuak nagusiki thematikoak izanki, hobeki prozesatzen dira an esaldi-hasiera (azpi baldintza orokorrak), halan-ze erakusten duté oso joera sendoa aldén posizio aurreratuena an esaldia.

Izan ere, sujetuak jokatzen du paper berezia an esaldia, zeren:

izanki gehienetan diskursiboki thematikoa,

posizionalki joaten da an aurreneko posizioa,

non prozesatzen den hobeki zein atzerago, orohar,

Gainera, Fernández eta Ortiz de Urbinak dioskute ze ("Hizkuntzari itzulia 80 hizkuntzatan", 2007:56):

... perpausari (...) nahitaeztoa zaiola subjektua.

Horregatik guztiagatik, esan geinke ze, gure helburu funtzionaletarako, sujetua konsidera daiteké esaldiko buru diskursibo tipikoa, zeinen osagarri diskursibo tipikoa izaten dén predikatua (azken horren barruan aditzak jokatuko du paper zentrala nola predikatuko buru diskursiboa). [1322] [>>>]

Etiketak: Aske, Comrie, Laka

asteazkena, uztaila 14, 2021

Hurrengo galdera da: zergátik?

Genioen hemen:

Eta linguistikan ere, eta hitz-ordenetan partikularzki, maiztasunak (eta ez soilik gaur egungo maiztasun estatikoak, baizik oso interesgarriki maiztasun evolutiboak ere) ez dira batere berdinak an ordena posible guztiak, nola espero geinken defektuz, baizik ondo ezberdinak.

Hortaz, demagun Greenberg-en 6 hitz-ordenak (SOV, SVO, VSO,VOS,OVS, OSV) ekiprobableki banatuta daudela arten munduko hizkuntzak. Orduan, munduko hizkuntza bat aleatorioki hartuta, sujetulehena izateko probabilitatea izanen litzaké heren bat, berdin nola aditzlehena izateko probabilitatea izanen litzakén beste heren bat eta objetulehena izatekoa azken herena, osátuz 1eko probailitatea.

Baina, noiz jotzen dugun ki evidentzia enpirikoa (adibidez, jarraiki Tomlin, 1986), ikusten dugu ze maiztasun estatikoak (ez gara sartuko orain an maiztasun dinamiko-evolutiboak) dirén hauek:

402 hizkuntza aztertuta, 348 sailkatu ziren nola sujetulehen, eta 54 nola ez-sujetulehen.

Zehazkiago, lagin horretako hizkuntzen %87 hasten da kin sujetua, bitárten %12 kin aditza eta %1 kin objetua.

Galdera da: hitz-ordenak ekiprobableak balira (defektuzko hipotesia), zéin izanen litzake probabilitatea on aurkítu 348 sintaxi sujetulehen (edo gehiago) arten 402 hizkuntza horiek zein Tomlin-ek aztertu zituen? Erabiliz R kode hau:

binom<-function(n){dbinom(n,402,(1/3))}
sum(unlist(lapply(348:402,binom)))
1.358833e-108

hau da

0.00000 -komatik 107 zero artio lehenego 1a- 000001358833

esan nahi baita, edozein ikuspuntutik, biziki zaila. Jakina, hurrengo galdera da: zergátik? Zéri zor zaizkio nagusiki halako diferentzia handiak artén maiztasun horiek? [1321] [>>>]

Etiketak: Greenberg

asteartea, uztaila 13, 2021

Herenegungo eta atzoko kontrasteko zenbaki hori (0.05eko esangura-maila) jada agertua zen an beste sarrera batzuk

Herenegungo sarreran agertu zitzaigun 0.05eko esangura-maila (an kontextua on kontraste estatistiko bat), halan ze baldin gure kontrasteko p balioa bazen txikiago 0.05 atalase exigitu hori, orduan baztertu eginen genuén gure hipotesi nulua kin 0.05eko exigentzia-maila estandar hori (zeren gure evidentzia enpirikoa ez litzake aise konpatiblea kin gure hasierako hipotesia). Sarrera honetan, ordea, azpimarratu nahi genuen ze justuki 0.05 hori (esangura-maila hori) jada agertu zitzaigun noiz referitu ginen ki beste kontraste batzuk, adibidez an ondorengo sarrera (ikus irudiko biribil urdinak).

Hor reportatzen ari dira emaitzak on zenbait kontraste, non baztertu egiten dén hipotesi nulua zeren p balioa atera dén txikiago ze 0.05, horrela ondorioztatuz ze báda diferentzia esanguratsua artén aztertutako zenbait emaitza zein lortuak ziren konpáratuz SVO eta OVS an experimentu zehatz bat. Hór agertzen zitzaigun, beraz, aurreko postetan ikusitako zenbaki hori: 0.05eko esangura-maila. [1320] [>>>]

astelehena, uztaila 12, 2021

Berréginez atzoko testa kin beste agindu bat an R

Atzoko kontraste edo test hori orobat egin daiteke zuzenean an R bidéz komando hau:

binom.test(600,1000, p=0.5)

zeinen ostean agertuko zaigún ondoko erantzuna:

non agertzen zaigun atzoko p-balioa:

p-value = 2.728e-10 = 0.0000000002728

eta non (defektuz) erábiliz 0.05eko esangura-maila, kalkulatu den ondorengo tartea non agertzen diren txanponaren probabilitateak (kasu regularrean probabilitate hori izanen zén p = 0.5) zein ez liraken baztertuko an testa:

(0 . 5688784, 0 . 6305310 )

Ikusten dugunez, 0.5 ez dago arten probabilitate ez-baztergarri horiek, halan ze gure hipotesi nulua (p = 0.5, txanpona regularra da) baztertuko dugu: evidentzia enpirikoak apuntatzen du ki irregulartasuna on txanpona.

Hor, beste modu batera (erábiliz konfiantza-tartea), egun dugú ber gauza (ber testa) zein egin genuen atzo. Esan nahi baita ze testaren emaitza dá exaktuki ber-bera zein konpáratuz p balioa eta 0.05, nola atzokoan. [1319] [>>>]

Etiketak: zientzia

balbula