larunbata, uztaila 31, 2021

Gil (1998): "..., with OV languages being evolutionarily prior to VO languages with respect to word order typology."

Atzo, Yamamoto-k aipatzen zuelarik Givón-en lana, nahiko genuke gaur gogoratu ha sarrera titulatzén "XK5: Teoria gardena eta ebidentzia enpiriko sendoa bat-eginik", non, indirektoki bada ere, Givón-ek erantzuten dio ki ondorengo galdera on David Gil:

1998an David Gil hizkuntzalariak (erantzunez ki bere kolega Bingfu Lu) zúen planteatzen honako galdera hau (ikus XK4):

First a question: Is it actually the case that there's more OV>VO than VO>OV among ATTESTED changes, or only amongst RECONSTRUCTED changes.
Eta Gil-ek berak zioskun zér deduzitu beharko genuken baldin erantzuna balitz baiezko biribila (ikus Gil-en mezu osoa hemen):
... , if the former, then I see no way to avoid the conclusion that what we have here is a fascinating window into linguistic evolution, with OV languages being evolutionarily prior to VO languages with respect to word order typology.

(An inevitable disclaimer. To say that, say, OV Japanese is evolutionarily prior to, say, VO English with respect to word order typology is not to rule out the possibility that, say, OV Japanese might be more advanced evolutionarily than VO English with respect to other linguistic properties not correlated with word order. And needless to say, such claims say nothing about extra-linguistic matters.)

Gil-ek, esan bezala, zúen planteatzen hori-galdera an 1998. Eta 2005ean Tom Givón hizkuntzalariak (zein baita figura zentral bat an hizkuntzalaritza funtzionala) zioén (ikus Givón-en mezu osoa hemen):

1. Synchronic morphology is most often the best guide for reconstructing older syntax. There is not a single shred of evidence in Japanese morphology indicating anything but SOV syntax (see Givon 1971, 1979, 1983 ed., 2001, inter alia).

2. In general, SOV is the oldest attested word-order in human language. Most natural (non-contact induced) drift is, as far as I know, always away from SOV, not toward it (Givon 1979; Ruhlen & Gell-Man, forthcoming).

Honek du erakusten haruntzago ti edozein duda razonable ezen, afera honetan, bat datoz teoria gardena eta ebidentzia enpiriko sendoa. Hau da, ... I see no way to avoid the conclusion that...  

Bai, oso-oso bát datoz. [1338] [>>>]

ostirala, uztaila 30, 2021

Yamamoto (2005): "... it seems most likely that human languages originally started with SOV basic word order ..."

Txopi-k atzo:

Badakigu beraz, nola izan ahal zen sintaxia on hizkuntzak an Neolitiko garaia.  [Txopi]

Horretaz ikus daigun ondorengo artikulua ganik Hideki Yamamoto (2005) titúlatzen "A historical view on areal distribution of word order around the world", non dioskún:

When the distribution is considered from a historical point of view, however, it is very likely that most of the areas had been covered with (S)OV-type languages and that the areas of a VO type had been very restricted before many large language families expanded after the Neolithic age. [Yamamoto, 2005]

edo, aurrerago:

The present work does demonstrate and argue that SOV order is most likely to have covered most of the world as far as we go back to the past based on the studies of areal and genetic distribution of word order of the world's languages, but it does not necessarily argue that SOV was the earliest word order of human languages. If SOV order was predominant in most areas on the globe when we trace back to the past, however, there should be some reason for this and it seems most likely that human languages originally started with SOV basic word order unless there are good grounds for judging that languages developed SOV order from another order. The reason for this, however, should be found in studies of pidgin or creole languages and language typology rather than in the speculation made by Givón based on tbe observation of animal comunication or language acquisition.

Beraz, eta labúrbilduz:

... it seems most likely that human languages originally started with SOV basic word order unless there are good grounds for judging that languages developed SOV order from another order. [Yamamoto, 2005]
Horixe. [1337] [>>>] [A2] [A3] [A4]

Etiketak: , ,

osteguna, uztaila 29, 2021

Ezberdindu behar dirá, alde batetik, hizkuntzen sorrerako baldintza eta behar bereziak, eta bestetik, behar komunikatibo orokorrak

Hoeks-en atzoko laburpenaren harira (hurrengo postetan sakonduko dugu an Hoeks-en azterketa), gaurkoan gogoratu nahi genuke ondoko sarrerá publikatua azpi titulu hau:

zeinen textu osoa dén ondorengo hau:

Bádirudi ze hizkuntza (edo hizkuntzak) ezerezetik sortzean nagusitzen da ordena buruazkena (SOV pospositiboa, edo inkluso OVS pospositiboa) gain SVO burulehena. Horretarako batu egiten dirá gutxienez bi faktore (ikus ere "Evoluzio sintaktikoak bilatzen dú optimizazio (edo maximizazio) komunikatiboa"):

  • Alde batetik, sorrera horretan, aurrena sortuko zirén elementu konkretuagoak, seinalagarriagoak, objetibagarriagoak (nola objetuak, eta ez edozein objetu baizik soilik objetu konkretuak, seinalagarriak), zein izanen liraké nola oinarria zeinen gainean sortuko ziren elementu abstraktuagoak, eta horregatik zailagoak ki sortu ti ezereza
  • Bestetik, sorrera horretan komunikazioa litzaké oso kontextuala, askotan nahastua kin keinuak, halan ze mezuak ez lukete behar estrategia komunikatibo berezirik, esan nahi baita ze mezuak izanen ziren oso sinple, oso eliptiko, eta bereziki zentratuak an objetua (askotan ez zen besterik beharko, soilik objetua: beste guztia, nolabait, izanen zén haren osagarri opzionala, baldin behar bazen). 

Eta nahizta oinarrizko estrategia komunikatibo buruazken hori ez izán teknikoki potentea azpi baldintza orokorrak, sintaxi hori joan liteke osatzen eta finkatzen (ikus an "Sintaxigintzaren norabide komunikativoa", 2015:183-184):

Bai, zenbat-eta beranduago hasi hizkuntza bat ibiltzen bere bidea alde estruktura burulehenagoak, orduan-eta oztopo intralinguistiko eta extralinguistiko gehiago. Nahizta, bestalde, genioenez, egoera hori guztia alda daiteke baldin, behin arazoa ondo ulertuta, eginen balira ahalegin proaktiboak afin arindu oztopo horiek. []

Gradualdi, asmoz eta jakitez. [] [A11] [A12] [COMRIE]

Etiketak: ,

asteazkena, uztaila 28, 2021

Hoeks (2016): "... a general shift from SOV towards SVO in fully developed languages."

Gaurkoan aipatu nahiko genuke lan oso-oso-oso interesgarri bat idatzia ga Morwenna Hoeks (2016), non analisiaren zentruan jartzen baitira maiztasun evolutiboak e hitz-ordenak zehar mundua, esan nahi baita euren dimensio diakronikoa, dinamikoa, zein, bistan denez, dá berez zentrala an edozein analisi evolutibo-funtzional non bilatzen den aztertzea nóndik nora joaten diren sintaxiak, zéin baldintzetan eta zergátik. Honá lanaren titulua:

eta bere laburpen mamitsua:

An explanation for the observation that most languages nowadays exhibit an SOV or SVO word order is provided by suggesting that SOV and SVO can both be seen as advantageous, but from different perspectives and under different circumstances. There seems to be an asymmetry in the preference for SOV and SVO word orders in the sense that SOV word orders are mostly adopted in newly emerging languages, while there also has been a general shift from SOV towards SVO in fully developed languages. The main point of this paper is therefore that the change into SVO can be explained as driven by functional preferences that become more prominent when more complexity arises in languages that evolve over time, while the emergence of an SOV proto-language can be explained because SOV is more preferred when languages are still in a rudimentary state and no stable lexicon is available. [Hoeks, 2016]

Zinez, Hoeks-ek (ikus lan osoa hemen) du jotzen an puntu klave bat: maiztasun dinamikoak. []

Etiketak: ,

asteartea, uztaila 27, 2021

Bichakjian (2000): "... languages have been steadily replacing the ancestral implements with ever more advantageous alternatives (linguistically more powerful and biologically less costly),..."

Bernard H. Bichakjian hizkuntalariak zioén an bere "Reply to Suddendorf on Bichakjian on Language-Complexity" (2000):

My target article, which showed that, ... languages have been steadily replacing the ancestral implements with ever more advantageous altenatives (linguistically more powerful and biologically less costly), provided data that clearly suggest there is no empirical support for the steady state conception, and that language evolution is a gradual process with roots going very far back in time. Indeed, just as industry started with primitive tools and weapons and steadily evolved into the sophisticated hardware available to us to day, so language began with an improvised set of features which consistently remodelled into ever more efficient instruments of thought and communication.[Bichakjian, "Language Origin and Language Evolution", Psycoloquy, 2000]

eta referituz ki kontrastea artén sintaxi buruazkena eta sintaxi burulehena (zeini deitzen dión the modern word order), egiten ditú ondoko reflexioak (an bere artikulua titúlatzen "Language evolution and the complexity criterion", 1999): 

The shift from the head-last to the head-first order constitutes an important step in the expression of thought and thence in thinking itself. The ancient order is based on a global perception and requires a processing that is also global. The sequence victoriam reportavit or aere perennius can only be interpreted when the entire utterance has been heard, i.e., when the phrase-final head has been uttered. Instead, in the head-first languages, the analysis begins immediately and goes on as the modifiers unfold. The ancient model requires therefore a global interpretation, whereas the modern one lends itself to a progressive analysis.

...

The modern word order has therefore a double advantage: in the first place, it allows for the coding and decoding of linguistic messages with a minimum of mental effort, since it taxes the working memory of speakers and listeners as little as possible; and, in the second place, because the processing of linguistic messages is facilitated, it makes it possible to conceive and express increasingly more complex thoughts [Bichakjian, "Language Evolution and the Complexity Criterion", Psycoloquy, 1999]

Gauza da ze prozesu gradual horretan munduko mintzaira guztiek ez dutela iritsi ber estadioa simultaneoki (nola nahiago genuken), halako moduan ze gaur egun, suerte txarrez, existitzen dirá diferentzia ondo nabarmenak artén erraztasun komunikatiboak zein sintaxi ezberdinek eskaintzen dituzten. Eta soluzioa soilik datorke ti jarráitu bidea an norabide egokia harik irítsí estadio sintaktiko bat non diferentziak ez diren jada esanguratsuak (behar dirá aukera burulehen funtzionalak). Bichakjian-ek dioenez (ikus goragoko aipua):

Indeed, just as industry started with primitive tools and weapons and steadily evolved into the sophisticated hardware available to us to day, so ... [Bichakjian, 2000]

Edonola ere, esan behar da ze, teknologia linguistikoak bádu konponente oso inportante bat zein den ezberdina respektu beste teknologia edo erreminta batzuk: konponente soziala, halan ze bere evoluzioa ez da hain erraza, nahiz, gure ikuspegitik, ez den hain zaila ere, eta dudagabe, eman daitezke aurrerapusu oso errazak, emanez bide ki beste aurrerapusu batzuk... (gradualki, asmoz eta jakitez). [1334] [>>>] [A9] [A10] [A11]

Etiketak: , , ,

astelehena, uztaila 26, 2021

Txopi: "... ahal dugu konprobatu an modu praktikoa noiz ikusten dugun film japoniar bat, hizkuntza bat zurrunki regresivoa."

Txopik zioen atzo:

Lagunak on Balbula, nahi dut komentatu film bat zein nuen ikusi ostegunean Donostin. Film japoniarra da eta dute botatzen an bertsio originala; titulua da gazteleraz "La Mujer del Espía" ta dago oinarritua an istorio bat on bikote japoniar bat an urteak 1940-1945.

Dena dala, ez da nire asmoa hitz egitea buruz filma baizik ta buruz erabiltzen duten hizkuntza. Hasieratik du deitzen atentzioa zeren dira elkarrizketa oso xinpleak: esaldi bakun bat gehi esaldi bakun bat ta honelo aldiro. Tarteka dute sartzen esaldiren bat subordinatua baina oso gutxi ta gainera ez dakit zertaz, alegia zeren zegoen an jatorrizko bertsioa ala zeren zuten idatzi itzulpenean. Hau da nire ustez, azaldu zen esaldirik gehien zaila:

- ¿A qué debo el placer de tu visita?

Alegia, hemen tratatzen diren gaiak ez direla bakarrik teoria hutsa eta hau ahal dugu konprobatu an modu praktikoa noiz ikusten dugun film japoniar bat, hizkuntza bat zurrunki regresivoa. [Txopi]

Bai, dá teknologia sintaktiko bat zein ondo zetorren noiz hizkuntzak sortu ziren, noiz mezuak zirén oso kontextualak, noiz nahikoa zen esatea hitz bat (izen bat) afin uler zedin mezu osoa (aditza eta sujetua gehien-gehienetan kontextualak baitziren), noiz ez zen beharrezkoa diskurritzea gain ideiak zeren kontextuak azaltzen zuén ia dena, ia beti. Halako sintaxi buruazkena sortu zen naturalki ti (edo kin) keinuak (ezin kontextualagoak), eta hola, baliabide buruazkenak joan ziren garatuz naturalki gain oinarrizko OV estruktura hori, sórtuz baliabide buruazkenak an sintaxi buruazkena (OV kin postposizioak).

Baina, hizkuntza bat dá erraminta ikaragarri bat zeinen posibilitateak ez diren amaitzen kin mezu zuzen-labur-bapatekoak, eta, suerte onez, joango zen aurkitzen bidea ki bihurtu potenteagoa, emánez aukera komunikatibo aberatsagoak eta efektiboagoak azpi baldintza komunikatibo askoz orokorragoak. Eta ez gara orain mintzatzen gain lexiko zabalagoa (hori ere), baizik gain estruktura sintaktiko progresibo eta irekiagoak zein zúten ahalbidetzen komunikazio aberatsago, finago, erosoago eta, denaz gain, efektiboagoa.

Teknologia hori ez da inorena, dá humanoa, nola komunikazioa, eta dá hain gauza ona eta aberasgarria zein jendaki guztioi dagokigu saiatzea laguntzen adaptatzén posibilitate horiek ki munduko mintzaira guztiak (berdin nola zenbakiak, edo idazkera, edo ...), zeren horrela mintzaira horien hiztunak komunikatiboki hobeki biziko baitira. Horren alde jotzea dá jotzea alde garapen komunikatiboa, zein dén hain zentrala an bizitza humanoa ze konsidera daiteké garapen humanoa.

Ez, hau guztia ez da teoria hutsa: japonieraren erabiltzaileak komunikatiboki askoz hobeki biziko lirake baldin gradualki (asmoz eta jakitez) joango balira adaptatzen gerota aukera burulehen gehiago ki euren teknologia komunikatibo buruazkena. Horrela egongo lirake gutxio baldintzatuak an euren gauzapen komunikatiboa, eta izanen lirake gehio eurak. []

Etiketak:

igandea, uztaila 25, 2021

Textu bat (demagun novela bat) guztiz atzekoz aurrera idatziz gero, bere entropia ez litzake aldatuko

Baldin berridatziko bagenu novela bat (demagun Joyce-ren Ulisses-a bera), baina járriz hitzak guztiz alderantziz (esan nahi baita, hasiz tikan originaleko azken hitza eta bukatuz kin originaleko lehena), novela alderantzizkatu horren entropia ez litzake aldatuko, nahiz irakurleak ezin izanen luke interpretatu (prozesatu) bere edukia linealki, aurrerantza. 

Gainera, baldin irakurleak ahalko balu joan memorizatzén alderantzizko informazio guzti hori (milaka hitz horiek), ezin izanen luke ondo interpretatú  gordetako informazio hori artio jaso bukerako informazioa, non aurkitzen den oinarrizko informazioa zeintaz ari diren novelaren kontu guztiak (bukaerako informazio alderantzizkatu hori dá originaleko hasiera).

Areago, novelaren hitz berberak jarriko balira guztiz aleatorioki, textuaren entropia ez litzake horregatik aldatuko (zeren hitzen maiztasunak ez lirake aldatuko), nahiz interpretazioa izanen litzaké ezinezkoa. []

larunbata, uztaila 24, 2021

Zipf (1949): "... we shall present further rank-frequency distributions from samples of many other languages, ..."

Shannon-ek zioén hemen ze:

eta Zipf-ek an bere "Human Behavior And The Principle Of Least Effort" (1949:34): 

Esan nahi baita ze Zipf-en erlazioa arten hitzen frekuentziak eta euren ordinalitateak ez litzake soilik aplikagarria ki inglesa, baizik-ze oinarrituko litzake an indar komunikatibo orokorrak zeinen eragina izanen litzaké orokorki esanguratsua. []

ostirala, uztaila 23, 2021

Dewey-ren corpus linguistikoa: zabala (100000 hitz guztira) eta diversifikatua (idatzia, mintzatua eta inprimatua)

Atzoko sarreran irakurtzen genuen nóla Dewey-k bere azterketan erabili zuén corpus linguistiko bat kin 100000 hitz guztira, zeinen artean 10161 zirén diferenteak. Corpus horrek batzen zuén material diversifikatua, aterea ti garai hartako iturri idatziak, mintzatuak eta inprimatuak (1923:8):

Eta, nola ikusten genuen an sarrera titulatzén "Interpretátuz Sn an corpus bat non Zipf-en legea betetzen den perfektuki", baldin:

S10161 = 9.803577  eta hortaz, atzo genioenez, (1/S10161) = 0.1020036 edo %10.2:

orduan, guztira 100000 hitz izanda, maiztasun erabiliena izan beharko litzaké teorikoki:

100000*0.102003610200

nahizta, Dewey-ren datuetan, hitz erabiliena (zein dén "the" artikulu determinatua) soilik agertuko dá 7310 aldiz, zein den maiztasun aski baxuagoa:

2. hitz erabilienaren maiztasun teorikoa litzaké 1.aren erdia: 10200/2 = 5100, nahizta datuetan 2. hitz hori soilik agertú 3998 aldiz, markátuz hor ere diferentzia erlatiboki handia. Eta berdin gertatzen da kin maiztasunak korresponditzén ki 3., 4. eta 5. hitzei ere, nahiz distantziak ez diren hain nabarmenak. Gero 6. hitzetik aurrera, maiztasun teorikoetatik gora ibiltzen dirá maiztasun realak. Adibidez, 18. hitzak izan beharko luke teorikoki ("on"):

10200/18 567 aldiz

nahizta datuetan agertú 643 aldiz

Orohar, atzo ikusitako maiztasun erlatibo metatuak ere mantentzen dira gainétikan euren ustezko teorikoak:

Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzke baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil.
Horrek guztiak sugeritzen digu banaketa real bat non maiztasun altuenak (konkretuki 5 maiztasun altuenak) dirén nabarmenki baxuagoak zein teorikoak, bitárten hortik aurrerakoak jotzen dute alde izán erlatiboki altuagoak zein teorikoak. Hortik espero geinké corpus horretako entropia reala (kalkulatua kin 10161 hitzak) izateá altuagoa zein bere entropia teorikoa (nolabait esán, banaketa realean maiztasunak erlatiboki "berdinagoak" baitira). [1330] [>>>]

osteguna, uztaila 22, 2021

Zénbat hitz ezberdin zeuden an azterketa e Dewey (1923)?

Atzo ikusten genuen nóla Shannon (1950) zén oinarritu an corpus linguistikoa ganik Dewey (1923) afin kalkulatu a entropia e ingles inprimatua, eta baita nóla Dewey-k jada postulatu zuén lehenengo hurbilketa bat ki erlazioa e Zipf (1949). Gaur interesatzen zaigu ezagutzea zénbat hitz ezberdin zeuden an lagin linguistikoa e Dewey, xedé konprobatu noráino bat datozen Dewey-k eta Zipf-ek emandako neurriak. Dewey-k (1923:6) emanen digu datu interesgarri hori: 10161 hitz ezberdin.

Beraz, baldin Zipf-en legea beteko balitz perfektuki arten 10161 hitz ezberdin horiek, izanen genuke ze a erlazioa arten hitz-kopuru totala eta maiztasun altuena izan beharko litzaké:

S10161 = sum(1/(1:10161))

9.803577

non hitz ezberdin guztien maiztasun erlatibo teorikoak batuta, aterako zaigú unitatea (ikus sarrera hau):

sum(1/(9.803577*(1:10161))) = 1

nondik kalkula geinké maiztasun erlatibo teorikoak korresponditzén ki edozein ordinalitate (esan nahi baita, korresponditén ki n-garren hitza an rankina e hitzak) baldin, diogunez, Zipf-en legea beteko balitz perfektuki. Adibidez, hitz erabilienari korrespondiko litzaioke 0.1020036 edo %10.2:

sum(1/(9.803577*(1:1)))

0.1020036

10. hitz erabilienari tokatuko litzaioké 0.2987653 edo %29.9

sum(1/(9.803577*(1:10)))

0.2987653

100. hitz erabilienari 0.5291311 edo %52.9

sum(1/(9.803577*(1:100)))

0.5291311

eta 1000.ari 0.7635449 edo %76.4:

sum(1/(9.803577*(1:1000)))

0.7635449

eta, 10000.ari 0.9983709 edo %99.9

sum(1/(9.803577*(1:10000)))

0.9983709

zein aski bat datoz kin Dewey-ren portzentajeak:

Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzke baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil. Dewey jada fijatua zen an proportzioak zein gero Zipf-ek sakonago aztertuko zituen. []

asteazkena, uztaila 21, 2021

Dewey-ren erlazioa artén hitz komunenak eta euren portzentajeak an ingles konektatua (1923)

Shannon-ek (an bere "Prediction an entropy of printed English", 1950) aipatzen ditú Dewey (1923) eta Zipf (1949) noiz kalkulatzen zénbat entropia duén ingles inprimatuak:

eta jada komentatua dugu Zipf-ek proposatutako erlazioa artén hitzen maizasuna eta euren ordinaltasuna an corpus linguistikoak, baina gaur komentatu nahi genuke nóla Dewey-k jada an 1923 proposatua zuén Zipf-en erlazio horren lehenengo hurbilketa interesgarri bat noiz propósatu ondorengo erlazioa artén hitz komunenak eta euren portzentajeak an ingles konektatua (1923:17):

Diogunez, hor daukagu lehenengo proposamen bat erlázionatuz corpus bateko hitzen maiztasunak eta euren ordinaltasunak, zein postulatzen den soilik an:

...any specimen of connected English sufficiently long to be fairly representativ... [Dewey, 1923]

Bai, Dewey-ren 1923ko erlazio hori postulatzen da an corpus zabalak on ingles konektatua. Zipf-ek (1949) erlazio hori gehiago zehaztu zuén eta bere aplikagarritasuna zabaldu zuen. [>>>]

asteartea, uztaila 20, 2021

Baldin Zipf-en legea betetzen bada, Shannon-en 0.1 proportzio hori teorikoki izanen dá 1/Sn (ez da izanen independentea ti "n")

Shannon-ek zioén hemen ze:

Baina, 0.1 hori (= .1 an Shannon-en artikulua) dá a proportzioa arten maiztasun handiena an corpusa eta hitz-kopuru totala (0.1 hori dago ki Sn = 10), alegia: 

(1/Sn) = (1/10) = 0.1

eta Zipf-en erlazioa betetzen delarik, proportzio hori (0.1 hori edo, berdin ere, Sn = 10 hori) egonen da an funtzioa e zénbat hitz ezberdin erabili diren an corpus hori (hots, an funtzioa e "n"). Esan nahi baita ze proportzio hori (0.1) ez da independentea ti "n", baizik ze atera beharko litzake ti:

(1/Sn) = 1/(sum(1/(1:n)))

halan-ze, horrela eginez, hitz guztien probabilitate agregatua izanen dá beti 1 (ezin liteke izán infinitu):

sum((1/Sn)/(1:n)) = sum(1/(sum(1/(1:n)))/(1:n)) = 1

Zehazki, proportzio hori 0.1 izateko, hitz ezberdinen kopurua ("n") teorikoki izan beharko litzaké 12367:

S<-function(n){sum(1/(1:n))-10}

uniroot(S, c(1,100000)) 

$root
[1] 12367 

Horrela, ondoko aipuko batukari hori:

izanen da justuki 1 noiz batuketa dén egiten ti 1 daino 12367 (horiek izanen liraké hitz guztiak, teorikoki):

(1/(sum(1/(1:12367)))) = 0.09999957 ≃ 0.1

Praktikan, kalkulatu beharko lirake hitz guztien probabilitate enpirikoak (zeinen batura derrigor izanen dén 1) eta hitz guztiak erabilí an konputoa e entropia, eta ez soilik lehenengo 8727 hitzak. Horrela, corpuseko hitz guztiak konsideratuz, entropia jaitsiko litzake teorikoki ti 11.82 dara 9.716223:

TEnt(12367)

9.716223

Baldin soilik 8727 hitz ezberdin erabili balira (Zipf-en legea perfektuki beteta), entropia litzaké 9.414066:

TEnt(8727)

9.414066

zein den are urrutiago ti 11.82 bitak per hitza zein Shannon-ek kalkulatu zituen baztértuz hainbat hitz ti bere kalkulua. []

astelehena, uztaila 19, 2021

Nóla aldatzen den entropia teorikoa an corpus linguistikoak artio 100000 hitz ezberdin

Sarrera honetan kalkulatu genuen a entropia teorikoa e bi corpus linguistiko non zeudén oso hitz ezberdin gutxi, bata kin n=2 (esan nahi baita, 2 hitz ezberdin):

TEnt(2)

0.9182958

eta bestea kin n=3 (esan nahi baita, 3 hitz ezberdin):

TEnt(3

1.435371

Baina, gauza da ze gure intereseko corpus linguistikoak dirá askoz zabalagoak zein 2 edo 3 hitz ezberdin, batez ere noiz nahi dugun kalkulatu a entropia e hizkuntza bat (adibidez, ingles idatzia). Kasu horietan, hitz ezberdinen kopurua oszila daitezke arten mila gutxi batzuk eta hamar mila batzuk, zein den tamaina askoz representagarriagoa.

Gure asmoa an sarrera hau dá aztertzea nóla aldatzen den entropia teorikoa noiz hitz ezberdinen kopurua mugitzen den arten 1 eta 100000 hitz diferente, adieráziz grafikoki ibilera hori bidéz ondorengo kodea an R:

plot(unlist(lapply(c(1:100000), FUN=TEnt)), type="l", xlab = "n", ylab = "TEnt(n)")

zek ematen digu honako grafikoa:

Hortxe ikus daikegu a entropia teorikoa an corpus linguistikoak artio 100000 hitz ezberdin, non:

TEnt(20000)

10.13008

eta

TEnt(100000)

11.4954

zein diren mugák zeinen artean aldatzen dén entropia teoriko hori noiz hitz ezberdinen kopurua mugitzen dén arten 20000 eta 100000 hitz ezberdin. Tarte horren zabalera dá:

11.4954 - 10.13008 = 1.36532

eta esan dugunez, soilik dependitzen da ti zénbat hitz ezberdin aurkitzen diren an corpusa ("n"). []

igandea, uztaila 18, 2021

Bai, naturaltasun osoz

Atzo aipatzen genuén ondorengo erabilera, zein iruditzen zitzaigun oso erakusgarria respektu naturaltasuna zeinekin agertzen zaigú "kin" soziatiboa:

Hona hemen, lehengo egunean hartutako beste adibide bat, non, modu divertigarri batean, agertzen zaigún "kin" soziatiboa:

Bai, naturaltasun osoz. []

larunbata, uztaila 17, 2021

'kin' ere, naturaltasun osoz

Sarrera honetan ikusi genuen nóla:
..., naturaltasun osoz agertzen zaigu "AN" baliabide prepositibo inesiboa an hurrengo erabilera:
eta, beste sarrera honetan.gauza berbera ikusten genuen, baina orain kin "tik" elatiboa 
Nola genioen hemen:
Báda halaber "Ti" aldaera zaharragoa eta sinpleagoa, eta baita "TIKAN" aldaera ere.
Orain gutxi, Euskaltel-en kanpaina publizitario batean, ikusten genuén beste erabilera hau, orobat oso interesgarria, non agertzen zaigu "kin" soziatiboa:

Bai, naturaltasun osoz. []

ostirala, uztaila 16, 2021

Fernández eta Ortiz de Urbina (2007): "... perpausari (...) nahitaeztoa zaiola subjektua."

Atzokoaren harira, esan geinke ze sujetuak jokatzen du paper berezi bat an esaldia:

  • diskursiboki thematikoa
  • posizionalki an aurreneko posizioa,
  • non prozesatzen den hobeki zein atzerago, orohar, 

Eta horretaz gainera, Fernández eta Ortiz de Urbinak dioskutenez (an euren "Hizkuntzari itzulia 80 hizkuntzatan", 2007:56):

  • ... perpausari (...) nahitaeztoa zaiola subjektua

Gaurkoan ekarri nahi genuke pare bat aipu ganik Fernández eta Ortiz de Urbina (2007) non aipatzen dute azken puntu hori. Aurrenekoan diote:

Kontuan izan, berez inflexio sintagma diogunean, perpausaz ari garela, garai batean genioen bezala, eta irakurleak badaki, hizkuntza senak hala esanda, perpausari —edo, nahiago bada, inflexio sintagmari— nahitaezkoa zaiola subjektua, ez dago-eta subjekturik ez duen perpausik inongo hizkuntzatan. Subjektua, hortaz, ezkerretara, hauxe da esandakoa laburbiltzeko leloa. [2007:56]

eta bigarrenean:

Bai, bai, badira pozik gaude edo llueve bezalakoak, ageriko subjekturik erakusten ez dutenak, baina horiexetan, subjektua ezkutuan edo inplizituki dagoela uste dugu hizkuntzalariok. Subjektua egon badago, ikusten ez badugu ere. [2007:62]

Bai sujetuak jokatzen du zinez paper diskursibo ondo berezia, zeren berari referitzen zaio geroko predikatuko informazio rhematiko guztia. []

osteguna, uztaila 15, 2021

Gure helburu funtzionaletarako, sujetua konsidera daiteké buru diskursiboa on esaldia (zeinen osagarri diskursiboa dén predikatua)

Atzokoan aipatzen genuen nóla estatistikak lagundu ahal digún azáltzen zergátik hitz-ordenak erakusten dituztén hain maiztasun diferenteak. Eta hor ere, estatistikak lagundu ahal digu argitzen realitate berez-aski-ezkutu eta iheskorrak zein geldi litezkén agerian noiz tratatu kopuru handiak, zeintan antzeman ohi dirén joera interesgarriak. Puntu honetaz, gogora daigun gure sarrera titúlatzen "Sujetu sintaktikoa da tipikoki thema diskursiboa eta agente semantikoa", non orobat mintzo ginén an termino estatistikoak:

Gure kasu honetan, eta zuk diozunez, sujetu gramatikala ez da beti izan behar thema edo/ta agentea, baina sujetua izaten dá húra zeintaz esaten dugun zerbait (esan nahi baita ze, maiz askoan sujetua izanen dá thema), eta predikatua izaten dá húra zein esaten dugun burúz sujetua (esan nahi baita ze, maiz askoan predikatua izaten da rhema).

Jakina, sujetua izan ahal dá thema edo rhema, agente semantikoa edo paziente semantikoa (edo eliptikoa), baina horrek ez digu ezkutatu behar ze existitzen dira korrelazio sendoak artén sujetu sintaktikoak eta thema diskursiboak edo/ta agente semantikoak (berriro diot: esaldi bakan batean diskutitu daiteke edozer, baina agregatuki argi dira ageri erlazio estu horiek, eta datu agregatuetan ikusten dirá tendentziak).

Jon Aske hizkuntzalari euskaldunak zioskun hemen:
There is a strong correlation between grammatical subject and topic, on the one hand and grammatical object (when there is one) and focus. Indeed, the category subject seems to be but the grammaticalization of the category topic (although not all subjects are topics, and some are indeed foci). [Jon Aske]
eta Comrie hizkuntzalariak hemen:
Las explicaciones para el predominio de los órdenes de palabras en los que el sujeto precede al objeto parecen tener base psicológica, de acuerdo con la preeminencia del agente en la posición agente-acción-paciente y la gran correlación entre el agente semántico y el sujeto sintáctico: ... [Comrie]
Aipatzen duzu, Patxi, Euskaltzaindiaren gramatika; eta Euskaltzaindiak berak sinatzen du ondorengoa (Euskal gramatika laburra: perpaus bakuna):
Gramatika egituraz eta mintzagai egituraz mintzatu gara. galdera hauxe da orain: ba ote da bi egitura horien artean nolabaiteko loturarik edo bakoitza bere aldetik ote dabil? Badirudi erantzuna baiezkoa dela, hots, nolabaiteko lotura badela. Oro har, mintzagai egituran ditugun mintzagaia eta iruzkina gramatika egiturako subjektua eta objektua-aditza osagaiekin bat datozelako. [Euskaltzaindia, "Euskal gramatika laburra: perpaus bakuna", 2002:29]

Eta justuki horrregatik, zatio bere izaera thematiko tipikoa, hizkuntza gehienek bukatzen dute jartzen sujetua aurré beste edozer an esaldi kanonikoak, eta orobat horregatixe azal daiteke zergátik...

...prozesamendu-lanetan ia aho batez onartzen dela subjektuak hasieran dituzten hurrenkerak prozesatzeko errazagoak direla" [Laka: ikus hemen]. 

Eta azpimarratu nahi genuke ze prozesamendu-lan horiek eragiten dituzté efektuak, zeinen azterketan estatistikak berriro jokatzen dú oinarrizko papera (ikus adibidez "[#3] Zero OSV hizkuntza an Tomlin (1986), esan nahi baita, bat ere ez"):

... ikusi dugu an [#1] nóla Lakak laburbiltzen zigun ze:

...  prozesamendu-lanetan ia aho batez onartzen dela subjektuak hasieran dituzten hurrenkerak prozesatzeko errazagoak direla hizkuntzan. [Laka]

eta an [#2] aurreko horren azalpen komunikatibo sendoa:

... izan ere, sujetua, baldintza orokorretan, gehientsuenetan izaten dá tematikoa (zehaztuz zértaz mintzo den), eta halako referentzia informatiboa, noiz behar den, komunikatiboki hobeki joango da hasieran zeinda ez beste edonon, nola an OSV. Honela genioen an "Buruz hizkuntzen garapen sintaktikoa" (2014:135):
.
Hortaz, bádirudi ze sujetuak nagusiki thematikoak izanki, hobeki prozesatzen dira an esaldi-hasiera (azpi baldintza orokorrak), halan ze erakusten duté oso joera sendoa aldé posizio aurreratuena an esaldia.

Izan ere, sujetuak jokatzen du paper berezia an esaldia, zeren:

  • izanki gehienetan diskursiboki thematikoa
  • posizionalki joaten da an aurreneko posizioa
  • non prozesatzen den hobeki zein atzerago, orohar,

Gainera, Fernández eta Ortiz de Urbinak dioskute ze ("Hizkuntzari itzulia 80 hizkuntzatan", 2007:56):

  • ... perpausari (...) nahitaeztoa zaiola subjektua.
Horregatik guztiagatik, esan geinke ze, gure helburu funtzionaletarako, sujetua konsidera daiteké esaldiko buru diskursibo tipikoa, zeinen osagarri diskursibo tipikoa izaten dén predikatua (azken horren barruan aditzak jokatuko du paper zentrala nola predikatuko buru diskursiboa). [>>>]

Etiketak: , ,

asteazkena, uztaila 14, 2021

Hurrengo galdera da: zergátik?

 Genioen hemen:

Eta linguistikan ere, eta hitz-ordenetan partikularzki, maiztasunak (eta ez soilik gaur egungo maiztasun estatikoak, baizik oso interesgarriki maiztasun evolutiboak ere) ez dira batere berdinak an ordena posible guztiak, nola espero geinken defektuz, baizik ondo ezberdinak.

Hortaz, demagun Greenberg-en 6 hitz-ordenak (SOV, SVO, VSO,VOS,OVS, OSV) ekiprobableki banatuta daudela arten munduko hizkuntzak. Orduan, munduko hizkuntza bat aleatorioki hartuta, sujetulehena izateko probabilitatea izanen litzaké heren bat, berdin nola aditzlehena izateko probabilitatea izanen litzakén beste heren bat eta objetulehena izatekoa azken herena, osátuz 1eko probailitatea.

Baina, noiz jotzen dugun ki evidentzia enpirikoa (adibidez, jarraiki Tomlin, 1986), ikusten dugu ze maiztasun estatikoak (ez gara sartuko orain an maiztasun dinamiko-evolutiboak) dirén hauek:

402 hizkuntza aztertuta, 348 sailkatu ziren nola sujetulehen, eta 54 nola ez-sujetulehen.

Zehazkiago, lagin horretako hizkuntzen %87 hasten da kin sujetua, bitarten %12 kin aditza eta %1 kin objetua.

Galdera da: hitz-ordenak ekiprobableak balira (defektuzko hipotesia), zéin izanen litzake probabilitatea e aurkitú 348 sintaxi sujetulehen (edo gehiago) arten 402 hizkuntza horiek zein Tomlin-ek aztertu zituen? Erábiliz R kode hau:

binom<-function(n){dbinom(n,402,(1/3))}

sum(unlist(lapply(348:402,binom)))

1.358833e-108

hau da 

0.00000 -komatik 107 zero artio lehenego 1a- 000001358833
esan nahi baita, edozein ikuspuntutik, biziki zaila. Jakina, hurrengo galdera da: zergátik? Zéri zor zaizkio nagusiki halako diferentzia handiak arten maiztasun horiek? []

asteartea, uztaila 13, 2021

Herenegungo eta atzoko kontrasteko zenbaki hori (0.05eko esangura-maila) jada agertua zen an beste sarrera batzuk

Herenegungo sarreran agertu zitzaigun 0.05eko esangura-maila (an kontextua on kontraste estatistiko bat), halan ze baldin gure kontrasteko p balioa bazen txikiago 0.05 atalase exigitu hori, orduan baztertu eginen genuén gure hipotesi nulua kin 0.05eko exigentzia-maila estandar hori (zeren gure evidentzia enpirikoa ez litzake aise konpatiblea kin gure hasierako hipotesia). Sarrera honetan, ordea, azpimarratu nahi genuen ze justuki 0.05 hori (esangura-maila hori) jada agertu zitzaigun noiz referitu ginen ki beste kontraste batzuk, adibidez an ondorengo sarrera (ikus irudiko biribil urdinak).

Hor reportatzen ari dira emaitzak on zenbait kontraste, non baztertu egiten dén hipotesi nulua zeren p balioa atera dén txikiago ze 0.05, horrela ondorioztatuz ze báda diferentzia esanguratsua artén aztertutako zenbait emaitza zein lortuak ziren konpáratuz SVO eta OVS an experimentu zehatz bat. Hór agertzen zitzaigun, beraz, aurreko postetan ikusitako zenbaki hori: 0.05eko esangura-maila. [1320] [>>>]

astelehena, uztaila 12, 2021

Berréginez atzoko testa kin beste agindu bat an R

Atzoko kontraste edo test hori orobat egin daiteke zuzenean an R bidéz komando hau:

binom.test(600,1000, p=0.5)

zeinen ostean agertuko zaigún ondoko erantzuna:

 non agertzen zaigun atzoko p-balioa:

p-value = 2.728e-10 = 0.0000000002728

eta non (defektuz) erábiliz 0.05eko esangura-maila, kalkulatu den ondorengo tartea non agertzen diren txanponaren probabilitateak (kasu regularrean probabilitate hori izanen zén p = 0.5) zein ez liraken baztertuko an testa:

(0 . 5688784, 0 . 6305310 )

Ikusten dugunez, 0.5 ez dago arten probabilitate ez-baztergarri horiek, halan ze gure hipotesi nulua (p = 0.5, txanpona regularra da) baztertuko dugu: evidentzia enpirikoak apuntatzen du ki irregulartasuna on txanpona.

Hor, beste modu batera (erábiliz konfiantza-tartea), egun dugú ber gauza (ber testa) zein egin genuen atzo. Esan nahi baita ze testaren emaitza dá exaktuki ber-bera zein konpáratuz p balioa eta 0.05, nola atzokoan. [1319] [>>>]

Etiketak:

igandea, uztaila 11, 2021

Atzokoan ia burutu genuén kontraste estatistiko bat

Aurreko bi sarreretan (hemen eta hemen) praktikoki burutua daukagu hipotesi-kontraste bat non kontrastatuko genuke ia txanpon bat regularra den ala ez den (hipotesi nulua deritzona izanen litzaké: txanpona regularra da; bitárten hipotesi alternatiboa izanen litzaké txanpona irregularra dela).

Txanponaren regulartasun hori kontrastatzeko, aurrena beharko genuke evidentzia enpiriko egokia nondik inferitu gure emaitzak eta konklusioa: kasu honetan 1000 botalditan atera zaizkigu 600 aurpegi. Ez da evidentzia makala.

Hurrengo pausua izan ahal da kalkulatzea noláko zaila izanen litzakén gutxienez lortzea 600 emaitza berdin (aurpegi edo gurutze) baldin txanpona regularra balitz. Zailtasun hori neurtzen da bidéz probabilitate bat, zein kasu honetan da atzoko 0.0000000002728464 (kasu honetan, ezagutzen dugu probabilitate-banaketa zehatza: banaketa binomiala). Aurreko probabilitate horri esaten zaio kontrastearen p-balioa.

Azkenik erabaki behar da ea lortutako probabilitate hori nahikoa baxua den ki baztértu (edo, bere kasuan, ez baztertu) gure abiapuntuko hipotesi hori: modu estandarrean konsideratzen da ze aurreko probabilitate hori balitz txikiago 0.05, orduan gure datu enpirikoak izanen liraké aski zailak, aski inprobableak azpi hipotesi nulua, halan ze abiapuntuko hipotesi hori baztertuko litzake. 0.05 horri esaten zaio kontrastearen esangura-maila (nolabaiteko exigentzia-maila, zein dependitu daiteke ti realitate konkretua zein aztertzen ari garen).

Gure kasu honetan daukagu ze:

p balioa = 0.0000000002728464 < 0.05 = esangura-maila
beraz, baztertuko genuke txanponaren regulartasuna kin 0.05eko exigentzia-maila estandarra. [1318] [>>>]

Etiketak: