larunbata, uztaila 31, 2021

Gil (1998): "..., with OV languages being evolutionarily prior to VO languages with respect to word order typology."

Atzo Yamamoto-k aipatzen zuelarik Givón-en lana, nahiko genuke gaur gogoratu a sarrera titulatzén "XK5: Teoria gardena eta ebidentzia enpiriko sendoa bat-eginik", non, indirektoki bada ere, Givón-ek erantzuten dio ki ondorengo galdera e David Gil:

1998an David Gil hizkuntzalariak (erantzunez a bere kolega Bingfu Lu) zúen planteatzen honako gadera hau (ikus XK4):

First a question: Is it actually the case that there's more OV>VO than VO>OV among ATTESTED changes, or only amongst RECONSTRUCTED changes.
Eta Gil-ek berak zioskun zer beharko genukeen deduzitu baldin erantzuna balitz baiezko biribila (ikus Gil-en mezu osoa hemen):
... , if the former, then I see no way to avoid the conclusion that what we have here is a fascinating window into linguistic evolution, with OV languages being evolutionarily prior to VO languages with respect to word order typology.

(An inevitable disclaimer. To say that, say, OV Japanese is evolutionarily prior to, say, VO English with respect to word order typology is not to rule out the possibility that, say, OV Japanese might be more advanced evolutionarily than VO English with respect to other linguistic properties not correlated with word order. And needless to say, such claims say nothing about extra-linguistic matters.)

Gil-ek, esan bezala, zúen planteatzen hori-galdera an 1998. Eta 2005ean Tom Givón hizkuntzalariak (zein baita figura zentral bat an hizkuntzalaritza funtzionala) zioen (ikus Givón-en mezu osoa hemen):

1. Synchronic morphology is most often the best guide for reconstructing older syntax. There is not a single shred of evidence in Japanese morphology indicating anything but SOV syntax (see Givon 1971, 1979, 1983 ed., 2001, inter alia).

2. In general, SOV is the oldest attested word-order in human language. Most natural (non-contact induced) drift is, as far as I know, always away from SOV, not toward it (Givon 1979; Ruhlen & Gell-Man, forthcoming).
Honek du erakusten haruntzago ti edozein duda razonable ezen, afera honetan, bat datoz teoria gardena eta ebidentzia enpiriko sendoa. Hau da, ... I see no way to avoid the conclusion that...
Bai, oso-oso bát datoz. []

ostirala, uztaila 30, 2021

Yamamoto (2005): "... it seems most likely that human languages originally started with SOV basic word order ..."

Txopi-k atzo:

Badakigu beraz, nola izan ahal zen sintaxia on hizkuntzak an Neolitiko garaia.  [Txopi]

Horretaz ikus daigun ondorengo artikulua ganik Hideki Yamamoto (2005) titulatzén "A historical view on areal distribution of word order around the world", non dioskún:

When the distribution is considered from a historical point of view, however, it is very likely that most of the areas had been covered with (S)OV-type languages and that the areas of a VO type had been very restricted before many large language families expanded after the Neolithic age. [Yamamoto, 2005]

edo, aurrerago:

The present work does demonstrate and argue that SOV order is most likely to have covered most of the world as far as we go back to the past based on the studies of areal and genetic distribution of word order of the world's languages, but it does not necessarily argue that SOV was the earliest word order of human languages. If SOV order was predominant in most areas on the globe when we trace back to the past, however, there should be some reason for this and it seems most likely that human languages originally started with SOV basic word order unless there are good grounds for judging that languages developed SOV order from another order. The reason for this, however, should be found in studies of pidgin or creole languages and language typology rather than in the speculation made by Givón based on tbe observation of animal comunication or language acquisition.

Beraz, eta labúrbilduz:

... it seems most likely that human languages originally started with SOV basic word order unless there are good grounds for judging that languages developed SOV order from another order. [Yamamoto, 2005]
Horixe. []

osteguna, uztaila 29, 2021

Ezberdindu behar dirá, alde batetik, hizkuntzen sorrerako baldintza eta behar bereziak, eta bestetik, behar komunikatibo orokorrak

Hoeks-en atzoko laburpenaren harira (hurrengo postetan sakonduko dugu an Hoeks-en azterketa), gaurkoan gogoratu nahi genuke ondoko sarrerá publikatua azpi titulu hau:

zeinen textu osoa dén ondorengo hau:

Bádirudi ze hizkuntza (edo hizkuntzak) ezerezetik sortzean nagusitzen da ordena buruazkena (SOV pospositiboa, edo inkluso OVS pospositiboa) gain SVO burulehena. Horretarako batu egiten dirá gutxienez bi faktore (ikus ere "Evoluzio sintaktikoak dú bilatzen optimizazio (edo maximizazio) komunikatiboa"):

  • Alde batetik, sorrera horretan, aurrena sortuko zirén elementu konkretuagoak, seinalagarriagoak, objetibagarriagoak (nola objetuak, eta ez edozein objetu baizik soilik objetu konkretuak, seinalagarriak), zein izanen liraké nola oinarria zeinen gainean sortuko ziren elementu abstraktuagoak, eta horregatik zailagoak ki sortu ti ezereza
  • Bestetik, sorrera horretan komunikazioa litzaké oso kontextuala, askotan nahastua kin keinuak, halan ze mezuak ez lukete behar estrategia komunikatibo berezirik, esan nahi baita ze mezuak izanen ziren oso sinple, oso eliptiko, eta bereziki zentratuak an objetua (askotan ez zen besterik beharko, soilik objetua: beste guztia, nolabait, izanen zén haren osagarri opzionala, baldin behar bazen). 

Eta nahizta oinarrizko estrategia komunikatibo buruazken hori ez izán teknikoki potentea azpi baldintza orokorrak, sintaxi hori joan liteke osatzen eta finkatzen (ikus an "Sintaxigintzaren norabide komunikativoa", 2015:183-184):

Bai, zenbat-eta beranduago hasi hizkuntza bat ibiltzen bere bidea alde estruktura burulehenagoak, orduan-eta oztopo intralinguistiko eta extralinguistiko gehiago. Nahizta, bestalde, genioenez, egoera hori guztia alda daiteke baldin, behin arazoa ondo ulertuta, eginen balira ahalegin proaktiboak afin arindu oztopo horiek. []

Gradualdi, asmoz eta jakitez. []

Etiketak: ,

asteazkena, uztaila 28, 2021

Hoeks (2016): "... a general shift from SOV towards SVO in fully developed languages."

Gaurkoan aipatu nahiko genuke lan oso-oso-oso interesgarri bat idatzia ga Morwenna Hoeks (2016), non analisiaren zentruan jartzen baitira maiztasun evolutiboak e hitz-ordenak zehar mundua, esan nahi baita euren dimensio diakronikoa, dinamikoa, zein, bistan denez, dá berez zentrala an edozein analisi evolutibo-funtzional non bilatzen den aztertzea nóndik nora joaten diren sintaxiak, zéin baldintzetan eta zergátik. Honá lanaren titulua:

eta bere laburpen mamitsua:

An explanation for the observation that most languages nowadays exhibit an SOV or SVO word order is provided by suggesting that SOV and SVO can both be seen as advantageous, but from different perspectives and under different circumstances. There seems to be an asymmetry in the preference for SOV and SVO word orders in the sense that SOV word orders are mostly adopted in newly emerging languages, while there also has been a general shift from SOV towards SVO in fully developed languages. The main point of this paper is therefore that the change into SVO can be explained as driven by functional preferences that become more prominent when more complexity arises in languages that evolve over time, while the emergence of an SOV proto-language can be explained because SOV is more preferred when languages are still in a rudimentary state and no stable lexicon is available. [Hoeks, 2016]

Zinez, Hoeks-ek (ikus lan osoa hemen) du jotzen an puntu klave bat: maiztasun dinamikoak. []

Etiketak: ,

asteartea, uztaila 27, 2021

Bichakjian (2000): "... languages have been steadily replacing the ancestral implements with ever more advantageous altenatives (linguistically more powerful and biologically less costly)"

Bichakjian hizkuntalariak zioen an bere "Reply to Suddendorf on Bichakjian on Language-Complexity" (2000):

My target article, which showed that, ... languages have been steadily replacing the ancestral implements with ever more advantageous altenatives (linguistically more powerful and biologically less costly), provided data that clearly suggest there is no empirical support for the steady state conception, and that language evolution is a gradual process with roots going very far back in time. Indeed, just as industry started with primitive tools and weapons and steadily evolved into the sophisticated hardware available to us to day, so language began with an improvised set of features which consistently remodelled into ever more efficient instruments of thought and communication.[Bichakjian, 2000]
eta reférituz ki kontrastea arten sintaxi buruazkena eta sintaxi burulehena (zeini deitzen dión "the modern word order"), egiten ditú ondoko reflexioak (an bere artikulua titulatzén "Language evolution and the complexity criterion", 1999):

The modern word order has therefore a double advantage: in the first place, it allows for the coding and decoding of linguistic messages with a minimum of mental effort, since it taxes the working memory of speakers and listeners as little as possible; and, in the second place, because the processing of linguistic messages is facilitated, it makes it possible to conceive and express increasingly more complex thoughts. [Bichakjian, 1999]

Gauza da ze prozesu gradual horretan munduko mintzaira guztiak ez dutela iritsi ber estadioa simultaneoki (nola nahiago genuken), halan-ze gaur egun, suerte txarrez, existitzen dirá diferentzia ondo nabarmenak arten erraztasun komunikatiboak zein sintaxi ezberdinek eskaintzen dituzten. Eta soluzioa soilik datorke ti jarraitú bidea an norabide egokia artio iritsí estadio sintaktiko bat non diferentziak ez diren jada esanguratsuak (behar dirá aukera burulehen funtzionalak). Bichakjian-ek dioenez (ikus goragoko aipua):

Indeed, just as industry started with primitive tools and weapons and steadily evolved into the sophisticated hardware available to us to day, so ... [Bichakjian, 2000]
Edonola ere, esan behar da ze, teknologia linguistikoak bádu konponente ezberdin oso inportante bat respektu beste teknologia edo erreminta batzuk: konponente soziala, halan-ze bere evoluzioa ez da hain erraza, nahiz, nire ikuspegitik, ez den hain zaila ere, eta dudagabe, eman daitezke aurrerapusu oso errazak, emánez bide ki beste aurrerapusu batzuk ... (gradualki, asmoz eta jakitez). []

Etiketak: , ,

astelehena, uztaila 26, 2021

Txopi: "... ahal dugu konprobatu an modu praktikoa noiz ikusten dugun film japoniar bat, hizkuntza bat zurrunki regresivoa."

Txopik zioen atzo:

Lagunak on Balbula, nahi dut komentatu film bat zein nuen ikusi ostegunean Donostin. Film japoniarra da eta dute botatzen an bertsio originala; titulua da gazteleraz "La Mujer del Espía" ta dago oinarritua an istorio bat on bikote japoniar bat an urteak 1940-1945.

Dena dala, ez da nire asmoa hitz egitea buruz filma baizik ta buruz erabiltzen duten hizkuntza. Hasieratik du deitzen atentzioa zeren dira elkarrizketa oso xinpleak: esaldi bakun bat gehi esaldi bakun bat ta honelo aldiro. Tarteka dute sartzen esaldiren bat subordinatua baina oso gutxi ta gainera ez dakit zertaz, alegia zeren zegoen an jatorrizko bertsioa ala zeren zuten idatzi itzulpenean. Hau da nire ustez, azaldu zen esaldirik gehien zaila:

- ¿A qué debo el placer de tu visita?

Alegia, hemen tratatzen diren gaiak ez direla bakarrik teoria hutsa eta hau ahal dugu konprobatu an modu praktikoa noiz ikusten dugun film japoniar bat, hizkuntza bat zurrunki regresivoa. [Txopi]

Bai, dá teknologia sintaktiko bat zein ondo zetorren noiz hizkuntzak sortu ziren, noiz mezuak zirén oso kontextualak, noiz nahikoa zen esatea hitz bat (izen bat) afin uler zedin mezu osoa (aditza eta sujetua gehien-gehienetan kontextualak baitziren), noiz ez zen beharrezkoa diskurritzea gain ideiak zeren kontextuak azaltzen zuén ia dena, ia beti. Halako sintaxi buruazkena sortu zen naturalki ti (edo kin) keinuak (ezin kontextualagoak), eta hola, baliabide buruazkenak joan ziren garatuz naturalki gain oinarrizko OV estruktura hori, sórtuz baliabide buruazkenak an sintaxi buruazkena (OV kin postposizioak).

Baina, hizkuntza bat dá erraminta ikaragarri bat zeinen posibilitateak ez diren amaitzen kin mezu zuzen-labur-bapatekoak, eta, suerte onez, joango zen aurkitzen bidea ki bihurtu potenteagoa, emánez aukera komunikatibo aberatsagoak eta efektiboagoak azpi baldintza komunikatibo askoz orokorragoak. Eta ez gara orain mintzatzen gain lexiko zabalagoa (hori ere), baizik gain estruktura sintaktiko progresibo eta irekiagoak zein zúten ahalbidetzen komunikazio aberatsago, finago, erosoago eta, denaz gain, efektiboagoa.

Teknologia hori ez da inorena, dá humanoa, nola komunikazioa, eta dá hain gauza ona eta aberasgarria zein jendaki guztioi dagokigu saiatzea laguntzen adaptatzén posibilitate horiek ki munduko mintzaira guztiak (berdin nola zenbakiak, edo idazkera, edo ...), zeren horrela mintzaira horien hiztunak komunikatiboki hobeki biziko baitira. Horren alde jotzea dá jotzea alde garapen komunikatiboa, zein dén hain zentrala an bizitza humanoa ze konsidera daiteké garapen humanoa.

Ez, hau guztia ez da teoria hutsa: japonieraren erabiltzaileak komunikatiboki askoz hobeki biziko lirake baldin gradualki (asmoz eta jakitez) joango balira adaptatzen gerota aukera burulehen gehiago ki euren teknologia komunikatibo buruazkena. Horrela egongo lirake gutxio baldintzatuak an euren gauzapen komunikatiboa, eta izanen lirake gehio eurak. []

Etiketak:

igandea, uztaila 25, 2021

Textu bat (demagun novela bat) guztiz atzekoz aurrera idatziz gero, bere entropia ez litzake aldatuko

Baldin berridatziko bagenu novela bat (demagun Joyce-ren Ulisses-a bera), baina járriz hitzak guztiz alderantziz (esan nahi baita, hasiz tikan originaleko azken hitza eta bukatuz kin originaleko lehena), novela alderantzizkatu horren entropia ez litzake aldatuko, nahiz irakurleak ezin izanen luke interpretatu (prozesatu) bere edukia linealki, aurrerantza. 

Gainera, baldin irakurleak ahalko balu joan memorizatzén alderantzizko informazio guzti hori (milaka hitz horiek), ezin izanen luke ondo interpretatú  gordetako informazio hori artio jaso bukerako informazioa, non aurkitzen den oinarrizko informazioa zeintaz ari diren novelaren kontu guztiak (bukaerako informazio alderantzizkatu hori dá originaleko hasiera).

Areago, novelaren hitz berberak jarriko balira guztiz aleatorioki, textuaren entropia ez litzake horregatik aldatuko (zeren hitzen maiztasunak ez lirake aldatuko), nahiz interpretazioa izanen litzaké ezinezkoa. []

larunbata, uztaila 24, 2021

Zipf (1949): "... we shall present further rank-frequency distributions from samples of many other languages, ..."

Shannon-ek zioén hemen ze:

eta Zipf-ek an bere "Human Behavior And The Principle Of Least Effort" (1949:34): 

Esan nahi baita ze Zipf-en erlazioa arten hitzen frekuentziak eta euren ordinalitateak ez litzake soilik aplikagarria ki inglesa, baizik-ze oinarrituko litzake an indar komunikatibo orokorrak zeinen eragina izanen litzaké orokorki esanguratsua. []

ostirala, uztaila 23, 2021

Dewey-ren corpus linguistikoa: zabala (100000 hitz guztira) eta diversifikatua (idatzia, mintzatua eta inprimatua)

Atzoko sarreran irakurtzen genuen nóla Dewey-k bere azterketan erabili zuén corpus linguistiko bat kin 100000 hitz guztira, zeinen artean 10161 zirén diferenteak. Corpus horrek batzen zuén material diversifikatua, aterea ti garai hartako iturri idatziak, mintzatuak eta inprimatuak (1923:8):

Eta, nola ikusten genuen an sarrera titulatzén "Interpretátuz Sn an corpus bat non Zipf-en legea betetzen den perfektuki", baldin:

S10161 = 9.803577  eta hortaz, atzo genioenez, (1/S10161) = 0.1020036 edo %10.2:

orduan, guztira 100000 hitz izanda, maiztasun erabiliena izan beharko litzaké teorikoki:

100000*0.102003610200

nahizta, Dewey-ren datuetan, hitz erabiliena (zein dén "the" artikulu determinatua) soilik agertuko dá 7310 aldiz, zein den maiztasun aski baxuagoa:

2. hitz erabilienaren maiztasun teorikoa litzaké 1.aren erdia: 10200/2 = 5100, nahizta datuetan 2. hitz hori soilik agertú 3998 aldiz, markátuz hor ere diferentzia erlatiboki handia. Eta berdin gertatzen da kin maiztasunak korresponditzén ki 3., 4. eta 5. hitzei ere, nahiz distantziak ez diren hain nabarmenak. Gero 6. hitzetik aurrera, maiztasun teorikoetatik gora ibiltzen dirá maiztasun realak. Adibidez, 18. hitzak izan beharko luke teorikoki ("on"):

10200/18 567 aldiz

nahizta datuetan agertú 643 aldiz

Orohar, atzo ikusitako maiztasun erlatibo metatuak ere mantentzen dira gainétikan euren ustezko teorikoak:

Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzke baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil.
Horrek guztiak sugeritzen digu banaketa real bat non maiztasun altuenak (konkretuki 5 maiztasun altuenak) dirén nabarmenki baxuagoak zein teorikoak, bitárten hortik aurrerakoak jotzen dute alde izán erlatiboki altuagoak zein teorikoak. Hortik espero geinké corpus horretako entropia reala (kalkulatua kin 10161 hitzak) izateá altuagoa zein bere entropia teorikoa (nolabait esán, banaketa realean maiztasunak erlatiboki "berdinagoak" baitira). []

osteguna, uztaila 22, 2021

Zénbat hitz ezberdin zeuden an azterketa e Dewey (1923)?

Atzo ikusten genuen nóla Shannon (1950) zén oinarritu an corpus linguistikoa ganik Dewey (1923) afin kalkulatu a entropia e ingles inprimatua, eta baita nóla Dewey-k jada postulatu zuén lehenengo hurbilketa bat ki erlazioa e Zipf (1949). Gaur interesatzen zaigu ezagutzea zénbat hitz ezberdin zeuden an lagin linguistikoa e Dewey, xedé konprobatu noráino bat datozen Dewey-k eta Zipf-ek emandako neurriak. Dewey-k (1923:6) emanen digu datu interesgarri hori: 10161 hitz ezberdin.

Beraz, baldin Zipf-en legea beteko balitz perfektuki arten 10161 hitz ezberdin horiek, izanen genuke ze a erlazioa arten hitz-kopuru totala eta maiztasun altuena izan beharko litzaké:

S10161 = sum(1/(1:10161))

9.803577

non hitz ezberdin guztien maiztasun erlatibo teorikoak batuta, aterako zaigú unitatea (ikus sarrera hau):

sum(1/(9.803577*(1:10161))) = 1

nondik kalkula geinké maiztasun erlatibo teorikoak korresponditzén ki edozein ordinalitate (esan nahi baita, korresponditén ki n-garren hitza an rankina e hitzak) baldin, diogunez, Zipf-en legea beteko balitz perfektuki. Adibidez, hitz erabilienari korrespondiko litzaioke 0.1020036 edo %10.2:

sum(1/(9.803577*(1:1)))

0.1020036

10. hitz erabilienari tokatuko litzaioké 0.2987653 edo %29.9

sum(1/(9.803577*(1:10)))

0.2987653

100. hitz erabilienari 0.5291311 edo %52.9

sum(1/(9.803577*(1:100)))

0.5291311

eta 1000.ari 0.7635449 edo %76.4:

sum(1/(9.803577*(1:1000)))

0.7635449

eta, 10000.ari 0.9983709 edo %99.9

sum(1/(9.803577*(1:10000)))

0.9983709

zein aski bat datoz kin Dewey-ren portzentajeak:

Esan geinke ze Dewey-ren proportzioak (%25, %50 eta %75) ez dira bereziki urrun ti proportzioak zein lortuko genituzke baldin Zipf-en legea beteko balitz perfektuki (%29.0, %52.9 eta %76.4), baizik ondo alderantziz, interesgarriki hurbil. Dewey jada fijatua zen an proportzioak zein gero Zipf-ek sakonago aztertuko zituen. []

asteazkena, uztaila 21, 2021

Dewey-ren erlazioa arten hitz komunenak eta euren portzentajeak an ingles konektatua (1923)

Shannon-ek (an bere "Prediction an entropy of printed English", 1950) aipatzen ditú Dewey (1923) eta Zipf (1949) noiz kalkulatzen a entropia e ingles inprimatua:

eta jada komentatua dugú Zipf-ek proposatutako erlazioa arten hitzen maizasuna eta euren ordinaltasuna an corpus linguistikoak, baina gaur komentatu nahi genuke nóla Dewey-k jada an 1923 proposatua zuén Zipf-en erlazio horren lehenengo hurbilketa interesgarri bat noiz zuén proposatu ondorengo erlazioa arten hitz komunenak eta euren portzentajeak an ingles konektatua (1923:17):

Diogunez, hor daukagu lehenengo proposamen bat erlázionatuz corpus bateko hitzen maiztasunak eta euren ordinaltasunak, zein postulatzen den soilik an:

...any specimen of connected English sufficiently long to be fairly representativ... [Dewey, 1923]

Bai, Dewey-ren 1923ko erlazio hori postulatzen da an corpus zabalak e ingles konektatua. Zipf-ek (1949) erlazio hori gehiago zehaztu zuén eta bere aplikagarritasuna zabaldu zuen. []

asteartea, uztaila 20, 2021

Baldin Zipf-en legea betetzen bada, Shannon-en 0.1 proportzio hori teorikoki izanen dá 1/Sn (ez da izanen independentea ti "n")

Shannon-ek zioén hemen ze:

Baina, 0.1 hori (= .1 an Shannon-en artikulua) dá a proportzioa arten maiztasun handiena an corpusa eta hitz-kopuru totala (0.1 hori dago ki Sn = 10), alegia: 

(1/Sn) = (1/10) = 0.1

eta Zipf-en erlazioa betetzen delarik, proportzio hori (0.1 hori edo, berdin ere, Sn = 10 hori) egonen da an funtzioa e zénbat hitz ezberdin erabili diren an corpus hori (hots, an funtzioa e "n"). Esan nahi baita ze proportzio hori (0.1) ez da independentea ti "n", baizik ze atera beharko litzake ti:

(1/Sn) = 1/(sum(1/(1:n)))

halan-ze, horrela eginez, hitz guztien probabilitate agregatua izanen dá beti 1 (ezin liteke izán infinitu):

sum((1/Sn)/(1:n)) = sum(1/(sum(1/(1:n)))/(1:n)) = 1

Zehazki, proportzio hori 0.1 izateko, hitz ezberdinen kopurua ("n") teorikoki izan beharko litzaké 12367:

S<-function(n){sum(1/(1:n))-10}

uniroot(S, c(1,100000)) 

$root
[1] 12367 

Horrela, ondoko aipuko batukari hori:

izanen da justuki 1 noiz batuketa dén egiten ti 1 daino 12367 (horiek izanen liraké hitz guztiak, teorikoki):

(1/(sum(1/(1:12367)))) = 0.09999957 ≃ 0.1

Praktikan, kalkulatu beharko lirake hitz guztien probabilitate enpirikoak (zeinen batura derrigor izanen dén 1) eta hitz guztiak erabilí an konputoa e entropia, eta ez soilik lehenengo 8727 hitzak. Horrela, corpuseko hitz guztiak konsideratuz, entropia jaitsiko litzake teorikoki ti 11.82 dara 9.716223:

TEnt(12367)

9.716223

Baldin soilik 8727 hitz ezberdin erabili balira (Zipf-en legea perfektuki beteta), entropia litzaké 9.414066:

TEnt(8727)

9.414066

zein den are urrutiago ti 11.82 bitak per hitza zein Shannon-ek kalkulatu zituen baztértuz hainbat hitz ti bere kalkulua. []

astelehena, uztaila 19, 2021

Nóla aldatzen den entropia teorikoa an corpus linguistikoak artio 100000 hitz ezberdin

Sarrera honetan kalkulatu genuen a entropia teorikoa e bi corpus linguistiko non zeudén oso hitz ezberdin gutxi, bata kin n=2 (esan nahi baita, 2 hitz ezberdin):

TEnt(2)

0.9182958

eta bestea kin n=3 (esan nahi baita, 3 hitz ezberdin):

TEnt(3

1.435371

Baina, gauza da ze gure intereseko corpus linguistikoak dirá askoz zabalagoak zein 2 edo 3 hitz ezberdin, batez ere noiz nahi dugun kalkulatu a entropia e hizkuntza bat (adibidez, ingles idatzia). Kasu horietan, hitz ezberdinen kopurua oszila daitezke arten mila gutxi batzuk eta hamar mila batzuk, zein den tamaina askoz representagarriagoa.

Gure asmoa an sarrera hau dá aztertzea nóla aldatzen den entropia teorikoa noiz hitz ezberdinen kopurua mugitzen den arten 1 eta 100000 hitz diferente, adieráziz grafikoki ibilera hori bidéz ondorengo kodea an R:

plot(unlist(lapply(c(1:100000), FUN=TEnt)), type="l", xlab = "n", ylab = "TEnt(n)")

zek ematen digu honako grafikoa:

Hortxe ikus daikegu a entropia teorikoa an corpus linguistikoak artio 100000 hitz ezberdin, non:

TEnt(20000)

10.13008

eta

TEnt(100000)

11.4954

zein diren mugák zeinen artean aldatzen dén entropia teoriko hori noiz hitz ezberdinen kopurua mugitzen dén arten 20000 eta 100000 hitz ezberdin. Tarte horren zabalera dá:

11.4954 - 10.13008 = 1.36532

eta esan dugunez, soilik dependitzen da ti zénbat hitz ezberdin aurkitzen diren an corpusa ("n"). []

igandea, uztaila 18, 2021

Bai, naturaltasun osoz

Atzo aipatzen genuén ondorengo erabilera, zein iruditzen zitzaigun oso erakusgarria respektu naturaltasuna zeinekin agertzen zaigú "kin" soziatiboa:

Hona hemen, lehengo egunean hartutako beste adibide bat, non, modu divertigarri batean, agertzen zaigún "kin" soziatiboa:

Bai, naturaltasun osoz. []

larunbata, uztaila 17, 2021

'kin' ere, naturaltasun osoz

Sarrera honetan ikusi genuen nóla:
..., naturaltasun osoz agertzen zaigu "AN" baliabide prepositibo inesiboa an hurrengo erabilera:
eta, beste sarrera honetan.gauza berbera ikusten genuen, baina orain kin "tik" elatiboa 
Nola genioen hemen:
Báda halaber "Ti" aldaera zaharragoa eta sinpleagoa, eta baita "TIKAN" aldaera ere.
Orain gutxi, Euskaltel-en kanpaina publizitario batean, ikusten genuén beste erabilera hau, orobat oso interesgarria, non agertzen zaigu "kin" soziatiboa:

Bai, naturaltasun osoz. []

ostirala, uztaila 16, 2021

Fernández eta Ortiz de Urbina (2007): "... perpausari (...) nahitaeztoa zaiola subjektua."

Atzokoaren harira, esan geinke ze sujetuak jokatzen du paper berezi bat an esaldia:

  • diskursiboki thematikoa
  • posizionalki an aurreneko posizioa,
  • non prozesatzen den hobeki zein atzerago, orohar, 

Eta horretaz gainera, Fernández eta Ortiz de Urbinak dioskutenez (an euren "Hizkuntzari itzulia 80 hizkuntzatan", 2007:56):

  • ... perpausari (...) nahitaeztoa zaiola subjektua

Gaurkoan ekarri nahi genuke pare bat aipu ganik Fernández eta Ortiz de Urbina (2007) non aipatzen dute azken puntu hori. Aurrenekoan diote:

Kontuan izan, berez inflexio sintagma diogunean, perpausaz ari garela, garai batean genioen bezala, eta irakurleak badaki, hizkuntza senak hala esanda, perpausari —edo, nahiago bada, inflexio sintagmari— nahitaezkoa zaiola subjektua, ez dago-eta subjekturik ez duen perpausik inongo hizkuntzatan. Subjektua, hortaz, ezkerretara, hauxe da esandakoa laburbiltzeko leloa. [2007:56]

eta bigarrenean:

Bai, bai, badira pozik gaude edo llueve bezalakoak, ageriko subjekturik erakusten ez dutenak, baina horiexetan, subjektua ezkutuan edo inplizituki dagoela uste dugu hizkuntzalariok. Subjektua egon badago, ikusten ez badugu ere. [2007:62]

Bai sujetuak jokatzen du zinez paper diskursibo ondo berezia, zeren berari referitzen zaio geroko predikatuko informazio rhematiko guztia. []

osteguna, uztaila 15, 2021

Gure helburu funtzionaletarako, sujetua konsidera daiteke buru diskursiboa e esaldia (zeinen osagarri diskursiboa dén predikatua)

Atzokoan aipatzen genuen nóla estatistikak lagundu ahal digún erakusten nóla saiatu behar garen explikatzen zergátik hitz-ordenak erakusten dituztén hain maiztasun diferenteak. Eta hor ere, estatistikak ahal digu lagundu argitzén realitate berez-aski-ezkutu eta iheskorrak zein geldi litezke agerian noiz tratatu kopuru handiak, non antzeman daitezke joera interesgarriak. Puntu honetaz, gogora daigun a sarrera titulatzén "Sujetu sintaktikoa da tipikoki tema diskursiboa eta ajente semantikoa", non orobat mintzo da an termino estatistikoak:

Gure kasu honetan, zuk diozunez, sujetu gramatikala ez da beti izan behar tema edo/ta ajentea, baina sujetua izaten da húra zeintaz esaten dugun zerbait (esan nahi baita ze, maiz askoan sujetua izaten da thema), eta predikatua izaten da húra zein dugun esaten burúz sujetua (esan nahi baita ze, maiz askoan predikatua izaten da rhema).

Jakina, sujetua ahal da izán thema edo rhema, ajente semantikoa edo paziente semantikoa (edo eliptikoa), baina horrek ez digu ezkutatu behar ze existitzen dira korrelazio sendoak artén sujetu sintaktikoak eta tema diskursiboak edo/ta ajente semantikoak (berriro diot: esaldi bakan batean diskutitu daiteke edozer, baina agregatuki argi dira ageri erlazio estu horiek, eta datu agregatuetan ikusten dira tendentziak).

Jon Aske hizkuntzalari euskaldunak zioskun hemen:
There is a strong correlation between grammatical subject and topic, on the one hand and grammatical object (when there is one) and focus. Indeed, the category subject seems to be but the grammaticalization of the category topic (although not all subjects are topics, and some are indeed foci). [Jon Aske]
eta Comrie hizkuntzalariak hemen:
Las explicaciones para el predominio de los órdenes de palabras en los que el sujeto precede al objeto parecen tener base psicológica, de acuerdo con la preeminencia del agente en la posición agente-acción-paciente y la gran correlación entre el agente semántico y el sujeto sintáctico: ... [Comrie]
Aipatzen duzu, Patxi, Euskaltzaindiaren gramatika; eta Euskaltzaindiak berak sinatzen du ondorengoa (Euskal gramatika laburra: perpaus bakuna):
Gramatika egituraz eta mintzagai egituraz mintzatu gara. galdera hauxe da orain: ba ote da bi egitura horien artean nolabaiteko loturarik edo bakoitza bere aldetik ote dabil? Badirudi erantzuna baiezkoa dela, hots, nolabaiteko lotura badela. Oro har, mintzagai egituran ditugun mintzagaia eta iruzkina gramatika egiturako subjektua eta objektua-aditza osagaiekin bat datozelako. [Euskaltzaindia, Euskal gramatika laburra: perpaus bakuna, 29 or.]

Eta justuki horrregatik, zatio bere izaera tematiko tipikoa, hizkuntza gehienek bukatzen dute jartzen sujetua aurré beste edozer an esaldi kanonikoak, eta orobat horregatixe azal daiteke errazki zergátik "prozesamendu-lanetan ia aho batez onartzen dela subjektuak hasieran dituzten hurrenkerak prozesatzeko errazagoak direla" (Laka: ikus hemen). Eta azpimarratu nahi genuke ze prozesamendu-lan horietan egiten dírá experimentuak non berriro estatistikak (eta, zehazki, bere hipotesi-kontrasteak) jokatzen du oinarrizko papera ("[#3] Zero OSV hizkuntza an Tomlin (1986), esan nahi baita, bat ere ez"):

... ikusi dugu an [#1] nóla Lakak laburbiltzen zigun ze:

...  prozesamendu-lanetan ia aho batez onartzen dela subjektuak hasieran dituzten hurrenkerak prozesatzeko errazagoak direla hizkuntzan. [Laka]

eta an [#2] aurreko horren azalpen komunikatibo sendoa:

... izan ere, sujetua, baldintza orokorretan, gehientsuenetan izaten dá tematikoa (zehaztuz zértaz mintzo den), eta halako referentzia informatiboa, noiz behar den, komunikatiboki hobeki joango da hasieran zeinda ez beste edonon, nola an OSV. Honela genioen an "Buruz hizkuntzen garapen sintaktikoa" (2014:135):
.
Hortaz, bádirudi ze sujetuak nagusiki thematikoak izanki, hobeki prozesatzen dira an hasiera e esaldia (azpi baldintza orokorrak), hain hobeki ze erakusten duté oso joera sendoa aldé posizio aurreratuena an esaldia: aurreneko posizioa.

Esan nahi baita ze sujetuak jokatzen du paper berezia an esaldia, zeren:

  • izanki gehienetan diskursiboki thematikoa
  • posizionalki joaten da an aurreneko posizioa
  • non prozesatzen den hobeki zein atzerago, orohar,

Gainera, Fernández eta Ortiz de Urbinak dioskutenez (an euren "Hizkuntzari itzulia 80 hizkuntzatan", 2007:56):

  • ... perpausari (...) nahitaeztoa zaiola subjektua.
Horregatik guztiagatik, esan geinke ze, gure helburu funtzionaletarako, sujetua konsidera daiteké esaldiko buru diskursibo tipikoa, zeinen osagarri diskursibo tipikoa izaten dén predikatua (azken horren barruan aditzak jokatuko du paper zentrala nola predikatuko buru diskursiboa). []

Etiketak: , ,

asteazkena, uztaila 14, 2021

Hurrengo galdera da: zergátik?

 Genioen hemen:

Eta linguistikan ere, eta hitz-ordenetan partikularzki, maiztasunak (eta ez soilik gaur egungo maiztasun estatikoak, baizik oso interesgarriki maiztasun evolutiboak ere) ez dira batere berdinak an ordena posible guztiak, nola espero geinken defektuz, baizik ondo ezberdinak.

Hortaz, demagun Greenberg-en 6 hitz-ordenak (SOV, SVO, VSO,VOS,OVS, OSV) ekiprobableki banatuta daudela arten munduko hizkuntzak. Orduan, munduko hizkuntza bat aleatorioki hartuta, sujetulehena izateko probabilitatea izanen litzaké heren bat, berdin nola aditzlehena izateko probabilitatea izanen litzakén beste heren bat eta objetulehena izatekoa azken herena, osátuz 1eko probailitatea.

Baina, noiz jotzen dugun ki evidentzia enpirikoa (adibidez, jarraiki Tomlin, 1986), ikusten dugu ze maiztasun estatikoak (ez gara sartuko orain an maiztasun dinamiko-evolutiboak) dirén hauek:

402 hizkuntza aztertuta, 348 sailkatu ziren nola sujetulehen, eta 54 nola ez-sujetulehen.

Zehazkiago, lagin horretako hizkuntzen %87 hasten da kin sujetua, bitarten %12 kin aditza eta %1 kin objetua.

Galdera da: hitz-ordenak ekiprobableak balira (defektuzko hipotesia), zéin izanen litzake probabilitatea e aurkitú 348 sintaxi sujetulehen (edo gehiago) arten 402 hizkuntza horiek zein Tomlin-ek aztertu zituen? Erábiliz R kode hau:

binom<-function(n){dbinom(n,402,(1/3))}

sum(unlist(lapply(348:402,binom)))

1.358833e-108

hau da 

0.00000 -komatik 107 zero artio lehenego 1a- 000001358833
esan nahi baita, edozein ikuspuntutik, biziki zaila. Jakina, hurrengo galdera da: zergátik? Zéri zor zaizkio nagusiki halako diferentzia handiak arten maiztasun horiek? []

asteartea, uztaila 13, 2021

Herenegungo eta atzoko kontrasteko zenbaki hori (0.05eko esangura-maila) jada agertua zen an beste sarrera batzuk

Herenegungo sarreran agertu zitzaigun 0.05eko esangura-maila (an kontextua e kontraste estatistiko bat), halan-ze baldin gure kontrasteko p balioa bazen txikiago 0.05 atalase exigitu hori, orduan baztertu eginen genuén gure hipotesi nulua kin 0.05eko exigentzia-maila estandar hori (zeren gure evidentzia enpirikoa ez litzake aise konpatiblea kin gure hasierako hipotesia). Sarrera honetan, ordea, azpimarratu nahi genuen ze justuki 0.05 hori (esangura-maila hori) jada agertu zitzaigun noiz referitu ginen ki beste kontraste batzuk, adibidez an ondorengo sarrera (ikus irudiko biribil urdinak).

Hor reportatzen ari dira emaitzak e zenbait kontraste, non baztertu egiten da hipotesi nulua zeren p balioa atera da txikiago 0.05, horrela konkluituz ze báda diferentzia nabarmena arten zenbait emaitza zein lortu diren konpáratuz SVO eta OVS an experimentu zehatz bat. Hór agertzen zitzaigun, beraz, aurreko postetan ikusitako zenbaki hori: 0.05eko esangura-maila. []

astelehena, uztaila 12, 2021

Berréginez atzoko testa kin beste agindu bat an R

Atzoko kontraste edo test hori orobat egin daiteke zuzenean an R bidéz komando hau:

binom.test(600,1000, p=0.5)

zeinen ostean agertuko zaigú ondoko erantzuna:

 non agertzen zaigun atzoko p-balioa:

p-value = 2.728e-10 = 0.0000000002728

eta non (defektuz) erábiliz 0.05eko esangura-maila, kalkulatu den ondorengo tartea non  agertzen diren txanponaren probabilitateak (kasu regularrean probabilitate hori izanen zén p = 0.5) zein ez liraken baztertuko an testa:

(0 . 5688784, 0 . 6305310 )

Ikusten dugunez, 0.5 ez dago arten probabilitate ez-baztergarri horiek, halan-ze gure hipotesi nulua (p = 0.5, txanpona regularra da) baztertuko dugu: evidentzia enpirikoak apuntatzen du ki irregulartasuna e txanpona.

Hor, beste modu batera (erábiliz konfiantza-tartea), egun dugú ber gauza (ber testa) zein egin genuen atzo. Esan nahi baita ze testaren emaitza dá exaktuki ber-bera zein konpáratuz p balioa eta 0.05, nola atzokoan. []

igandea, uztaila 11, 2021

Atzokoan ia burutu genuén kontraste estatistiko bat

Aurreko bi sarreretan (hemen eta hemen) praktikoki burutua daukagu hipotesi-kontraste bat non kontrastatuko genuke ia txanpon bat regularra den ala ez den (hipotesi nulua deritzona izanen litzaké: txanpona regularra da; bitárten hipotesi alternatiboa izanen litzaké txanpona irregularra dela).

Txanponaren regulartasun hori kontrastatzeko, aurrena beharko genuke evidentzia enpiriko egokia nondik inferitu gure emaitzak eta konklusioa: kasu honetan 1000 botalditan atera zaizkigu 600 aurpegi. Ez da evidentzia makala.

Hurrengo pausua izan ahal da kalkulatzea noláko zaila izanen litzakén gutxienez lortzea 600 emaitza berdin (aurpegi edo gurutze) baldin txanpona regularra balitz. Zailtasun hori neurtzen da bidéz probabilitate bat, zein kasu honetan da atzoko 0.0000000002728464 (kasu honetan, ezagutzen dugu probabilitate-banaketa zehatza: banaketa binomiala). Aurreko probabilitate horri esaten zaio kontrastearen p-balioa.

Azkenik erabaki behar da ea lortutako probabilitate hori nahikoa baxua den ki baztértu (edo, bere kasuan, ez baztertu) gure abiapuntuko hipotesi hori: modu estandarrean konsideratzen da ze aurreko probabilitate hori balitz txikiago 0.05, orduan gure datu enpirikoak izanen liraké aski zailak, aski inprobableak azpi hipotesi nulua, halan-ze abiapuntuko hipotesi hori baztertuko litzake. 0.05 horri esaten zaio kontrastearen esangura-maila (nolabaiteko exigentzia-maila, zein dependitu daiteke ti realitate konkretua zein aztertzen ari garen).

Gure kasu honetan daukagu ze:

p balioa = 0.0000000002728464 < 0.05 = esangura-maila
beraz, baztertuko genuke txanponaren regulartasuna kin 0.05eko exigentzia-maila estandarra. []

larunbata, uztaila 10, 2021

Kalkula daikegú, txanpon regular bat 1000 alditan botata, zéin izanen den probabilitatea e lortú gutxienez 600 emaitza berdin (0.0000000002728464)

Genioén atzo:

Adibide bat: txanpon bat ikusita, akaso ez diogu antzemanen batere irregulartasunik (defektuz, espero geinke txanpon hori regularra izatea), baina 1000 aldiz botata, ateratzen badira 600 aurpegi aurka 400 gurutze, izanen dugú evidentzia ondo sendoa aldéz irregulartasuna e txanpon hori (gauza da ze oso-oso zaila da halako emaitzak lortzea baldin txanpona regularra bada). Hortik aurrera hasi beharko ginake kolokan jartzen gure hasierako hipotesia (regulartasuna) eta hasi pentsatzen ze akaso txanpon hori ez da hain regularra nola uste genuen.

Atzoko "oso-oso zaila" kuantifikatzeko, kalkula daikegú, txanpon regular bat 1000 alditan botata, zéin izanen den probabilitatea e lortu gutxienez 600 emaitza berdin (aurpegi edo gurutze) bidéz honako operazioak an R:

1.: Ez gara sartuko gehiegi an detaileak, baina soilik esan ze kasu honetan ezagutzen dugu zéin den banaketa zehatza zeini egokitzen zaizkien emaitzak e txanpon regular bat noiz dén botatzen hainbat alditan: dá banaketa binomial bat, eta ondoko aginduan sortzen ari gara halako funtzio bat kin 1000 errepikapen ekiprobable (0.5):

binom<-function(n){dbinom(n,1000,0.5)}

2.: Behin aurreko funtzioa definituta, batu eginen ditugu probabilitateak e agertú 600 edo gehio aurpegi, eta probabilitateak e agertú 600 edo gehio gurutze (bi kasu horietan dauzkagu 600 edo gehio emaitza berdin), horregatik egiten dugú bider 2:

2*(sum(unlist(lapply(600:1000,binom))))

2.728464e-10

Alegia, probabilitate hori dá 0.0000000002728464, oso-oso txikia. Bai, atzo genioenez, oso-oso zaila da lortzén horrenbeste emaitza berdin, baldin txanpona regularra bada.

[OHARRA: Ikus probabilitateá ezen aurpegien (edo gurutzen) kopurua egon dadin bitarte 450 eta 550:

sum(unlist(lapply(450:550,binom)))

0.9986083

zein jada den oso hurbil ti 1]

[]

ostirala, uztaila 09, 2021

Oso-oso zaila da halako emaitzak lortzea baldin txanpona regularra bada

Txopik amaitzen zuén bere hemengo komentarioa honela (ikus atzokoa eta herenegungoa ere):

Baldin eta estadistikak ahal du lagudu neurtzen hori efektivitate, ongi etorria, hori da hain zuzen behar duguna. Nago nazkatua kin hainbesteko zuzentasun, zuzentasun antzua. [Txopi]

Genioen an "Sujetu sintaktikoa da tipikoki tema diskursiboa eta ajente semantikoa":

Estatistikak askotan bistaratzen dizkigu realitateak (azpiko tendentziak) zein, bestela, nekez ikusiko genituzkeen. Esaldi baten gainean diskutigarria datekeen hori ahal dá bihurtu aski klaru noiz dugun aztertzen realitate hori berbera azpi argi potentea hon datu agregatuak, esan nahi baita kopuru handiak.

Zientzia sozialetan (eta hortxe da hizkuntzalaritza), estatistika dá lehio inportante bat nondik ikuskatzen ahal dugun abantailatsuki realitate soziala, askotan konplexua. Zeren, nahiz kasu kokretuetan edozer-ere izan daitekén aski eztabaidagarri, erlatibo edo kasual, ez da hala gertatzen noiz kontsideratzén kopuru handiak, non regularitateak dirá retratatuko antzera nola erábiliz X-izpi sozialak.

Adibide bat: txanpon bat ikusita, akaso ez diogu antzemanen batere irregulartasunik (defektuz, espero geinke txanpon hori regularra izatea), baina 1000 aldiz botata, ateratzen badira 600 aurpegi aurka 400 gurutze, izanen dugú evidentzia ondo sendoa aldéz irregulartasuna e txanpon hori (gauza da ze oso-oso zaila da halako emaitzak lortzea baldin txanpona regularra bada). Hortik aurrera hasi beharko ginake kolokan jartzen gure hasierako hipotesia (regulartasuna) eta hasi pentsatzen ze akaso txanpon hori ez da hain regularra nola uste genuen.

Eta linguistikan ere, eta hitz-ordenetan partikularzki, maiztasunak (eta ez soilik gaur egungo maiztasun estatikoak, baizik oso interesgarriki maiztasun evolutiboak ere) ez dira batere berdinak an ordena posible guztiak, nola espero geinken defektuz, baizik ondo ezberdinak. []

Etiketak: ,