balbula: Lan horretan (Dodds, Clark, Desu eta Danforth, 2015), hizkuntza korearra da sintaxi SOV buruazken zurrun bakarra

Atzokoan aipatzen genuén ikerketa bat (textu-analisia: Dodds, Clark, Desu eta Danforth-ek, 2015) non aztertzen zirén, besteak beste, Twitter-eko corpus batzuk an 8 hizkuntza (English, Spanish, French, German, Portuguese, Korean, Russian, and Indonesian). Hautatu genituen Twitter-eko corpusak ustez ze halako textuak izanen zirén konparagarriagoak zein, adibidez, liburuetako textuak (inportantea da maximotzea konparagarritasuna on emaitzak).

Hitzak emozionalki valoratzearren, eta nahirik bateratu hizkuntza bakoitzeko hitz-multzo guztiak (Twiter-ekoa eta hizkuntza bakoitzeko besteak batera), autoreek (2015) hizkuntzaz hizkuntza sortu zutén 10000 hitzeko hitz-multzo orokor bat, nahastuz hizkuntza bakoitzeko corpus partzialak honela:

Hau da. erabiliz azpimultzo bakoitzeko erabilera-ordenak (maiztasunen ordinala, euren rank) ki sartu (edo ez) hitz bakoitza an hitz-multzoa zein valoratuko zen.

Jarraian, hizkuntza ezberdinetako hiztunek banan banan valoratu zutén 10000 hitz horiek eurengan sortutako positibitatea-zoriontasuna, neutralitatea, edo negatibitate-tristezia, zehaztuz puntuazio batzuk tikan 1 (negatibitate-tristezia maximoa) ki 9 (positibitate-zoriontasun maximoa):

We then paid native speakers to rate how they felt in response to individual words on a nine-point scale, with 1 corresponding to most negative or saddest, 5 to neutral, and 9 to most positive or happiest. [Dodds, Clark, Desu eta Danforth, 2015]

Eta bildutako datuekin, atzo genioenez, autoreek finean konsideratu zituztén corpus bakoitzeko 5000 hitz erabilienak eta euren valorazioak arrén lortu atzoko grafikoak. Han, marra gorri batez markatzen zén banaketaren mediana, nahirik adierazi banaketen joera zentrala. Mediana horiekin, autoreek osatu zutén nolabaiteko zoriontasun-rankin bat, zein, Twitter-en kasuan, izanen litzakén hau:

Spanish > Portuguese > English > German > Russian > French > Indonesian > Korean

eta non azken postuko hizkuntza korearra dén justuki sintaxi SOV buruazken zurrun bakarra, bitárten lehenengo posizioetako hizkuntzak dirén SVO burulehenak.

Hala ere, esan behar dugu ze mediana soila (ezta ere batezbesteko soila) ez da izaten nahikoa ki atera konklusio ondo informatu bat. Harago, beharko genuke aztértu, gutxienez, banaketa horien dispersioa eta baita haien itxura (adibidez simetria edo asimetria), esan nahi baita ze aztertu beharko genuke mediana horren bi aldeetara zér gertatzen ari den, nolákoak diren banaketa horiek.

Zorionez, autoreek eskaintzen deuskué (singularra eta plurala) banaketen grafiko batzuk (atzokoan ikusi genituen) non jada intuitu ahal dirén diferentzia handiak tarten gorago postuetako banaketak eta azken postuko banaketa:

Bistan da, kontua ez da ze hizkuntza korearraren mediana baxuagoa dela zio haren banaketa guztia izán (nolabait esan) osoki trasladatua ki ezkerreko aldea (mantenduz goragokoen antzeko dispersioa eta itxura), baizik ze, oso bestela, korear banaketa aurkitzen dugú askoz trinkotuagoa, konparatua kin portugesarena edo gaztelaniarena, biak askoz zabalagoak, hala goiko aldetik (zorionaren aldetik) nola behekotik ere (zoritxarraren aldetik), hirurak ere aski simetrikoak izanik.

Beste sarrera batean saiatuko gara interpretatzen emaitza horiek. Momentuz, eta gaurkoa amaitzeko, esán ze artikuluaren autoreek kalkulatu deuskué banaketa ezberdinen variantzak (zein dén dispersio-neurri bat), lortuz beste rankin linguistiko bat, zein ikusiko dugún bihar. [2861] [>>>]

Etiketak: rankinak, tarten

balbula

astelehena, iraila 29, 2025

Lan horretan (Dodds, Clark, Desu eta Danforth, 2015), hizkuntza korearra da sintaxi SOV buruazken zurrun bakarra

0 Comments:

Niri buruz

Previous Posts