asteartea, iraila 30, 2025

Dodds, Clark, Desu eta Danforth (2015): "The same average happiness distributions shown in Fig. 1 (herenegungoa) re-ordered by increasing variance."

Atzokoan amaitzen genuen esanez ze...

... artikuluaren autoreek kalkulatu deuskué banaketa ezberdinen variantzak (zein dén dispersio-neurri bat), lortuz beste rankin linguistiko bat, zein ikusiko dugún bihar.

eta hortxe doakizue bigarren rankin hori, non hizkuntza ezberdinetako corpusak ordenatzen diren aráuz euren banaketen variantza: lehenengoa variantza handienekoa (Portugese: Twitter) eta azkena variantza txikienekoa (Russian Google Books):

The same average happiness distributions shown in Fig. 1 (herenegungoa) re-ordered by increasing variance. Yellow indicates above neutral (havg = 5) , blue below neutral, red vertical lines mark each distribution's median, and the gray background lines connect the deciles of adjacent distributions. [Dodds, Clark, Desu eta Danforth, 2015]

Kontua da ze, adibidez  bi corpus horiek (aipatutako lehena eta azkena: Twitter portuguss eta Google liburu rusiarrak) ez zaizkigu iruditzen corpus bereziki konparagarriak, halan ze nahiago izan dugu egin azpi-rankin bat soilik kin Twitter guztiak (hantxe non bádauden Twitter corpusak), zein diren honako 8 hauek, ordenaturik aráuz euren banaketaren variantza:

Portuguese > Spanish > English French > Indonesian > Russian > German  > Korean

non berriro agertzen zaigún hizkuntza korearra an azken posizioa (alegia, sintaxi SOV buruazken bakarra) eta sintaxi oso progresiboak an lehenengo posizioak. Bihar mintzatuko gara gain autoreen interpretazioa gain emaitza horiek. [2862] [>>>]

Etiketak:

astelehena, iraila 29, 2025

Lan horretan (Dodds, Clark, Desu eta Danforth, 2015), hizkuntza korearra da sintaxi SOV buruazken zurrun bakarra

Atzokoan aipatzen genuén ikerketa bat (textu-analisia: Dodds, Clark, Desu eta Danforth-ek, 2015) non aztertzen zirén, besteak beste, Twitter-eko corpus batzuk an 8 hizkuntza (English, Spanish, French, German, Portuguese, Korean, Russian, and Indonesian). Hautatu genituen Twitter-eko corpusak ustez ze halako textuak izanen zirén konparagarriagoak zein, adibidez, liburuetako textuak (inportantea da maximotzea konparagarritasuna on emaitzak).

Hitzak emozionalki valoratzearren, eta nahirik bateratu hizkuntza bakoitzeko hitz-multzo guztiak (Twiter-ekoa eta hizkuntza bakoitzeko besteak batera), autoreek (2015) hizkuntzaz hizkuntza sortu zutén 10000 hitzeko hitz-multzo orokor bat, nahastuz hizkuntza bakoitzeko corpus partzialak honela:

Hau da. erabiliz azpimultzo bakoitzeko erabilera-ordenak (maiztasunen ordinala, euren rank) ki sartu (edo ez) hitz bakoitza an hitz-multzoa zein valoratuko zen.

Jarraian, hizkuntza ezberdinetako hiztunek banan banan valoratu zutén 10000 hitz horiek eurengan sortutako positibitatea-zoriontasuna, neutralitatea, edo negatibitate-tristezia, zehaztuz puntuazio batzuk tikan 1 (negatibitate-tristezia maximoa) ki 9 (positibitate-zoriontasun maximoa):

We then paid native speakers to rate how they felt in response to individual words on a nine-point scale, with 1 corresponding to most negative or saddest, 5 to neutral, and 9 to most positive or happiest. [Dodds, Clark, Desu eta Danforth, 2015]

Eta bildutako datuekin, atzo genioenez, autoreek finean konsideratu zituztén corpus bakoitzeko 5000 hitz erabilienak eta euren valorazioak arrén lortu atzoko grafikoak. Han, marra gorri batez markatzen zén banaketaren mediana, nahirik adierazi banaketen joera zentrala. Mediana horiekin, autoreek osatu zutén nolabaiteko zoriontasun-rankin bat, zein, Twitter-en kasuan, izanen litzakén hau:

Spanish > PortugueseEnglish > German > Russian > French > Indonesian > Korean

eta non azken postuko hizkuntza korearra dén justuki sintaxi SOV buruazken zurrun bakarra, bitárten lehenengo posizioetako hizkuntzak dirén SVO burulehenak

Hala ere, esan behar dugu ze mediana soila (ezta ere batezbesteko soila) ez da izaten nahikoa ki atera konklusio ondo informatu bat. Harago, beharko genuke aztértu, gutxienez, banaketa horien dispersioa eta baita haien itxura (adibidez simetria edo asimetria), esan nahi baita ze aztertu beharko genuke mediana horren bi aldeetara zér gertatzen ari den, nolákoak diren banaketa horiek

Zorionez, autoreek eskaintzen deuskué (singularra eta plurala) banaketen grafiko batzuk (atzokoan ikusi genituen) non jada intuitu ahal dirén diferentzia handiak tarten gorago postuetako banaketak eta azken postuko banaketa:


Bistan da, kontua ez da ze hizkuntza korearraren mediana baxuagoa dela zio haren banaketa guztia izán (nolabait esan) osoki trasladatua ki ezkerreko aldea (mantenduz goragokoen antzeko dispersioa eta itxura), baizik ze, oso bestela, korear banaketa aurkitzen dugú askoz trinkotuagoa, konparatua kin portugesarena edo gaztelaniarena, biak askoz zabalagoak, hala goiko aldetik (zorionaren aldetik) nola behekotik ere (zoritxarraren aldetik), hirurak ere aski simetrikoak izanik.

Beste sarrera batean saiatuko gara interpretatzen emaitza horiek. Momentuz, eta gaurkoa amaitzeko, esán ze artikuluaren autoreek kalkulatu deuskué banaketa ezberdinen variantzak (zein dén dispersio-neurri bat), lortuz beste rankin linguistiko bat, zein ikusiko dugún bihar. [2861] [>>>]

Etiketak: ,