Bai, hitzen aukera ondo ezberdina eta hitzen valorazio ondo ezberdina
Atzokoan genioen ze:
Zehazkiago, sintaxi buruazkenak bi modutara eragingo luke gain hitzen banaketa ezberdinak (zeinen mediana eta variantza baliatu baitira ki sortu hizkuntzen zorion-rankinak bidéz textu-analisi estatistikoa):
Esan nahi baita ze gakoa ez datza soilik an hitzen valorazio diferenteak ganik hiztunak, baizik ere an hitzen aukera bera, zein den diferentea, zio izán baldintzatua.1.: Alde batetik, sintaxi buruazkenak baldintzatuko luké erabilitako hitzen aukera bera (hitz-multzoa bera); esan nahi baitá ze sintaxi buruazkenaren inkoherentzia informatibo-expresiboak eragingo luké sortzea mezu sinpleagoak, baldintzatuagoak, gutxio elaboratuak, non hitzen aukera bera izanen zén gutxio zabala eta baita orohar gutxio expresiboa ere. Puntu horretaz, gogora gaitezen nóla blog honetan behin baino gehiagotan mintzatu garen burúz eragina on hitz-ordena buruazkena gain biraoak, txisteak, expresio idiomatikoak,... zein hizkuntza buruazkenetan izaten dirén gutxio elaboratuak eta baita gutxio erabiliak ere (zio izán gutxio eraginkorrak), bide horretatik baldintzatuz aukeratutako hitzen sorta bera.
2.: Beste alde batetik, aukeratutako hitzak eurak ere ez dira orohar izanen berdin efektiboak an hitz-ordena buruazkena respektu burulehena; esan nahi baita ze justuki gorago aipatutako inkoherentzia informatibo-expresibo horrek halaber baldintzatuko du aukeratutako hitzen eraginkortasuna eta distira, halan ze euren interpretazioa bihurtuko dá erlatiboki deskriptiboagoa, entonatiboki gutxio adaptatua ki egoera komunikatibo konkretuak, eta orohar erlatiboki gutxio eraginkorra, akaso bide horretatik sortuz erabilitako hitzen valorazio baxuagoak ganik hiztunak.
Bi puntu horiek datuekin sostengatzearren, ikustagun ondorengo grafikoa, non ardatz vertikalean agertzen dirén portugesaren hitz-valorazioak (3-an hasita eta 10-eraino), eta ardatz horizontalean koreeraren hitz-valorazioak (berdin ere, 3-an hasita eta 10-eraino: horrek esan nahi du ze behe-ezkerreko erpinean daukagú (3, 3) puntua, eta ez (0, 0) puntua). Bestalde guk jarritako diagonal gorriak markatzen ditú halako puntuak non bi koordenatuak dirén berdinak, nola (4, 4) edo (4.5, 4.5), esan nahi baita ze diagonaleko puntuetan bi hizkuntzetan egiten dirá ber valorazioak gain hitzak:
Gainera, gogora daigun ze, grafiko hori lortzeko, autoreek hizkuntza bakoitzean sortu duté 10000 hitzeko multzo bat, nahastuz hizkuntza bakoitzeko corpus partzialak honela (ikus #2861):
Hori kontuan hartuta, konparatuko ditugu portugesa eta koreera zeren:
1.: Alde batetik, bi hizkuntza horiek kontrako muturretan arkitzen dira an hizkuntzen zorion-rankina.
2.: Bestetik, bi hizkuntza horiek dauzkaté justuki bi oinarrizko corpus, eta akaso ez hain ezberdinak: Twiter eta Google Web Crawl an portugesa, eta Twiter eta Movie subtitles an korearra, nondik sortu dén 10000eko multzoa zein gero hiztunek valoratu duten. Horrekin saiatu gara maximotzen hitz-multzo handiaren homogeneitatea.
Konparazioa ez da perfektua, baina ez dirudi hain txarra ere. esan nahi baita ze, neurri batean bederen, onar daikegu. Eta behin hiztunek 10000 hitz horiek valoratuta, bi corpus horiek erakusten dituzté honako erlazio/efektu hauek:
1.: Lehen efektua: hitzen aukera bera ezberdina: Hizkuntza korearrak soilik konpartitzen ditú 783 hitz kin portugesa, alegia multzoko 10000 hitzetatik soilik 783 hitz dirá estableki itzulgarriak batetik bestera: translation-stable words). Konparaziorako, portugesak konpartitzen ditu 3592 hitz kin inglesa, eta 3273 kin gaztelania, edo 2189 kin hizkuntza indonesiarra. Hori litzateké goragoko lehen efektua: hitz-aukera ezberdina, sistematikoki ezberdinena respektu beste hizkuntza guztiak (saiatuko gara gehiago aztertzen puntu hau an hurrengo sarrerak, ikustearren zehazkiago zéin zentzutan desviatzen dén koreeraren hitz-multzoa).
2.: Bigarren efektua: hitzen valorazio ezberdina. Hitz guztiak kontuan hartuta, positiboak eta negatiboak, portugesean hitz bakoitza valoratzen dá batez beste +0.44 puntu gehiago zein koreeran. Baina, batezbesteko horietan sartuta daude hitz negatiboak ere, non portugesak esleitzen deutse puntuazio txikiagoak ki hitzak: ikus grafikoan nóla, goikaldean, puntu gehienak kokatzen dirá gain marra gorria, adieraziz ze hitz positiboak erlatiboki gehiago valoratzen dira an portugesa; eta behekaldean, puntu gehienak kokatzen dirá azpín marra gorria, adieraziz ze hitz negatiboak erlatiboki gutxiago valoratzen dira an portugesa.
Datu horiek sostengatu ahal dituzté, neurri batean bada ere, gure goragoko bi efektuok: hitzen aukera ondo ezberdina eta hitzen valorazio ondo ezberdina. [2866] [>>>]



0 Comments:
Argitaratu iruzkina
<< Home