Logotipo Hedatuz

Euskaraen sintaxi konputazionalerantz. Oinarrizko baliabideak eta beren aplikazioa aditzen azpikategorizazio-informazioaren erauzketan eta erroreen tratamenduan

Gojenola Gallatebeitia, Koldobika (2000) Euskaraen sintaxi konputazionalerantz. Oinarrizko baliabideak eta beren aplikazioa aditzen azpikategorizazio-informazioaren erauzketan eta erroreen tratamenduan. Other thesis, Universidad del País Vasco-Euskal Herriko Unibertsitatea.

Texto completo no está disponible desde este repositorio.

Abstract

Tesi honetan euskararen sintaxi konputazionalaren azterketa egin da, testu errealen tratamendurako baliabide linguistiko orokorrak garatu dira eta zenbait aplikazio inplementatu dira. Honekin esan nahi dugu gramatikak eta tresna informatikoak garatu direla euskaraz idatzitako testuetan hitz-formen eta osagai sintaktikoen analisiak emateko. Sintaxia oraingoz eremu zabalegia dela kontuan hartuta, lan honetan bere tratamenduaren aspektu batzuk baino ez dira landu, zenbait irizpideren arabera aukeratuta. Lana ikerketa-talde baten barruan kokatzen da, eta sintaxiaren deskribapenerako beste ikerketa-lanen testuinguruan kontsideratu behar da.

Hasteko, hitzaren barruko informazioa osatzeko hitzaren gramatika morfosintaktiko osoa garatu eta inplementatu da (II. kapitulua). Lehenago eginda zegoen hitzaren segmentazioaren bi mailatako deskribapenari gramatika hau gehituz euskararen morfologiaren tratamendu konputazional osoa biribildu egin da, corpusetako edozein hitzen analisia egiteko tresna lortuz.

Euskararen morfologia konplexua dela eta, analizatzaile morfologiko oso hau sintaxiaren tratamenduaren hasiera da, eta hitza edo osagai sintaktiko handiagoak unitatetzat hartzen dituen edozein prozesamendu motatan erabili beharreko tresna izango da. Beste alde batetik, analizatzaile morfologiko osoaren garapenak erakutsi digu formalismo ezberdinen konbinazioak abantailak dituela, formalismo bakoitzaren alde onenak har daitezkeelako.

Morfosintaxiaren kasuan bi mailatako formalismoa eta baterakuntza-gramatikak integratu dira osagarriak diren moduan, bukaeran sistema osoaren ahalmen deskriptiboa handituz eta testu errealak tratatzeko eraginkortasuna lortuz.

Morfosintaxiaren tratamenduaren ondoren sintaxiaren mundu zabalagoan sartu gara III. kapituluan. Hasteko, euskararen estaldura ertaineko baterakuntza-gramatika garatu eta dagokion analizatzailea inplementatu da.

Gramatika partziala da, baina corpusetan agertzen diren osagai sintaktiko nagusiak deskribatzen ditu (horien artean izen-sintagmak, adizlagunak, esaldi sinpleak eta menpeko esaldiak), eta horrela esaldien analisi sakon eta osorako lehen pausoa eman da. Analisi osoari ez ekiteko bi arrazoi aipatu dira. Batetik, oinarrian dugun datu-base lexikoaren erabilerak sendotasuna eta estaldura lexikal zabala eskaintzen duen arren, oraingoz informazio sintaktiko garrantzitsuen gabezia ere kontuan hartu behar izan dugula (aditzen azpikategorizazioari buruzkoa, adibidez). Bestetik, sintaxiaren eremu zabalak tesi honetan tratatzeko osagaiak mugatzera eraman gaituela. Une honetan, analizatzailea gai da corpus handiak modu eraginkorrean tratatzeko eta corpus horietatik osagai sintaktiko nagusiak ateratzeko.

Egoera finituko sintaxiaren bidetik, euskararen murriztapen-gramatikaren garapenean lan egin dugu, testuetako hitzen desanbiguazioa lortzeko. Gure ekarpen nagusia tratamendu informatikoan izan da. Beste hizkuntzetan lortutako emaitzekin konparagarria den desanbiguazio-tasa lortu dugu, euskara bezalako hizkuntzetarako formalismoaren egokitasuna frogatuz. Tresna erabilgarria lortu da, une honetan zenbait aplikaziotan erabiltzen ari dena.

Tresnaren erabilera nagusia testuetako anbiguotasunaren jaitsieran egin dugu, ondorengo prozesuetarako lana aurreratuz.

Murriztapen-gramatikaren mugak kontuan hartuta, egoera finituko beste formalismo orokorrago baten egokitasuna aztertu dugu. Formalismo honek adierazpen erregularren bidezko patroietan oinarritutako sintaxia garatzea ahalbidetzen du, patroiekin anbiguotasuna kentzeko murriztapenak, informazioaren iragazleak edo osagai sintaktiko berrien sorkuntza adierazteko. Egin ditugun zenbait lanetan formalismo honen baliagarritasuna frogatu dugu.

Sintaxiaren tratamendurako hiru hurbilpen horien azterketak aukera eman digu bakoitzaren alde onak eta arazoak esperimentatzeko. Horregatik hirurak konbinatzen dituen sistema integratua garatu dugu, bakoitzaren alde positiboak biltzeko asmoz. Hain zuzen ere, hiru tresnen aplikazio sekuentziala probatu eta inplementatu dugu. Murriztapen-gramatika desanbiguazio morfosintaktikorako erabiliko da lehen pauso batean, emaitza desanbiguatuaren gainean baterakuntzan oinarritutako gramatikaren bidez osagai sintaktiko posibleak eraikitzeko. Osagai sintaktikoen anbiguotasuna eta aplikazioen behar desberdinak tratatzeko egoera finituko tresnaren bidezko patroiak defini daitezke, bukaeran corpusen azterketarako tresna malgua eta sendoa lortuz.

Baliabide sintaktiko orokor horien garapena egin ondoren, beraien gaineko aplikazioak landu dira. IV. kapituluan ezagumendu lexikal eta sintaktikoaren aberasketan egindako esperimentuak azaldu dira, corpusetatik aditzaren azpikategorizazio-informazioaren erauzketan. Modu horretan, hasierako baliabide sintaktikoak osatu egin ahal izango dira, era iteratiboan: oinarrizko gramatikak erabiliz informazio linguistikoa atera daiteke gramatika horiek aberasteko, ondoren aberasketa-prozesua behin eta berriro errepikatzeko. Esperimentu horietan azaldu dugunez, emaitzak erabilgarriak dira, estaldura eta doitasun altuekin, eta beraien gainean aditzei buruzko informazioa eskuz edo modu automatikoen bidez atera ahal izango dugu. Beste alde batetik, esperimentu hauek oinarrizko baliabide sintaktikoen baliagarritasuna frogatzeko ere balio izan dute.

Garatu diren tresna sintaktikoen erabilera errore ortografiko eta sintaktikoen detekzio eta zuzenketan ere esperimentatu dugu V. kapituluan.

Lehenengo, euskarazko testuetako errore sintaktikoen sailkapena egin da, beste hizkuntzetan gertatzen direnekin konparatuz. Bigarren, baterakuntzan oinarritutako gramatikaren gaineko murriztapen sintaktikoen erlaxazio graduala probatu da komunztadurak eta antzeko erroreak detektatzeko, metodoaren bideragarritasuna frogatuz. Ondoren, errore-patroietan oinarritutako detekzioa probatu dugu, corpusetan aurkitutako daten adierazpenen erroreen gainean, baterakuntzan oinarritutako analizatzaile sintaktikoa eta egoera finituko patroiak konbinatuz. Bukatzeko, zuzenketa landu da, errore ortografikoen proposamen bakarra modu automatikoan lortzeko, eta zenbait ezagumendu motaren (sintaktikoa eta semantikoa) ekarpena neurtu da.

Erroreei buruzko kapitulu hau laburtzekotan, esan behar dugu frogatu dugula ezagutza-iturri ezberdinen ekarpenak gehituz gero lengoaiaren prozesamenduan edozein aplikazioren emaitzatan islatuko dela. Konbinazioak proposamen ezberdinen indarrak biltzeko ahalmena duela ikusi dugu.

Azkenik, VI. kapituluak beste bi aplikazio erakusten ditu, baliabide sintaktikoen malgutasun eta erabilpenaren adibidea emateko. Analisi morfosintaktikoa lematizatzaile/etiketatzaile batentzako oinarrizko baliabidea da, lema eta morfemen informazioetatik abiatuta hitz osoaren informazioa lortzeko. Bestalde, analizatzaile sintaktiko partziala tresna egokia da ikasleen testuetako egitura sintaktikoen erabilera aztertzeko.

Tesi honetan euskararen sintaxi konputazionalaren azterketa egin da, testu errealen azterketarako baliabide linguistiko orokorrak garatu dira eta zenbait aplikazio inplementatu dira.

Baliabide linguistiko orokor hauek landu dira:

@@ * Hitzaren barruko informazioa osatzeko hitzaren gramatika morfosintaktiko osoa garatu eta inplementatu da. Gramatikak esaldiaren mailako osagai nagusiak deskribatzen ditu, horien artean izen-sintagmak, adizlagunak, esaldi sinpleak eta mendeko esaldiak.

* Euskararen estaldura ertaineko baterakuntza-gramatika sintaktikoa garatu eta dagokion analizatzailea inplementatu da.

* Egoera finituko sintaxiaren bidetik, euskararen murriztapen-gramatikaren garapenean lan egin dugu, testuetako hitzen desanbiguazioa lortzeko.

* Adierazpen erregularren bidezko patroietan oinarritutako sintaxia ere landu da.

* Tresnak konbinatzen dituen sistema integratua garatu dugu. Baliabide sintaktiko orokor horien garapena egin ondoren, aplikazioak landu dira:

* Corpusetatik aditzaren azpikategorizazio-informazioaren erauzketa.

* Tresna sintaktikoen erabilera errore ortografiko eta sintaktikoen detekzio eta zuzenketan.

* Beste aplikazio batzuk

Item Type: Thesis (Other)
Subjects: Mathematics > Computer Sciences > Inteligencia artificial
Linguistics > Applied linguistics > Lingüística computacional
Divisions: UPV/EHU > Informática > Lenguajes y sistemas informáticos
Contributors:
ContributionNameEmail
DirectorKepa Sarasola Gabiola,
Date Deposited: 24 May 2010 17:00
Last Modified: 24 Aug 2010 13:16
URI: http://edtb.euskomedia.org/id/eprint/5779

Personal del repositorio solamente: página de control del documento

¹ Data hau katalogazio datuei dagokie, ez dokumentuari berari.