Ingurune-adimena edonondik, edozein hizkuntzatan, edonoiz, edonork bere kondizioetara egokituta, bere esanahirik zabalenean, edozein informazio-iturri atzitzeko aukera izango duen munduaren ikuspegia da. Halaber, pertsonek beren informazioa sistemetara transmiti dezakete kondizio berdinetan. Mundu hori uler daiteke erabiltzailea inguratzen duen elkarrekin konektatutako milaka sistema kapsulatuk osatutako sare banatu erraldoi baten modura, eta, informazio-sistema osagarrien (jakintza) laguntzarekin, erabiltzailearen informazio-, komunikazio-, nabigazio- eta entretenimendu-beharrak betetzen dituena.
Kontzeptu horretan sartzen dira euskarazko ahozko elkarrekintza bermatzera bideratutako ikerketa- eta garapen-jarduera guztiak.
Ahotsa sintetizatzeko sistema aurreratuak
Ahotsa sintetizatzeko sistema aurreratuen azken helburua da edozein pertsonen estilo, aldarte, doinu edo beste ezaugarri bat adierazteko gai diren ahots naturalak lortzea. Aplikazio horiek erabiltzen dira adibidez, doinu jakin batez adierazten edo emozio jakin batekin hitz egiten duten izaera birtualak sortzean, hizkuntza askotan hitz egiteko gai den ahots korporatibo bakarra sortzean eta ahotsa-ahotsa itzulpenean, non itzulitako ahots sintetikoak jatorrizko hizlariaren ezaugarriak erreproduzituko bailituzke. Kontuan hartzeko beste alderdi garrantzitsu bat da komunikazio-prozesuan erabiltzen den hizkuntza. Gero eta gehiagotan behar dira hizkuntza bat baino gehiago gailuetara eta sistematara sartzeko. Bereziki garrantzitsua da hori hizkuntza ofizial bat baino gehiago dauden eremu geografikoetan. Helburu horiek lortzeko, teknika berriak garatuko dira prosodia sortzeko eta ingurune eleanitzean ahotsa sortzeko.
Ahotsa ezagutzea
Ahotsa ezagutzeko sistemak hiztunak erabilitako fonemak identifikatzen saiatzen dira. Identifikatutako fonemen multzoari esker hitzak ezagutuko dira.
Bestalde, fonemak identifikatzeko prozesua oso konplexua da, eta prozesu horren mekanismoak ez dira argi identifikatu. Hori dela eta, teknika batzuk sortu dira sare neuronaletan, entzumen-pertzepzioan edo patroietan oinarrituta, ahotsa jasotzen eta katalogatzen nolabait ikasi ahal izateko.
Ahots bidezko identifikazio biometrikoa
Azken garaietan, oso ezagunak egin dira urruneko transakzioak erabiltzen dituzten sistema asko; esaterako, Internet bidezko erosketa, web-ean oinarritutako banku-transakzioak edo urruneko ordenagailuetako eremu seguruetarako sarbide mugatua. Sistema horiek guztiek erabiltzailearen nortasuna ziurtatuko duen kautotze-sistema bat behar dute. Pasahitzetan oinarritutako kautotzea erabiltzen dute askok, baina pasahitz horiek ahaztu edo lapurtu egin daitezke. Gaur egun, aukerarik onena kautotze biometrikoa da, ezaugarri biometrikoak ezin baitira ez ahaztu ez lapurtu, eta imitatzen oso zailak baitira. Ezaugarri biometriko erabilienetako bat ahotsa izan daiteke, ez baita intrusiboa. Gainera, ahotsa kodetu egin daiteke eta erraz transmiti daiteke hainbat komunikazio-sareren bitartez.
ANHITZen helburuek definitutako testuinguruan, testuan oinarritutako interfazeen alorreko ikerketan euskarazko edukien esanahia interpretatzeko gai diren sistema adimendunen garapena eta hizkuntzen arteko itzulpen automatikoko sistemen garapena lantzen dira.
Teknologia linguistikoen gaur egungo aplikazioak honela sailkatzen dira:
Erabiltzaile-interfazeak funtsezko blokea dira Ingurune Adimeneko ikuspegian, pertsonak bere ingurunearekin izango duen esperientzia zehazten baitute.
Bestetik, interfazea ere ahots eta keinu bidez erabiltzailearekin komunikatu ahal izateko, giza portaera hori simulatzeko gai diren osagaiak sartu behar dira sisteman, esaterako, laguntzaile birtual antropomorfoak, edo avatarrak, eta ahotsa sintetizatzeko euskarazko sistema bat.
Euskaraz hitz egiteko eta hainbat tamaina eta ahalmenetako gailuetan gorputz-keinuak erreproduzitzeko gai den hiru dimentsioko avatar bat diseinatzeko eta garatzeko, aurpegi- eta gorputz-animazioko egungo teknikak asko aztertu behar dira. Gainera, ezpainen animazioa ahotsa sintetizatzeko euskarazko sistemarekin sinkronizatuz gero, asko hobetzen dira egun euskaraz dauden erabiltzaile-interfazeak.
Lengoaia-sistema baten osagaiak jakintza-aplikazio izeneko askotan kapsulatuta egon daitezke; hau da, adimen linguistikoren bat erabiliz informazioa prozesatzen duten produktu eta zerbitzuetan.
Gaur egun, badira sistemak pertsona baten eta gailu baten arteko elkarreragina lengoaia naturalean eta naturaltasun dezentez gauzatzen dutenak.
Ahots eta irudi bidezko elkarrekintza
Gero eta ohikoagoa da hitzak ulertzeko edo sortzeko gai diren programak topatzea.
Ordenagailuetara ahozko hizkuntza bidez sartzean hainbat teknologia eta aplikazio erabiltzen dira, irudian ikus daitekeen bezala.
Testu bidezko elkarrekintza
Ingelesez modu librean idatziz erabiltzailea programa batekin komunikatzen den aplikazioen 13 demo jasotzen ditu hizkuntzalaritza konputazionaleko demoen orriak (www.ifi.unizh.ch/CL/InteractiveCLtools/index.php):
Bereziki aipatzekoak dira Interneteko ASKJeeves bilatzailea –gaztelaniarako beta bertsioa ere badu– eta START sistema (start.csail.mit.edu), geografiari, filmei, arteari, historiari, pertsonei, hiztegiko definizioei eta beste hainbat gairi buruz ingelesez egindako milioika galderei erantzuten diena. Halaber aipatzekoa da MSWord-en laguntzailea bera erabiltzaileak lengoaia naturalean egindako galderei erantzuten saiatzen dela.
Tradizionalki, jakintzan oinarritutako sistemetan eskatutako informazioa eskuz eskuratu eta kudeatu da dagokion alorreko adituekin. Horrek kostu handia du. Hori kontuan hartuta, azken hamarkadan, prozesu horiek ahalik eta bizkorren eta zehatzen automatizatzeko beharra nabaritu da.
Informazio-erauzketa
80ko hamarkadaren hasieran, testuan oinarritutako sistema adimendunak erabiltzen hasi ziren, dokumentuak manipulatuz nahi den informazioa automatikoki eskuratzeko asmoz. Dokumentu horiek nahiko egituratuak izaten dira modu automatizatuak erabiltzeko sortzen direnean. Hori dela eta, haietatik informazioa erauzteko prozesua nahiko zuzena da. Bestalde, batzuetan dokumentuak pertsonek erabiltzeko egiten dira eta ez dute egitura espliziturik izat. Izan ere, lengoaia natural ez-mugatuan oinarritzen dira, eta ondorioz, informazioa erauzteko prozesurako hizkuntza-ezagutza handia izan behar da. Informazioa berreskuratzeko lanetan ez bezala (IR) –garrantzitsuak izan daitezkeen dokumentuen zerrenda bat berreskuratzen da [Bae99]– beste dokumentu horien eduki garrantzitsua kontsulta baten bitartez (normalean gako hitzen zerrenda bat) aurkitu eta erauzi behar da testutik.
Informazioa berreskuratzea (RI) eta erantzunak bilatzea (BR)
Informazioa berreskuratzeko alorrean (Information Retrieval, IR) kontsultak prozesatzen dira eta kontsulta horretarako garrantzitsuak diren dokumentuak itzultzen dira (Baeza-Yates, Ribeiro-Neto, 1999). Gaur egun, bilaketa-motorrak dokumentu-zerrenda ordenatuak eraginkortasunez itzultzeko gai dira.
Testuinguru horretan, interes handia piztu du dokumentuen ordez erantzun motz eta zehatzak itzultzeko aukerak. Erantzunak bilatzeko sistemen helburua da (Question Answering, QA) informazioa berreskuratzea, ez dokumentuak. Sistema horiek lengoaia naturalean egindako galdera baten erantzunak aurkitu eta identifikatu nahi dituzte, bai webean, bai dokumentuen tokiko bilduma batean.
Informazio eleaniztuna erauztea eta erantzun eleaniztunak bilatzea
EI MultiLingüe sistemak (Cross Lingual Information Retrieval, CLIR) eta BR MultiLingüe sistemak (Cross Lingual Question Answering CLQA) informazioa berreskuratzen saiatzen dira, nahiz eta galderak (edo kontsultak) hizkuntza batean egin eta erantzunak beste hizkuntza batean idatzitako dokumentuetan aurkitu.
Informazioa berreskuratzera eta kudeatzera aplikatutako web semantikoen teknologiak
Azken urteotako aurrerapen teknologikoak eta sozioekonomikoak informazioa kudeatzea eta atzitzea oinarrizko faktore arrakastatsua den testuinguru batean gertatu dira. Sortzen ari diren web semantikoko teknologiak (ontologiak editatzeko hizkuntzak eta tresnak, inferentzia-motorrak, web semantikoko zerbitzuak...) konponbide berriak ematen ari dira; hain zuzen ere, gailuen arteko elkarreraginkortasun adimenduna erraztuko duten eta erabiltzailearekin elkarreraginean eta bilatzen aritzeko sistema tradizionalak –esanahia kontuan izaten ez dutenak– baino aurreratuagoak diren mekanismoak sortzeko konponbideak. Web semantikoko oinarriak dira informazioa irudikatzeko formatua (XML, normalean), jakintzarako formatua (RDF, OWL), eta URI izeneko entitateak identifikatzeko eta aurkitzeko mekanismoa.
Itzulpen-sistema gehienak Estatu Batuetan eta Japonian sortu dira, baina Europan ere badaude produktu ezagunak: Comprendium eta T1 (Sail Labs), Personal Translator PT (Linguatec), iTranslator series (hasieran, Lernout & Hauspie, gero, Mendez), Reverso (Softissimo). Hizkuntza txikiagoentzat ere garatu dira sistemak: PeTra (italiera eta ingelesa), Al-Nakil (arabiera, frantsesa eta ingelesa), Winger (daniera, frantsesa eta gaztelania ingelesarekin), PARS (errusiera eta ukrainera ingelesarekin), edo TranSmart (finlandiera-ingelesa).
Kode irekiko itzulpen automatikoko sistemak
Gure "bizitza errealeko" itzulpen-sistemetarako ia software guztia, kosturik gabe erabiltzeko moduan badago ere, kode itxikoa da eta ez kode irekikoa. Kode irekiko itzulpen automatikoko sistemak ezartzeko hainbat ahalegin egin dira, esaterako, GPLTrans (www.translator.cx), Traduki (traduki.sourceforge.net), OTELO (www.otelo.lu), Linguaphile (linguaphile.sourceforge.net) eta berriagoak, OpenLogos LOGOSen kode irekiko bertsioa eta OPENTRAD (www.opentrad.com). Azken horretan oinarrituta dago gure OpenMT proiektua.
Itzulpen automatikoko sistema hibridoak
Tradizionalki, arauetan oinarritutako itzulpen automatikoko sistemek (RBMT) hizkuntza-arauen multzo bat hiru fasetan –analisia, transferentzia eta sorkuntza– aplikatuz funtzionatzen dute. 80ko hamarkadaren amaiera geroztik corpusean oinarritutako teknika berriak aztertzeko interes handia dago – testuen analisi estatistikoa (lerrokatzea, etab.), EBM, SMT– eta gaur egun, arau linguistikoak eta corpusean oinarritutako metodoak konbinatzen dituzten sistema hibridoetara bideratu da ikerkuntza.
EBMT eta SMT dira eredu nagusiak corpusean oinarritutako itzulpen automatikoaren barruan. Beren itzulpenekin lerrokatutako esaldi-multzo bat behar dute biek.
Itzulpen-memoriak
Itzulpen-memoriek datu-base batean gordetzen dituzte testu itzuliak. Hala, itzulpen berri batekin hastean, sistemak memorian bilatzen du. Sistemak (bilaketa positiboa izan bada) aurkitutako testu-zatiak proposatzen ditu eta, ondoren, itzultzaileak itzulpena hautatzen edo txukuntzen du. Itzulpen-memorietan, ezinbestekoa da corpus lerrokatuak kudeatzea, eta horiei testu paralelo deitzen zaie.
Itzulpen-sistemetan ahotsa ezagutzeko sistemak sartzea
Alor horretan, bi proiektu garrantzitsu aipatu behar dira: C-STAR eta Verbmobil. Japoniako ATR ikerketa-zentroak, Estatu Batuetako Carnegie-Mellon Unibertsitateak eta Alemaniako Karlsruheko Unibertsitateak elkarrekin lan egiten dute (C-STAR partzuergoaren barruan), telefono bidezko itzulpen-sistema bat garatzeko ingeleserako, japonierarako eta alemanerako.




