Informacijos paieškos sistemos lietuvių kalba 1. Trys informacijos paieškos internete etapai Indeksavimas – pasiruošimas atsakinėti į vartotojo užklausas. Vartotojo užklausos analizė. Surastos ar rekomenduojamos informacijos pateikimas vartotojui. 1.1 Indeksavimas Šiame etape vyksta dokumentų indeksavimas, įsimenant, kur ir koks žodis buvo panaudotas. Kadangi vartotoją dažniau domins ne konkretus žodis (pvz. „rūkuose“), o visos jo galimos formos, tai reikia įsidėmėti kiekvieną indeksuojamą žodį bei jo antraštinę formą („rūkas“). 1.2 Užklausos analizė Gal padaryta rašybos klaidų? Konkretų žodį ar visas jo formas norėta surasti? Jei visas formas – užklausos žodžius reikia keisti jų antraštinėmis formomis. Gal užklausą išplėsi sinonimais? 1.3 Paieškos rezultatų pateikimas Žodžių antraštinių formų (lemų) generatorius. Rašybos tikrinimas. Lietuviški sinonimai. Ontologija/taksonomija. Paieškai nesvarbių žodžių ir jų junginių išmetimas. 2.1 Lietuviškų žodžių antraštinių formų (lemų) generatorius Teoriškai gali būti ~1,5 milijardo lietuviškų žodžių. formų. Praktiškai vartojama apie 1 milijonas formų ir ~50 0000 tūkstančių lemų. Generatorius turi būti analitinis ar grįstas duomenų baze? Analitinis nesusitvarkys su netaisyklingos darybos žodžiais ir beveik visais veiksmažodžiais. Grįstas duomenų baze nesusitvarkys su retais žodžiais ir beveik kasdien atsirandančiais naujadarais. Gal taikyti abu metodus? Bet kaip? 2.2 Rašybos tikrinimas Ne visus teoriškai teisingus žodžius reikia laikyti priimtinais – tik tuos, kurie realiai yra indeksuojamuose dokumentuose. Negerai, kai tikrintuvas, taisydamas klaidingai parašytą „trupaplaukis“, rekomenduos ieškoti „trumpaplaukis“, o po to nieko neras. 2.3 Sinonimai Ar reikalingi visi 33 000 lietuviški sinonimai, nurodyti A. Lyberio „Sinonimų žodyne“? Ten galima rasti ir tokius egzotiškus sinonimus: „abrinas“, „ritužė“, „vogonė“, „skučiulė“, „skutulė“, „veželė“. Kaip atlikti atranką? Kokiais papildomais sinonimikos šaltiniais naudotis? 2.4 Ontologija/taksonomija Kai vartotojas pateikia užklausą su žodžiu „gyvatė“, jis norėtų rasti dokumentus ir su „kobromis“ bei „angimis“, bet ne atvirkščiai. Kokiais šaltiniais vadovautis? Ar tiks J. Paulausko „Sisteminis lietuvių kalbos žodynas”, kuriame vienodai suklasifikuoti gana skirtingi žodžiai – pvz. „atomas“, „branduolys“, „elektronas“, „fotonas“, „molekulė“. 2.5 Paieškai nesvarbių žodžių ir jų junginių išmetimas Vartotojo užklausoje galima nereaguoti į žodžių junginį „kur galėčiau rasti informacijos apie“, bet taip elgtis negalima su „kada gimė Albertas Einšteinas“. Autorius – Virginijus Dadurkevičius, UAITB „Fotonija“ sistemų analitikas |