Į pradžią SprendimaiLietuviška paieška

Lietuviška paieška

Informacijos paieškos sistemos lietuvių kalba

    1. Trys informacijos paieškos internete etapai
    Indeksavimas  – pasiruošimas atsakinėti į vartotojo užklausas.
    Vartotojo užklausos analizė.
    Surastos ar rekomenduojamos informacijos pateikimas vartotojui.

    1.1 Indeksavimas
    Šiame etape vyksta dokumentų indeksavimas, įsimenant, kur ir koks žodis  buvo panaudotas.
    Kadangi vartotoją dažniau domins ne konkretus žodis (pvz. „rūkuose“), o visos jo galimos formos, tai reikia įsidėmėti kiekvieną indeksuojamą žodį bei jo antraštinę formą („rūkas“).

    1.2 Užklausos analizė
    Gal padaryta rašybos klaidų?
    Konkretų žodį ar visas jo formas norėta surasti? Jei visas formas – užklausos žodžius reikia keisti jų antraštinėmis formomis.
    Gal užklausą išplėsi sinonimais?

    1.3 Paieškos rezultatų pateikimas
    Žodžių antraštinių formų (lemų) generatorius.
    Rašybos tikrinimas.
    Lietuviški sinonimai.
    Ontologija/taksonomija.
    Paieškai nesvarbių žodžių ir jų junginių išmetimas.

    2.1 Lietuviškų žodžių antraštinių formų (lemų) generatorius
    Teoriškai gali būti ~1,5 milijardo lietuviškų žodžių. formų.
    Praktiškai vartojama apie 1 milijonas formų ir ~50 0000 tūkstančių lemų.
     Generatorius turi būti analitinis ar grįstas duomenų baze?
     Analitinis nesusitvarkys su netaisyklingos darybos žodžiais ir beveik visais veiksmažodžiais.
     Grįstas duomenų baze nesusitvarkys su retais žodžiais ir beveik kasdien atsirandančiais naujadarais.
    Gal taikyti abu metodus? Bet kaip?

    2.2 Rašybos tikrinimas
    Ne visus teoriškai teisingus žodžius  reikia laikyti priimtinais – tik tuos, kurie realiai yra indeksuojamuose dokumentuose.
    Negerai, kai tikrintuvas, taisydamas klaidingai parašytą „trupaplaukis“, rekomenduos  ieškoti „trumpaplaukis“, o po to nieko neras.

    2.3 Sinonimai
    Ar reikalingi visi 33 000 lietuviški sinonimai, nurodyti A. Lyberio „Sinonimų žodyne“?
     Ten galima rasti ir tokius egzotiškus sinonimus: „abrinas“, „ritužė“, „vogonė“, „skučiulė“, „skutulė“, „veželė“.
    Kaip atlikti atranką?
    Kokiais papildomais sinonimikos šaltiniais naudotis?

    2.4 Ontologija/taksonomija
    Kai vartotojas pateikia užklausą su žodžiu „gyvatė“, jis norėtų rasti dokumentus ir su „kobromis“ bei „angimis“, bet ne atvirkščiai.
    Kokiais šaltiniais vadovautis?
    Ar tiks J. Paulausko „Sisteminis lietuvių kalbos žodynas”, kuriame vienodai suklasifikuoti gana skirtingi žodžiai – pvz. „atomas“, „branduolys“, „elektronas“, „fotonas“, „molekulė“.

    2.5 Paieškai nesvarbių žodžių ir jų junginių išmetimas
    Vartotojo užklausoje galima nereaguoti į žodžių junginį „kur galėčiau rasti informacijos apie“, bet taip elgtis negalima su „kada gimė Albertas Einšteinas“.

    Autorius – Virginijus Dadurkevičius, UAITB „Fotonija“ sistemų analitikas

    Partneriams
    Prisijungti
    Produkto registravimas
    Produkto naujinimas