Un sistem de cercetare documentara se bazeaza pe capacitatea SGBD-ului de a inmagazina, ordona, selecta, interoga BD si a realiza rapoarte text, grafice sau diagrame. SGBD interogheaza documentele structurate in fisierele memorate pe suporti externi, semnaland pe cele in care figureaza cuvantul sau combinatia de cuvinte ce descriu conceptul la care se refera documentarea.
Adresam calculatorului cuvantul vizat pentru ca el sa afiseze ansamblul documentelor aflate in memorie si care contin cel putin o data cuvantul DIVORT, deci care teoretic trateaza acest subiect.
Programele de cercetare documentara functioneaza aproape toate prin utilizarea a trei fisiere principale: lexicul, fisierul index sau fisierul inversat si fisierul text (full text). Lexicul cuprinde ansamblul de cuvinte, adica lanturi de caractere semnificative, pe care sistemul le recunoaste. Acest fisier are rol in utilizarea vocabularului, dar lista de cuvinte pe care sistemul o cauta este indispensabila pentru ca acestea sa fie identificate.
In general, tezaurul este completat de lista de legaturi de caractere pe care sistemul are dreptul sa le ignore: cuvintele nule sau cuvintele goale (de sens), articole, prepozitii etc. Astfel, comparatia mesajului-intrebare de pe aceste doua liste permite calculatorului sa reactioneze la primirea unui termen care nu este cuprins nici in Lexic, nici in lista cuvintelor nule. Calculatorul raspunde printr-un mesaj de eroare, ceea ce inseamna ca ignora acest cuvant sau ca acesta contine o greseala de ortografie sau de implementare.
Dupa ce calculatorul a primit instructiunile pentru recunoasterea cuvintelor, el poate sa gaseasca documentele care contin cuvintele dorite printr-o simpla trecere secventiala in revista. In ciuda rapiditatii operarii cu sistemele informationale, acest mod este foarte lent prin interogarea bancilor de date, care contin mii sau milioane de informatii (admitand ca verificarea existentei unui termen intr-un document care cuprinde 20 randuri necesita 1/10 secunde, ar trebui 1 ora pentru a epuiza un fisier de 36. 000 documente). Lexicul este, in general, inversat intr-un fisier index, adica un fisier care regrupeaza pentru fiecare din formele alfanumerice, ce constituie lexicul, grupul de adrese al documentelor in care acestea figureaza. Timpul de lectura este astfel redus considerabil, datorita numarului mic de caractere.
Documentele cautate sunt gasite prin adresele lor in fisierele text, in care ele au fost inregistrate in forma literala, forma in care trebuie sa apara pe monitor. Prin accesul direct la zona discului care contine aceste adrese sau chei, ele vor fi inregistrate in memoria centrala pentru a putea fi afisate utilizatorului in functie de cererile lui.
- Arborescenta Procesul de investigare pe care l-am descris este cel mai simplu, pentru ca el se bazeaza pe o strategie de cercetare formulata cu ajutorul unui termen unic. Oricare ar fi viteza de executie, putine sisteme documentare l-ar ...
Pentru a descărca acest document,
trebuie să te autentifici in contul tău.