Ips este... Scopul și funcția sistemelor de regăsire a informațiilor

Este dificil pentru omul modern să-și imagineze viața fără Internetul și accesul aproape instantaneu la sursele de informare. Utilizatorii se gândesc rar la modul în care caută conținut pe web. Și asta este foarte interesant.

Un sistem de regăsire a informației (IRS) este un sistem hardware și software sofisticat care regăsește informații la cererea utilizatorului. Informațiile sunt stocate pe servere în format digital, așa cum în trecut erau cărțile pe rafturile bibliotecilor. Sistemul este alcătuit din mai multe subsisteme. fiecare îndeplinește o sarcină specifică de procesare a unei solicitări a utilizatorului și de furnizare de informații în format text sau audio. Complexitatea arhitecturii sistemelor moderne de regăsire a informației (acronim pentru un sistem de regăsire) rezultă din multitudinea de sarcini pe care trebuie să le rezolve. The "cutie neagră"Intrarea este textul de interogare, ceea ce este înăuntru este necunoscut, iar ieșirea este o informație completă.

Indexul cardului în viața reală

Fluxuri de intrare

Cererile de informații pe care un om le generează sub formă de text pe ecranul gadgetului său constituie o mică parte din interogările procesate de un motor de căutare. Tablourile principale de căutare sunt generate de roboți care acceptă solicitări umane și efectuează căutări în mai multe etape și oferă feedback utilizatorului. Sistemele de regăsire a informației le includ pe cele cunoscute de toți - Google, "Yandex" și altele care procesează milioane de căutări în fiecare zi.

Obiecte inițiale de căutare

Documente, înregistrări, înregistrări video, imagini etc., care prezintă interes pentru căutare. Acestea sunt create în afara unui IPS. Un sistem general de stocare și regăsire a informațiilor ar trebui să aibă un sistem bibliografic încorporat - un fel de catalog care să permită orice tip de regăsire.

Obiectele sau transformările lor digitale devin "resursă de intrare" într-un IPS. Acesta este cel care selectează informațiile de care are nevoie utilizatorul.

Regăsirea informațiilor

Surse externe

Sursele externe de cunoștințe sunt utilizate în prezentarea selecției informațiilor. Aceasta este informația pe care o caută utilizatorul. Titlu de film, citat din carte etc. Aceste informații trebuie să fie convertite într-o interogare folosind un limbaj algoritmic pentru a fi recuperate de un computer. Într-un IPS, acest lucru se realizează cu ajutorul unei unități de creare, indexare și interogare.

În mod ideal, aceste trei procese - reprezentarea, indexarea și dezvoltarea interogărilor - ar trebui să se bazeze pe surse de cunoștințe identice, dar în practică acest lucru este imposibil de realizat.

Sursele de cunoștințe ar trebui să fie revizuite și actualizate în permanență, iar actualizările ar trebui să fie identice și sincronizate. Iar o sursă externă de cunoștințe precede întotdeauna cronologic utilizarea acesteia de către un motor de căutare pentru o interogare, uneori cu mai mulți ani înainte.

Un sistem de regăsire a informațiilor

Trimitere de materiale

Reprezentările obiectului sursă sunt compilate din datele de intrare într-o combinație sau convertite în conformitate cu regulile și algoritmii sistemului specific de regăsire a informațiilor-sistem de recuperare.

Reprezentările sunt copii mai mult sau mai puțin transformate ale obiectului de căutare original. Într-o colecție de texte integrale inedite, fiecare text este o reprezentare proprie. Într-o colecție de obiecte și artefacte de muzeu, o reprezentare poate fi o descriere transformată a obiectului cu imaginea sa. În unele cazuri, o reprezentare poate fi derivată parțial din obiectul original și parțial din descriere: în sistemele de căutare bibliografică, reprezentările sunt derivate din obiect - de exemplu, titlul, numele autorului vor fi combinate cu adnotarea lucrării.

Se poate căuta ceea ce căutați

Index de căutare

Deoarece informația în sistemele de regăsire a informației este stocată într-o vizualizare, este logic să presupunem că o căutare este efectuată pe o vizualizare și, după selecție, este oferită utilizatorului. În practică, acest lucru nu este. De exemplu, cataloagele actuale ale bibliotecilor online limitează de obicei căutările la câteva câmpuri: autor, titlu și subtitluri în cadrul vizualizării care conțin alte câmpuri care nu pot fi căutate. Acesta este un motiv suficient pentru a face distincția între o vizualizare și un index de căutare, care este partea de căutare a unei vizualizări. Acesta definește totul, ceea ce este menit să fie să poată fi căutate. Un index de căutare, cum ar fi entitatea de vizualizare și entitatea sursă, poate fi împărțit în subindexuri separate pentru a oferi o căutare mai precisă și mai orientată

Motoarele de căutare au, de obicei, o structură intrasintetică pentru potrivirea rezultatelor valide ale căutării. Această structură este cea de-a doua componentă a unui index de căutare.

Din punct de vedere procedural, procesul de indexare poate fi implementat în diferite moduri: un index de căutare poate fi obținut prin:

  • copierea literală a unei vizualizări care poate fi căutată;
  • prin copierea detaliilor de reprezentare. Poate fi o parte sau întreaga vizualizare care există fizic doar sub formă de fragmente, distribuite în conformitate cu regulile de creare a unui index de căutare care să fie asamblat atunci când este necesar.
Managementul căutării

Reguli de proiectare a interogărilor și interogări formale

Proiectarea interogării este funcția care intermediază între o interogare a utilizatorului și o cerere formală. Transformă interogarea unui utilizator prin compararea acesteia cu vocabularele comenzilor de regăsire, cu specificația indexului și cu indexul înainte de regăsire. La începutul dezvoltării unui IPS, acest rol era în mod tradițional lăsat în seama personalului IT calificat.

Dezvoltarea de interogări computerizate care pot cartografia interogările la un index de dicționar care poate fi căutat este de obicei denumită modul "intrare în dicționar". Automatizarea acestei funcții este promițătoare și oferă oportunități pentru metodele de căutare expertă și probabilistică.

O cerere formală devine una după ce cererea utilizatorului a fost convertită. Exemple de astfel de transformări formale includ trunchierea, substituirea, normalizarea, vectorizarea și alte transformări "extern" reprezentări în "intern" Reprezentarea IPS pe calculator (transcriere - sistem de regăsire a informațiilor).

Seturi de referință pentru documente recuperate

Setul de surse de informații rezultat este, din punct de vedere logic, un subansamblu al vizualizărilor create de regulile de cartografiere aplicate la o interogare formală de căutare în index.

De obicei, dar nu neapărat, există un proces de sortare separat pentru setul de date recuperat. Cataloagele bibliotecilor online reordonează de obicei seturile rezultate în ordine alfabetică după autor înainte de a afișa. În sistemele de regăsire a informațiilor care produc un clasament strict, ordinea de rang precede orice reordonare.

Analiza datelor

Fluxuri de ieșire

Rezultatul unei căutări este afișat în mod tradițional, mai des ca un flux de obiecte care urmează să fie utilizate în altă parte sau în alt scop, completând ciclul principal de căutare.Astfel de fluxuri pot fi direcționate către dispozitive de vizualizare, stocate pentru procesare ulterioară sau utilizate ca fluxuri de intrare pentru alte servicii de recuperare.

Sistemele de regăsire a informației pot oferi feedback la ieșirea oricărui proces de selecție. Ieșirile oricărui proces pot reprezenta un feedback de la alte procese. Feedback-ul poate oferi baza pentru expertiză de specialitate în orice etapă.

Articole pe această temă