Linguistische Suche ist ein Verfahren, das bei Suchmaschinen zum Einsatz kommt und bedeutet, dass die Suchanfrage durch linguistische Verfahren bearbeitet wird. Hierzu werden aus der ursprünglichen Anfrage weitere Wortvarianten abgeleitet.

Verfahren

Die eingesetzten linguistischen Verfahren sind: Lemmatisierung, also das Erkennen von Grundformen, die Kompositazerlegung, die Generierung von Wortvarianten, das Erzeugen von Synonymen und die Wortableitungen.

Der Ansatz unterscheidet sich von den Stemming-Verfahren, da bei der linguistischen Suche mit tatsächlich existierenden Wortformen (und nicht mit Wortteilen oder -stämmen) gearbeitet wird. Dies ist besonders für das Deutsche aufgrund der starken Irregularität seiner Wortbildung sinnvoll.

Diese unterschiedlichen linguistischen Verfahren werden nacheinander angewendet, da sie voneinander abhängen. Als Erstes wird eine Lemmatisierung der einzelnen Begriffe durchgeführt, womit zu jedem Begriff dessen Grundform identifiziert wird (Häuser → Haus, Vögel → Vogel, gingen → gehen). Im Deutschen können in dieser Phase Komposita in ihre Bestandteile zerlegt werden (Autobahngebühr → Autobahn + Gebühr, Atomenergiedebatte → Atomenergie + Debatte). Der nächste Schritt besteht in der Generierung aller Wortvarianten aus dieser gefundenen Grundform (Haus → Häuser, Häusern, Hauses, Hause; gehen → gehe, gehst, geht, ging, gingst, gingen, gegangen etc.).

Mit den so gewonnenen zusätzlichen Varianten kann die ursprüngliche Suche angereichert werden, weshalb auch von "Expansion" gesprochen wird.

Die Linguistik stellt weitere Verfahren zur Verfügung: Das Erkennen von Synonymen (Haus → Gebäude, Dynastie etc.) oder Wortableitungen (Haus → häuslich, Häuslein etc.) liefert zusätzliche Varianten für die Suche.

Die Suchbegriffe aus den verschiedenen Quell- bzw. Herkunftssprachen können in verschiedene Zielsprachen übersetzt (Flugzeug → (engl.) airliner, airplane, plane, aircraft → (franz.) avion) und wie Synonyme in die Suche eingefügt werden. Damit kann eine mehrsprachige Suche durchgeführt werden, im Sinne eines cross lingual information retrieval, was bedeutet, dass die Suchanfrage in einer Sprache eine Suche in einer oder mehreren weiteren Sprachen auslöst.

Zielsetzung

Im Gegensatz zur automatischen Übersetzung, wo eine korrekte Übersetzung eines Begriffs gefunden werden muss, ist das Ziel hier, möglichst viele Übersetzungsäquivalente zu bringen, wobei der Kontext in den gefundenen Resultaten implizit eine Differenzierung der Bedeutungen (Disambiguierung) vornimmt.

Eine wachsende Zahl von linguistischen Systemen wurde bisher entwickelt, mit zum Teil sehr variierenden Zielsetzungen. Die grundsätzlichen Unterschiede betreffen Größe der eingesetzten Wörterbücher (mehrere Millionen Einträge) und linguistischen Ressourcen, Ausstattung der Wörterbücher mit grammatischen Informationen (morphologisch, syntaktisch, semantisch) und Verfügbarkeit der Übersetzungswörterbücher hinsichtlich der Sprachpaare.

Systeme

Während einsprachige Systeme relativ zahlreich sind (Beispiel: DWDS als umfangreiches Wörterbuchsystem, FAST als Such- u. Indexierungssystem mit linguistischer Komponente, AUTINDEX[1]), gibt es nur wenige mehrsprachige (cross-linguale) Systeme.

Genannt seien:

  • BASE, die den mehrsprachigen Thesaurus Eurovoc zur Ãœbersetzung nutzt.
  • LEXIQUO[2] und PSYDOK[3] nutzen die 'linguistic engine' EXTRAKT[4][5] mit Ãœbersetzungswörterbüchern und Eurovoc-Daten für Deutsch, Englisch, Französisch (sowie Italienisch und Spanisch).
  • Pertimm[6] ein franco-amerikanisches mehrsprachiges Indexierungs- und Retrievalsystem.

Einzelnachweise

  1. ↑ AUTINDEX Automatische-Indexierung-und-Klassifizierung (Memento des Originals vom 22. Oktober 2010 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.iai-sb.de
  2. ↑ Lexiquo-Portal
  3. ↑ Mehrsprachige Suche in PSYDOK (Memento des Originals vom 18. Juli 2011 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/psydok.sulb.uni-saarland.de
  4. ↑ 'linguistic engine' EXTRAKT (Memento des Originals vom 17. Dezember 2009 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.textec.de
  5. ↑ Artikel über EXTRAKT in www.ifra.net
  6. ↑ Pertimm System (Memento des Originals vom 2. Juli 2010 im Internet Archive)  Info: Der Archivlink wurde automatisch eingesetzt und noch nicht geprüft. Bitte prüfe Original- und Archivlink gemäß Anleitung und entferne dann diesen Hinweis.@1@2Vorlage:Webachiv/IABot/www.pertimm.com