Textlexikon-Info

- Die lexikalische Suchmaschine -

Einleitung:

Der Name "Textlexikon-Info" wurde gewählt, weil zum Zeitpunkt der Entwicklung ( im April 2004 ) der Suchbegriff Textlexikon, insbesondere der zusammengesetzte Suchbegriff Textlexikon-Info kaum Treffer in der populären Suchmaschine GOOGLE ergab ^*. Er ist also ziemlich exklusiv, soll es aber nicht unbedingt für die eigenen Seiten bleiben. Behält man ihn im Titel bei, wird er mit ziemlicher Sicherheit von den Suchmaschinen gefunden.

Textlexikon auch deshalb, weil es die Funktionsweise beschreibt: ein Text wird ausgelesen und aus den einzelnen Informationen ein Lexikon zusammengestellt.

Zum Thema:

Die kleinste sinnvolle Informationseinheit ist der einzelne Satz.

DAS_IST_SO.
Subjekt_Prädikat_Objekt.
Thema, Aussage, Eigenschaft.
Und - so - weiter. Und so fort.

Natürlich ist eine Ansammlung unzusammenhängender ( Aussage - ) Sätze nicht unbedingt schön, aber doch sinnhaltig und möglicherweise umfassend.

Lexika, beispielsweise, stellen solche Informations - Ansammlungen dar.

Eine Datenbank mit solchen Informations - Schnipseln zu füttern und zu führen ist aufwendig und zeitraubend. Die Information selber ist zwar meistens beim Anbieter schon vorhanden, aber chaotisch und unstrukturiert: Textsammlungen, Notizen, Fundstücke, in unterschiedlichen Formaten und Strukturen. Gemeinsam ist ihnen, daß es sich meistens um ANSI - Texte handelt ( oder als solche auswertet werden können ).

Sortiert man diese Informationen in eine Datenbank ein, wird meistens die Hälfte bereits in diesem ersten Schritt als nicht kompatibel weggeworfen ( und fehlt dann bei einem Aufruf ), oder verfälscht, d. h. Datenbank - kompatibel gemacht ( und ist dann unkorrekt ).

Dabei ist sämtliche Information bereits im Dokument vorhanden -
inklusive Meta - Information. ( "Das Dokument ist die Datenbank" )

Wie wäre es, wenn man diese chaotische, unstrukturierte, redundante Roh - Information so wie sie ist von einem Rechner nach Anfrage jedesmal erneut durchlesen, auswerten und je nach Anfrage selektiert und strukturiert ausgeben läßt? Kann eine Maschine jegliche Informationsmenge an Hand der Bedürfnisse des Suchenden neu selektiert und strukturiert ausgeben?

Der dahinterliegende Gedanke ist folgender:

Das menschliche Gehirn sammelt Information nicht willentlich selektiv, sondern unbewußt, umfassend und unsortiert; man kann nicht etwas willentlich übersehen oder überhören. ^**

Bei Abruf erinnert es sich assoziativ; wenn es akustische beispielsweise das Wort "Pferd" wahrnimmt, erinnert es sich unbewußt und automatisch an ALLES, daß es je in Zusammenhang mit diesem Wort sinnlich wahrgenommen hat, und zwar alles gleichzeitig und gleichwertig; erst in einem nächsten Schritt wird aus dieser Ansammlung das Relevante ausgewählt. Bei "blaues Pferd" beispielsweise ein bestimmtes Gemälde.

Natürlich gibt es eine Gewichtung des Erinnerten; aber diese ist persönlich und nicht im Kontext des Gesprächs ( oder noch schärfer, des Verhörs; weiß man etwas, kann man es nicht nicht wissen ).

Information wird also nicht zuerst nach bestimmten Kriterien ausgelesen, eingespeichert und dann diese Auswahl in einem zweiten Schritt nach erneuten Kriterien durchsucht; oder erst nach den Umständen gesucht, unter denen man vielleicht ein Pferd gesehen oder gehört haben könnte ( wobei in beiden Fällen Einiges bereits nicht mehr erreichbar wäre ); sondern alle vorhandenen Informationen werden sofort und unkontrolliert ausgeworfen: Begegnungen mit echten Pferden, Schulbuchwissen, Postkarten, Bilder, Poster … und erst im Kontext und Lauf des Gesprächs oder des Gedankens wird diese Auswahl immer weiter eingeschränkt.

Nun ist es so, daß als Ausgabe eine Ansammlung einzelner Sätze aus zwei Gründen nicht sehr brauchbar ist:

Zum Ersten informationstheoretisch: der jeweilig nähere Kontext fehlt.
Zum Zweiten rein praktisch: Satzzeichen tauchen auch im Satz auf, so daß sie nicht eindeutig und leicht als Trennzeichen genommen werden können.

Nimmt man dagegen Leerzeilen oder andere Absatzzeichen als Trenner ( Delimitoren ) und wirft statt einzelner Sätze einzelne Paragraphen aus, wird es nicht nur viel einfacher, sondern auch viel sinnvoller - je kürzer die durchsuchten Absätze sind, desto sinnvoller.

Wobei einzelne Sätze oder Zeilen auch als einzelne Absätze genommen werden könne, in denen sich wieder besondere Absatzzeichen einbauen lassen - es können also auch strukturierte Datenbanken geschaffen werden, deren Datensätze aus den einzelnen, u. U. sehr langen Zeilen einer ANSI - Text - Datei bestehen.

Das System ist deshalb so flexibel, weil alle Kriterien und Einschränkungen - wie beim Gehirn - erst nachträglich zum Einsatz kommen.

* * * *

Um also der Plage zu entgehen, daß jede Information vor der Weitergabe erst einmal vom Anbieter ( ! ) der Information formatiert werden muß, und dann vom Abnehmer der Information häufig noch einmal, soll hier nun ein dummes, einfaches, aber robustes System aufgebaut werden, das folgenden Ansprüchen möglichst weit genügt:

Es verarbeitet die einfachste Form der gelagerten Information: reinen Text.
Es benötigt keine Datenbanken.
Es extrahiert aus der Text - Ansammlung dasjenige, wonach der Abnehmer gesucht hat.
Es übergibt dieses dem Abnehmer und überläßt ihm alles weitere.

Im Detail:

Die Suchmaschine kann bei der Auswertung im Prinzip zwischen Groß - und Kleinschreibung unterscheiden, worauf jedoch im Grundsatz verzichtet wurde.
( KISS ^*** )
Die Suchmaschine liest und gibt genau das aus, was im Formular eingegeben wurde.
( Auf Platzhalter, Wortkombination, Sortierungsvorgaben und ähnliches wurde ebenfalls verzichtet. Eine solche, intelligente Suche ist bereits mit Suchmaschinen oder Site - Durchsuchern wie FreeFind möglich )
Da in Textdateien Umlaute im Klartext stehen, ist eine Konvertierung nicht notwendig. In der erweiterten Fassung kann jedoch auch nach Worten in unterschiedlicher Schreibweise gesuchte werden.

Es können grundsätzlich in der Suche alle Zeichen eingegeben werden, auch wenn eingegebene HTML - Tags das Ergebnis verfälschen.

Abhängig von dem gewählten Speichermodus kann es bei verschiedenen Browsern vorkommen, daß die Seite leer, d. h. ohne das Ergebnis der Suche auf die Festplatte gespeichert wird. In diesem Fall bitte einen anderen Speichermodus oder einen anderen Browser wählen.
Auch bei einem e - mail - Versand direkt aus dem Browser heraus kann die Seite leer bleiben.

* Texlex oder Textlex leider nicht. Siehe Textlexikon-Info in Google

** Exkurs:

Das Gehirn, ( und nicht nur das unsrige! ) ist in der Lage, so lange es gesund ist, aus einer Fülle von Informationen blitzschnell das für die jeweilige Anforderung Wesentliche zu isolieren und den Rest so lange zu ignorieren.

Bill Gates' Geniestreich bestand gerade darin, das menschliche Gehirn in Rechner abzubilden und, so labil wie es ist, für jeden Menschen intuitiv ( das heißt: allein durch Übung ) begreifbar zu machen:

BIOS: Stammhirn. Von Außen kaum zugänglich; still, unsichtbar, regelt die unmittelbaren Lebensvorgänge des Systems.

DOS: Kleinhirn. Kann mit der Außenwelt in Austausch treten; einfache Datenverarbeitung; stur, logisch, uneinsichtig, dumpf.

WINDOWS: Großhirn. Eigensinnig und unberechenbar; komplexe, letztendlich undurchschaubare Datenverarbeitung. Gerät deshalb mit dem Anwender zunehmend in den Bereich emotionaler Auseinandersetzung.

Technische Prozeßrechner und Rechnersysteme, beispielsweise in Industrie und Bankwesen, sind völlig anders aufgebaut und müssen "systemisch" gelernt und bedient werden; sie können deshalb viel unnachgiebiger, robuster und weniger anfällig gegenüber Fehlbedienung und äußeren Einflüssen sein - und damit auch, da weniger "organisch", gegenüber Viren und anderen "Krankheitserregern".

Im täglichen Leben jedoch ist ein Rechner, der nach jeder Fehlbedienung erst einmal entsetzt und theatralisch in Ohnmacht fällt und anschließend dem Benutzer zum 1000sten mal beleidigt die Leviten liest, trotz allem angenehmer, als einer, der beispielsweise nach der ersten oder dritten Fehlbedienung kommentarlos den Zugang sperrt und danach keiner weiteren Eingabe mehr zugänglich ist, oder der auf Fehlbedienung schlicht nicht reagiert.

*** KISS: Keep It Simple, Stupid!

Zur Textlexikon - Demonstration

Hinrichs 2004

RÜCK

http://erleuchtet.kilu.de/hilfe/index-g.htm