4 zu O - für THESEUS

VON Dr. Wolf SiegertZUM Montag 14. Juni 2010Letzte Bearbeitung: 16. Januar 2015 um 01 Uhr 20 Minuten

Es gelten die Regeln des Urheberrechts all rights reserved

Noch ganz unter dem Eindruck des ersten Fussballspiels der deutschen Nationalmannschaft vom Sonntagabend [1] wird am Tag danach in Berlin das THESEUS – Innovationszentrum für das Internet der Dinge und Dienste eingeweiht. [2]

Das Ziel, die Entwicklung neuer semantischer Technologien, wurde in einem grossen europäischen Rahmen erstmals auf der European Semantic Technology Conference (ESTC) Ende März des Jahre 2007 auf der Wiener Hofburg zur Geltung gebracht.

Zu diesem Zeitpunkt hatte sich bereits der Versuch der Einrichtung einer deutsch französische Industriearbeitsgruppe, den US-Amerikanischen "Google"s dieser Welt eine Alternative gegenüberzustellen, zerschlagen. Die seit dem Jahr 2004 aufgebaute Quaero-Initiative war gescheitert. Oder, wie es im BMWI-korrekten Politik-Deutsch heisst: "Zum Jahreswechsel 2006/7 entschied man auf Wunsch der französischen Seite, die beiden Programme vorerst getrennt weiter zu betreiben."

Es mag von mancher Seite bestritten werden, dass es angesichts der aktuellen Fortschritte in Deutschland wenige Sinn mache, nochmals in den "alten Geschichte herumzustochern" und bis heute nicht wirklich geheilte Wunden nochmals zum Thema zu machen.

Da aber auch in den Ausführungen des Staatssekretärs erneut davon die Rede war, dass man angesichts der "Google"s dieser Welt zum Handeln gezwungen sei, hier nochmals ein Hinweis auf den Text des - inzwischen veralteten aber eben dadurch umso informativeren - Wikipedia-Eintrags in dem zum Zeitpunkt der Redaktion dieses Textes immer noch nachzulesen ist:

Hintergrund des Quaero-Konzeptes ist vor allem die Ankündigung des Suchmaschinenbetreibers Google, einige Millionen Bücher vor allem amerikanischer Bibliotheken zu digitalisieren und im World Wide Web zur Verfügung zu stellen (siehe Google Book Search). Da dieses Angebot eine Volltextsuche mit einschließen soll, befürchten einige Vertreter französischer Bibliotheken, dass diese Aktion zu einer nicht wieder aufzuholenden Vormachtstellung der englischen Sprache im Web führen könnte und signifikante Informationen ins so genannte Deep Web verschwinden könnten.

Als Antwort soll das vom französischen Präsidenten Jacques Chirac initiierte Projekt Quaero eine Suchmaschinentechnik aufbauen, die ihre Wurzeln in Europa statt in den USA hat und die sich insbesondere auf zu digitalisierende Bestände europäischer Bibliotheken stützen soll. Die ehrgeizigen Pläne sehen auch eine automatische Übersetzung von Texten in die Sprache des Abfragenden, sowie Bild-, Audio- und Videosuchen vor. Zudem soll Quaero am PC, auf dem Handy oder am TV genutzt werden können.

Ob die seit 2007 nun ausgegebene Formel: getrennt kämpfen, gemeinsam siegen wirklich noch mehr in sich trägt als den Wert eines Lippenbekenntnisses?

Fakt ist, dass die von französischer Seite seit Anbeginn gepuschte Lead-Agentur Exalead sich aktuell auch mit deutschen Kunden schmückt: zum Beispiel das drittgrösste bundesdeutsche Pressehaus DuMont Schauberg, das auf diese Weise einen deutlich besseren und effizienteren Zugang zu seinen eigenen Archivsystemen erhalten habe. [3]

Es würde den Rahmen dieses Beitrages sprengen hier allzu sehr ins Detail zu gehen. Und es steht auch noch eine Antwort auf die Frage aus, ob und inwieweit sich diese zukünftig einzusetzenden Suchprozesse nur auf Texte oder aber auch auf Fotos, Bewegtbilder und Töne beziehen sollen.

Interessant war zumindest an den zur Ansicht gebrachten Modell-Beispielen, dass bereits eine ganze Wand lang des Thema "Multimedia" in besonderer Weise herausgestellt worden war.

Es sieht daher zumindest so aus, dass im weiteren Fortgang des Projektes neben der intelligenten Text-Recherche auch mehr und mehr der Intelligente Zugang zu Bildern und Tönen mit in die Arbeit einbezogen werden soll [4]

Aus der grossen Vielfalt der Anwendungen und Präsentationen werden die folgenden 4 als pars pro toto ausgewählt:

1. Alexandria

Ausgangspunkt des Anwendungsszenarios ALEXANDRIA ist die wachsende Bedeutung der Internetnutzer im sogenannten Web 2.0. Heute nutzen Anwender nicht nur Suchmaschinen, E-Mail- und Chat-Dienste, sondern stellen ihr Wissen auch selber aktiv zur Verfügung. Bekannte Beispiele für diese neue Form der Interaktion sind Blogs, die Online-Enzyklopädie Wikipedia oder soziale Netzwerke wie Facebook oder Xing. Diese Plattformen wären ohne Nutzer, die Wissen und Informationen bereitstellen und austauschen, nicht denkbar. [5]

2. SemaVis

Als Basistechnologie bietet das SemaVis-Framework unter der Leitung des Fraunhofer Instituts für Graphische Daten Verarbeitung (IGD) ein modulares und adaptives Framework zur Visualisierung semantischer Daten. [6]

3. Contentus

Millionen von Büchern, Bildern, Tonbändern und Filmen lagern in Deutschlands rund 30.000 Bibliotheken, Museen und Archiven – ein unermesslicher Wissensschatz. Den Fragen, wie dieses kulturelle Erbe einer möglichst großen Zahl von Menschen zugänglich gemacht und wie es für nachfolgende Generationen bewahrt werden kann, gehen die an CONTENTUS beteiligten Forscher nach.

Es gilt als eine der großen Aufgaben der Wissensgesellschaft, den Bürgern einen einfachen und medienübergreifenden Zugriff auf Wissens- und Kulturgüter zu ermöglichen. Im Rahmen von CONTENTUS werden Konzepte und Technologien für eine Infrastruktur entwickelt, die es Kultureinrichtungen und Informationsanbietern erlaubt, diesem Ziel näherzukommen. Diese neuen Technologien ermöglichen die automatische Aufbereitung und semantische Vernetzung großer Datenmengen, sei es in der Form von Texten, Bildern oder Video- und Tonaufnahmen. [7]

Semantische Suche in Bilddatenbanken

Fraunhofer FIRST entwickelt im Rahmen von Theseus Basistechnologien für die semantische Beschreibung und Auswertung von Bildern. Bisherige Bilddatenbanken arbeiten überwiegend mit textlichen Beschreibungen (Annotationen) der Bildinhalte. Im Rahmen von Theseus arbeitet Fraunhofer FIRST nun daran, den Inhalt eines Bildes direkt aus seinen Rohdaten zu extrahieren. Dazu müssen zunächst diejenigen Merkmale gefunden werden, die ein Bild hinreichend beschreiben (Repräsentation). Fraunhofer FIRST nutzt hierzu Verfahren des maschinellen Lernens. Sie haben den Vorteil, dass sie aus Beispieldaten die entscheidenden Merkmale herausfiltern können, ohne die „Lösung“ im Vorhin zu kennen. Für die Auswertung von medizinischen Bilddaten würde das z.B. heißen, dass Verfahren des Maschinellen Lernens anhand von Beispielen „lernen“, wie eine bestimmte Form von Krebs auf einer Computertomographie aussieht. Anschließend sind sie in der Lage, die Krankheit auch in unbekannten Bildern zuverlässig zu identifizieren. Neben der Entwicklung von geeigneten Bildrepräsentationen arbeitet FIRST auch an der automatischen Annotation von Bildern und an skalierbaren Algorithmen für die semantische Suche in großen Bilddatenbanken.

Alles schön und gut. Bleibt nur die Frage offen, was und wie der Zugriff zu jenen Bilddatenbanken in Zukunft noch verbessert wird, die jahrzehnte lang - oft bis dato - noch nicht bemerkt haben, was auf sie noch zukommen wird.

Zum Seitenanfang.