4 zu O - für THESEUS

VON Dr. Wolf SiegertZUM Montag Letzte Bearbeitung: 16. Januar 2015 um 01 Uhr 20 Minuten

 

JPEG - 22.7 kB

Noch ganz unter dem Eindruck des ersten Fussballspiels der deutschen Nationalmannschaft vom Sonntagabend [1] wird am Tag danach in Berlin das THESEUS – Innovationszentrum für das Internet der Dinge und Dienste eingeweiht. [2]

JPEG - 16.1 kB

Das Ziel, die Entwicklung neuer semantischer Technologien, wurde in einem grossen europäischen Rahmen erstmals auf der European Semantic Technology Conference (ESTC) Ende März des Jahre 2007 auf der Wiener Hofburg zur Geltung gebracht.

Zu diesem Zeitpunkt hatte sich bereits der Versuch der Einrichtung einer deutsch französische Industriearbeitsgruppe, den US-Amerikanischen "Google"s dieser Welt eine Alternative gegenüberzustellen, zerschlagen. Die seit dem Jahr 2004 aufgebaute Quaero-Initiative war gescheitert. Oder, wie es im BMWI-korrekten Politik-Deutsch heisst: "Zum Jahreswechsel 2006/7 entschied man auf Wunsch der französischen Seite, die beiden Programme vorerst getrennt weiter zu betreiben."

Es mag von mancher Seite bestritten werden, dass es angesichts der aktuellen Fortschritte in Deutschland wenige Sinn mache, nochmals in den "alten Geschichte herumzustochern" und bis heute nicht wirklich geheilte Wunden nochmals zum Thema zu machen.

Da aber auch in den Ausführungen des Staatssekretärs erneut davon die Rede war, dass man angesichts der "Google"s dieser Welt zum Handeln gezwungen sei, hier nochmals ein Hinweis auf den Text des - inzwischen veralteten aber eben dadurch umso informativeren - Wikipedia-Eintrags in dem zum Zeitpunkt der Redaktion dieses Textes immer noch nachzulesen ist:

Hintergrund des Quaero-Konzeptes ist vor allem die Ankündigung des Suchmaschinenbetreibers Google, einige Millionen Bücher vor allem amerikanischer Bibliotheken zu digitalisieren und im World Wide Web zur Verfügung zu stellen (siehe Google Book Search). Da dieses Angebot eine Volltextsuche mit einschließen soll, befürchten einige Vertreter französischer Bibliotheken, dass diese Aktion zu einer nicht wieder aufzuholenden Vormachtstellung der englischen Sprache im Web führen könnte und signifikante Informationen ins so genannte Deep Web verschwinden könnten.

Als Antwort soll das vom französischen Präsidenten Jacques Chirac initiierte Projekt Quaero eine Suchmaschinentechnik aufbauen, die ihre Wurzeln in Europa statt in den USA hat und die sich insbesondere auf zu digitalisierende Bestände europäischer Bibliotheken stützen soll. Die ehrgeizigen Pläne sehen auch eine automatische Übersetzung von Texten in die Sprache des Abfragenden, sowie Bild-, Audio- und Videosuchen vor. Zudem soll Quaero am PC, auf dem Handy oder am TV genutzt werden können.

Ob die seit 2007 nun ausgegebene Formel: getrennt kämpfen, gemeinsam siegen wirklich noch mehr in sich trägt als den Wert eines Lippenbekenntnisses?

Fakt ist, dass die von französischer Seite seit Anbeginn gepuschte Lead-Agentur Exalead sich aktuell auch mit deutschen Kunden schmückt: zum Beispiel das drittgrösste bundesdeutsche Pressehaus DuMont Schauberg, das auf diese Weise einen deutlich besseren und effizienteren Zugang zu seinen eigenen Archivsystemen erhalten habe. [3]

Es würde den Rahmen dieses Beitrages sprengen hier allzu sehr ins Detail zu gehen. Und es steht auch noch eine Antwort auf die Frage aus, ob und inwieweit sich diese zukünftig einzusetzenden Suchprozesse nur auf Texte oder aber auch auf Fotos, Bewegtbilder und Töne beziehen sollen.

JPEG - 20 kB

Interessant war zumindest an den zur Ansicht gebrachten Modell-Beispielen, dass bereits eine ganze Wand lang des Thema "Multimedia" in besonderer Weise herausgestellt worden war.

Es sieht daher zumindest so aus, dass im weiteren Fortgang des Projektes neben der intelligenten Text-Recherche auch mehr und mehr der Intelligente Zugang zu Bildern und Tönen mit in die Arbeit einbezogen werden soll [4]

JPEG - 21.4 kB

Aus der grossen Vielfalt der Anwendungen und Präsentationen werden die folgenden 4 als pars pro toto ausgewählt:

1. Alexandria

Ausgangspunkt des Anwendungsszenarios ALEXANDRIA ist die wachsende Bedeutung der Internetnutzer im sogenannten Web 2.0. Heute nutzen Anwender nicht nur Suchmaschinen, E-Mail- und Chat-Dienste, sondern stellen ihr Wissen auch selber aktiv zur Verfügung. Bekannte Beispiele für diese neue Form der Interaktion sind Blogs, die Online-Enzyklopädie Wikipedia oder soziale Netzwerke wie Facebook oder Xing. Diese Plattformen wären ohne Nutzer, die Wissen und Informationen bereitstellen und austauschen, nicht denkbar. [5]

2. SemaVis

Als Basistechnologie bietet das SemaVis-Framework unter der Leitung des Fraunhofer Instituts für Graphische Daten Verarbeitung (IGD) ein modulares und adaptives Framework zur Visualisierung semantischer Daten. [6]

3. Contentus

Millionen von Büchern, Bildern, Tonbändern und Filmen lagern in Deutschlands rund 30.000 Bibliotheken, Museen und Archiven – ein unermesslicher Wissensschatz. Den Fragen, wie dieses kulturelle Erbe einer möglichst großen Zahl von Menschen zugänglich gemacht und wie es für nachfolgende Generationen bewahrt werden kann, gehen die an CONTENTUS beteiligten Forscher nach.

Es gilt als eine der großen Aufgaben der Wissensgesellschaft, den Bürgern einen einfachen und medienübergreifenden Zugriff auf Wissens- und Kulturgüter zu ermöglichen. Im Rahmen von CONTENTUS werden Konzepte und Technologien für eine Infrastruktur entwickelt, die es Kultureinrichtungen und Informationsanbietern erlaubt, diesem Ziel näherzukommen. Diese neuen Technologien ermöglichen die automatische Aufbereitung und semantische Vernetzung großer Datenmengen, sei es in der Form von Texten, Bildern oder Video- und Tonaufnahmen. [7]

Semantische Suche in Bilddatenbanken

Fraunhofer FIRST entwickelt im Rahmen von Theseus Basistechnologien für die semantische Beschreibung und Auswertung von Bildern. Bisherige Bilddatenbanken arbeiten überwiegend mit textlichen Beschreibungen (Annotationen) der Bildinhalte. Im Rahmen von Theseus arbeitet Fraunhofer FIRST nun daran, den Inhalt eines Bildes direkt aus seinen Rohdaten zu extrahieren. Dazu müssen zunächst diejenigen Merkmale gefunden werden, die ein Bild hinreichend beschreiben (Repräsentation). Fraunhofer FIRST nutzt hierzu Verfahren des maschinellen Lernens. Sie haben den Vorteil, dass sie aus Beispieldaten die entscheidenden Merkmale herausfiltern können, ohne die „Lösung“ im Vorhin zu kennen. Für die Auswertung von medizinischen Bilddaten würde das z.B. heißen, dass Verfahren des Maschinellen Lernens anhand von Beispielen „lernen“, wie eine bestimmte Form von Krebs auf einer Computertomographie aussieht. Anschließend sind sie in der Lage, die Krankheit auch in unbekannten Bildern zuverlässig zu identifizieren. Neben der Entwicklung von geeigneten Bildrepräsentationen arbeitet FIRST auch an der automatischen Annotation von Bildern und an skalierbaren Algorithmen für die semantische Suche in großen Bilddatenbanken.

Alles schön und gut. Bleibt nur die Frage offen, was und wie der Zugriff zu jenen Bilddatenbanken in Zukunft noch verbessert wird, die jahrzehnte lang - oft bis dato - noch nicht bemerkt haben, was auf sie noch zukommen wird.

Anmerkungen

[1Der Versuch, der Leserschaft nochmals die Höhepunkte des Spiels durch einen Zugriff auf die FIFA.com Seite zugänglich zu machen, ist zumindest am Tag der Redaktion dieses Textes gescheitert: nachdem die "Ajax-Spirale" auf einem scwarzgrauen Hintergrund minutenlang einen Download-Vorgang symbolisiert, kommt schlussendlich die Meldungen "Stream error:" zu Gesicht. Letztmalig vergeblich versucht am Donnerstag, den 17. Juni 2010 gegen zwanzig Uhr.

[2Der Parlamentarische Staatssekretär beim Bundesminister für Wirtschaft und Technologie und Beauftragte der Bundesregierung für Mittelstand und Tourismus, Ernst Burgbacher, hat heute in Berlin das THESEUS-Innovationszentrum eröffnet. [...]
Staatssekretär Burgbacher skizziert die Grundidee des Innovationszentrums: "Das THESEUS-Innovationszentrum ist ein Stück Zukunft zum Anfassen. Wir gehen mit dem Zentrum einen neuen Weg, um Forschungsergebnisse gebündelt sichtbar zu machen und frühzeitig zu verbreiten. Bereits in einem frühen Stadium der Entwicklungen wollen wir in einen Dialog mit späteren Anwendern treten - insbesondere aus dem Mittelstand. Gleichzeitig wollen wir Existenzgründungen anregen. Die neue Bundesregierung verfolgt so das Ziel, schneller als bisher die Brücke zwischen Forschung und Umsetzung im Markt zu schlagen."

Die im Rahmen des THESEUS-Programms entwickelten neuen Technologien für das Internet der Dienste sollen insbesondere den Zugang zu Informationen vereinfachen, Daten zu neuem Wissen vernetzen und die Grundlage für neue Dienstleistungen im Internet schaffen. Von zentraler Bedeutung dabei ist die Entwicklung neuer semantischer Technologien, also von Technologien, die Informationen aus dem Internet selbstständig interpretieren und automatisch weiterverarbeiten. Es entsteht so ein breites Spektrum hochwertiger Dienste. Sie reichen von innovativen semantischen Suchdiensten bis hin zu neuen Serviceangeboten wie dem sogenannten Cloud Computing. Damit können u.a. IT-Infrastrukturen oder Computerprogramme über das Internet gemietet werden und dynamisch an den jeweiligen Bedarf angepasst werden.

So nachzulesen in der Presseeerklärung des BMWI vom 14. Juni 2010.

[3Hier das entsprechende Kurzdokument in englischer Sprache, das auf der Exalead-Seite erst nach Bekanntgabe eines Names, einer Firma und einer Mail-Adresse freigegeben wird:

PDF - 859.8 kB
Exalead-Dumont-Case-Study

.

[4Eine offizielle Beantwortung dieses Eindrucks steht noch aus. WS.

[5Ein öffentlicher Zugang steht derzeit noch nicht bereit. Daher wurde ein persönlicher Zugang beantragt. WS.

[6Die Erprobung des im Netz unter der Adresse
http://athena.igd.fraunhofer.de/SemaVisAnnotation/SemAnnot.html scheiterte zunächst an der mehrfach wiederholten Meldung: "Probleme bei der Serververbindung. Bitte Vorgang wiederholen!"
Man muss schon über einige Insider-Kenntnisse verfügen um dann schliesslich von Mark, dem Chemie-Reporte der BASF etwas über das Thema der "Gefrierpunktserniedrigung" zu erfahren.

[7Zur Präsentation dieses sehr ehrgeizigen Vorhabens ist ein Image-Film zum Download als ZIP-File ins Netz gestellt worden. Der Versuch, diesen zu sehen, wurde allerdings nach mehr als 30 MB mit der folgenden Rechnermeldung abgebrochen: "C:\DOKUME 1\ADMINI 1\LOKALE 1\Temp\uEXj+hgR.zip.part konnte nicht gespeichert werden, weil die Quelldatei nicht gelesen werden konnte.
Versuchen Sie es später nochmals oder kontaktieren Sie den Server-Administrator." WS.


 An dieser Stelle wird der Text von 7158 Zeichen mit folgendem VG Wort Zählpixel erfasst:
9918916635d0478fad74a8c7db7fbd7b