semantic web – Maschinen lernen denken

Bereits im Jahr 2001 wurde das Konzept des „semantic web“ diskutiert. Damals beschrieb Tim Berners Lee, Erfinder von HTML und Begründer des World Wide Web, einen wichtigen Aspekt seiner Vision des Internets folgendermaßen: Die Datenmengen im World Wide Web sollen auf ihrer Bedeutungsebene auch von Maschinen verwertbar und interpretierbar sein.

Allerdings fehlen zu dieser Zeit noch die technischen Möglichkeiten, so dass man von der Umsetzung dieser Vision noch weit entfernt war. Im Laufe der Jahre wurde Lees Idee immer wieder aufgegriffen. Allerdings verlief die Entwicklung immer noch schleppend, obwohl sich die Technik ständig weiterentwickelte.
 
Erst durch die neuen Möglichkeiten, Informationen auf semantischer Ebene für Maschinen verständlich auszuzeichnen, zum Beispiel mittels Mikroformaten, und vor allem durch die immer größer werdenden Datenmengen rückt die Idee des „semantic web“ wieder in den Fokus. Es stellt sich zunehmend die Frage: Welche neuen Wege können wir gehen, um aus diesen Datenmengen automatisiert Wissen zu erschließen? (90% der vorhandenen Daten wurden seit 2010 produziert. Stand: 2012 – Quelle)


Bisher ist das World Wide Web hauptsächlich durch die Nutzung des Menschen bestimmt. Wir beurteilen, welche Bedeutung eine Information hat, ob sie richtig und wichtig ist, glaubhaft oder vollständig. Dabei unterstützen uns Suchmaschinen nicht immer optimal. Suchanfragen, die wir in natürlicher Sprache formulieren, beispielsweise als Frage, führen zu ungenauen Ergebnissen. Auch bei den gängigen Stichwortanfragen liefern Suchmaschinen Unmengen an Ergebnissen, von denen viele die gesuchten Informationen nicht enthalten. Deswegen ist besonders interessant, welche Möglichkeiten sich mit der Umsetzung eines „semantic web“ ergeben und welche Konsequenzen die künftigen Änderungen der Suchalgorithmen nach sich ziehen. Die Art und Weise, wie Crawler das Internet durchforsten, wird sich im Laufe der weiteren Umsetzung signifikant ändern. Und die wichtigste Frage dabei: Was bedeuten diese Veränderungen für Webseitenbetreiber?

Idee des „semantic web“

Ein Wort kann die Bedeutung einer Fragestellung völlig verändern. Der Unterschied zwischen einem „Wann starb Martin Luther King?“ und „Wie starb Martin Luther King“ ist erheblich und trotzdem liefert z.B. Google für beide Fragestellungen immer noch ähnliche Ergebnisse. Das könnte sich durch das „semantic web“ ändern. Die Grundidee ist, dass Maschinen aktiv beim Prozess aus Daten Wissen zu generieren, helfen oder ihn sogar ganz übernehmen. Dieses Wissen könnte uns direkt zur Verfügung gestellt werden. Beispielsweise könnten Fragen beantwortet oder Informationen ausgegeben werden, die wir normalerweise aus dem Kontext eines Textes herleiten.

Generell soll die Interaktion zwischen Maschine und Mensch verbessert werden, indem Maschinen Daten selbständig verarbeiten und miteinander verknüpfen. Dabei ist es ein Problem, dass Dokumente im World Wide Web bei einer Suchanfrage auf der Ebene der Zeichenfolgen durchsucht werden. Tauchen die Wörter der Suchanfrage „alle Supermärkte in Hamburg mit exotischen Früchten“ nicht in einem Dokument auf, wird das Dokument in den Suchergebnissen nicht gelistet, obwohl es die gesuchte Information auf der Bedeutungsebene beinhalten könnte.

Dahinter verbirgt sich folgender Sachverhalt: Zur semantischen und übergreifenden Strukturierung der Daten ist die wichtigste Grundlage, dass Maschinen die Bedeutung der Inhalte verstehen. Damit Maschinen Informationen interpretieren können, müssen Begriffe mit einer eindeutigen Beschreibung ihrer Bedeutung versehen werden. Bislang können Robots und Crawlern nämlich nicht erkennen, dass es sich bei “Jan” um einen Vornamen handelt. Auch mehrdeutige Begriffe wie „Golf“ oder „Schloss“ verdeutlichen die Problematik, die mit einer unklaren Auszeichnung einhergehen könnte.

Ein möglicher Ansatz zur eindeutigen Repräsentierung der Bedeutung und Zusammenhänge der Inhalte ist das “Resource Description Framework” (kurz: RDF). Dadurch können die Inhalte in einem für die Maschinen verständlichen Schema beschrieben werden. Innerhalb des RDF bestehen Aussagen immer aus drei Elementen: Subjekt, Prädikat und Objekt. Subjekt und Objekt stehen miteinander in Beziehung und das Prädikat benennt die Beziehung. Diese ist immer vom Subjekt zum Objekt gerichtet. Es handelt sich bei dem RDF per se um ein Modell, das von keiner fest definierten Syntax abhängt, da RDF-Notationen über verschiedene Wege vorgenommen werden können.

Zur Einbindung von RDF-Notationen in XHTML kann eine Variante des RDF, das RDFa genutzt werden. SEO-Experten ist das bereits bekannt, denn Auszeichnungen mit RDFa tauchen auch in Googles Rich Snippets auf. Ein neues Subset des RDFa ist das RDFa Lite. Es erleichtert vor allem Einsteigern die Arbeit, die sich noch nicht mit der Auszeichnung der Inhalte Ihrer Webseite  beschäftigt haben.

semantic_web_screenshot_20130502

Sofern Maschinen die Bedeutung der Inhalte verstehen, können sie die Bedürfnisse der Nutzer schneller befriedigen. Sie können Ergebnisse aus unterschiedlichen Quellen kombinieren und die gewünschte Information liefern. Darüber hinaus stellen Maschinen kontextbezogene Daten zur Verfügung, da sie die Relation zwischen den einzelnen Inhalten kennen.

Google als semantische Suchmaschine

Inzwischen hat Google ein Stück „semantic web“ am Massenmarkt etabliert. Jedem Nutzer wird bei entsprechenden Suchbegriffen der „Knowledge Graph“ angezeigt.

Bei Personen, Orten und Gegenständen erscheint auf der rechten Seite neben den organischen Suchertreffern ein Kasten mit nützlichen Informationen. Zudem wird in der englischen Version der Suchmaschine beim entsprechenden Suchterm wie z.B. „famous jazz composers“ eine passende Übersicht unter der Suchergebnisleiste ausgegeben.

knowledge_graph_05

Quelle: Google

Weil sich nicht immer alle benötigen Informationen auf einer einzigen Webseite befinden, dürfen Webseiten nicht isoliert voneinander betrachtet werden. Diese Möglichkeit bietet der Knowledge Graph, in dem er Daten aus mehreren Quellen kombiniert und verschiedene Websites nach bestimmten Typen oder Objekten durchsucht.

Auf diese Weise kommen wir dem Ziel ein Stückchen näher, dass mit dem Konzept des „semantic web“ verfolgt wird: Die Nutzung des Internets effizienter zu gestalten.

Mit der Umsetzung eines „semantic web“ sollen in Zukunft sowohl der Recall, die Vollständigkeit der relevanten Informationen, als auch die Precision, die Relevanz der gefundenen Information, erhöht werden. Dadurch liefert die organische Suchergebnisseite noch bessere Ergebnisse. Eine interessante Frage ist, wie relevant SEA weiterhin bleibt. In der Regel werden bereits heute die Anzeigen bei vielen Suchanfragen weniger beachtet. Allerdings können Anzeigen bei der Suche nach generischen Schlüsselwörtern hilfreich sein, bei denen Suchmaschinen eine besonders hohe Trefferanzahl liefern. Bevor sich der Suchende eigens einen Überblick verschafft, gelangt er über eine Suchanzeige schneller zu seinem relevanten Ergebnis. Doch welchen Wert haben diese Anzeigen, wenn die organische Suchergebnisliste  deutlich verbesserte Precision und  Recall bietet? In dem Zusammenhang muss auch berücksichtigt werden, dass z.B. Google Maßnahmen ergreifen würde um den SEA-Anzeigen weiterhin eine durchaus auch berechtigte wichtige Rolle zu ermöglichen.

Obwohl kurze und generische Suchanfragen viele Treffer generieren, gelangt der Nutzer meistens auch über die organischen Suchergebnisse schnell an sein Ziel. Eines der ersten Ergebnisse beinhaltet oftmals die Information, die der Nutzer benötigt. Schwieriger wird es bei komplexeren Suchanfragen. Dokumente werden auf der Ebene der Zeichenfolgen durchsucht und nicht auf der Ebene der Bedeutung, die bei derartigen Anfragen bewertet werden muss, um die Relevanz des Ergebnisses zu beurteilen. In Zukunft kann die Bedeutungsebene besser von Suchalgorithmen erfasst werden. Damit steigt auch die Wahrscheinlichkeit, dass die Seiten mit Inhalten, die tatsächlich in ihrer Bedeutung relevant für den Nutzer sind, die oberen Plätze beim Ranking belegen. Das ist derzeit je nach Komplexität der Anfrage nicht immer der Fall.

Wenn wir annehmen, dass die Bedeutungsebene das ausschlaggebende Kriterium sein wird, dann ist es fraglich, ob eine Abstimmung des Inhalts mit festgelegten Schlüsselwörtern weiterhin die Standardprozedur bei der Contentoptimierung bleibt. Außerdem fällt bei genauerer Betrachtung auf: nicht jedes Dokument, das die eingegebenen Suchtermini enthält, ist in Bezug auf das Informationsbedürfnis relevant. Inhalte, die auf bestimmte Schlüsselwörter hin optimiert wurden, enthalten nicht immer die gesuchte Information und können zurzeit bei Suchmaschinen auf einer guten Position ranken. Künftig könnten derartige Inhalte besser gefiltert werden.

Es gilt aber auch: Inhalte, welche die eingegebenen Suchtermini nicht enthalten, können durchaus für den Nutzer relevante Informationen enthalten. Bei der inhaltsbasierten Suche erhalten diese Webseiten ein deutlich besseres Ranking. Außerdem zeigt der „Knowledge Graph“, der bereits auf den SERPs Informationen bereitstellt, eine interessante Tendenz. Der Nutzer soll, so die Philosophie von Google, so wenig Zeit wie möglich auf der Suchergebnisseite verbringen. Mit derartigen Features wird Google mehr zum Frontend als zur Zwischenhaltestelle. Es wird deshalb zunehmend wichtiger, exklusive Inhalte anzubieten, die Nutzer dazu veranlassen, die eigene Seite tatsächlich zu besuchen. Letzten Endes wird sich eine völlig andere Art der Bewertung von Inhalten etablieren – und Webseitenbetreiber müssen ihre Arbeitsweise entsprechend anpassen.

Wenn wir den Faden weiterspinnen, ist durch das veränderte Bewertungsschema bei den Inhalten auch eine veränderte Bewertung von Links zu erwarten. Ist eine Website heute nicht gut gerankt, zum Beispiel aufgrund fehlender SEO-Optimierung, wodurch ihre Relevanz nicht erkannt werden kann, ist ein Link von dieser Seite derzeit auch weniger Wert als ein Link von einer sehr gut platzierten Seite für das Thema. Der Algorithmus kann die Relevanz nicht herstellen, obwohl die Seite eigentlich sehr gute Inhalte bietet. In Zukunft kann durch die Bewertung der Inhalte auf semantischer Ebene eine präzisere Bewertung von Backlinks stattfinden. Links von weniger SEO-optimierten Seiten mit relevanten Inhalten werden dadurch korrekterweise besser bewertet.

Fazit

Die Umsetzung des „semantic web“ liegt nahe und bietet viele Vorteile:

  • Die Interaktion zwischen Maschine und Mensch wird verbessert; wir gelangen schneller an die gesuchte Information – wir bewegen uns von einer schlüsselwortbasierten Suche hin zur inhaltsbasierten Suche.
  • Eine inhaltsbasierte Suche erfordert die Anpassung der Organisation der Daten im World Wide Web und impliziert neue Suchalgorithmen, an denen sich Webseitenbetreiber orientieren müssen.
  • Die einheitliche Auszeichnung und Klassifikation der Beziehungen von Inhalten ermöglicht das Kombinieren von Informationen aus mehreren Quellen; Daten erreichen eine bestimmte Unabhängigkeit und können so untereinander einfach ausgetauscht und in Beziehung gesetzt werden.
  • Neue Daten können durch Anwendung von definierten Schlussfolgerungsregeln aus bestehenden Daten automatisiert gewonnen werden. Außerdem ist es möglich, simple logische Aussagen zu treffen. Assoziative und korrelative Zusammenhänge können nicht hergestellt werden.

Comments on this entry are closed.

Back to top