embedded

Wie Webseiten RDF einbetten und wie man strukturierte Daten aus dem Web extrahieren kann

Zusammenfassung

RDF kann als JSON-LD, Microdata oder RDFa in Webseiten eingebettet werden. In Diensten wie Suchmaschinen oder sozialen Netzwerken kann das die Sichtbarkeit erhöhen und mehr Traffic auf Websites generieren. Eingebettetes RDF von externen Websites könnte Ihren eigenen Knowledge Graph erweitern.

RDF

RDF , die Grundlage des Semantic Webs und von Linked Data, ist ein Standard für die Beschreibung und den Austausch von Daten.

Einer der Vorteile ist, dass externes RDF schnell im eigenen Knowledge Graph integriert und genutzt werden kann.

Es gibt viele öffentlich verfügbare Datensätze, die in einer RDF-Serialisation heruntergeladen werden können (zudem bieten einige Publisher auch einen Endpoint an, der es ermöglicht die Daten mit SPARQL abzufragen). Für einen ersten Eindruck bietet sich die Linked Open Data Cloud an, auf der Datensätze gesammelt werden, die unter einer offenen Lizenz stehen.

Aber es gibt eine weitere mögliche Quelle für Daten in RDF: reguläre Webseiten, die das RDF in ihrem HTML einbetten.

Warum betten Webseiten RDF ein?

Es gibt unzählige Motivationen, RDF auf Webseiten einzubetten, aber die meisten Publisher machen dies sicherlich, um bestimmte Features in Diensten wie sozialen Netzwerken und Suchmaschinen zu ermöglichen.

In sozialen Netzwerken kann eingebettetes RDF Vorschauen für geteilte Links ermöglichen.

In Suchmaschinen kann eingebettetes RDF (durch die Nutzung des Vokabulars Schema.org) Suchergebnis-Snippets hervorheben oder erweitern. Dies ist relevant für die Suchmaschinenoptimierung (SEO), denn solche Snippets fallen den Nutzern und Nutzerinnen schneller ins Auge und diese erhöhte Sichtbarkeit kann zu einer besseren Click-Through-Rate auf die Webseiten führen.

Zum Beispiel bietet die Suchmaschine Google Search „Rich Results“ für Datensätze, Fragen und Antworten und viele weitere Fälle an. Der folgende Screenshot zeigt ein Rich Result für Stellenausschreibungen, welches oben auf der Suchergebnisseite angezeigt wird, sogar noch vor dem ersten regulären Suchtreffer.

Suchanfrage „job postings teacher düsseldorf“ in Google Search
Wie betten Webseiten RDF ein?

Es gibt drei übliche Syntaxen für das Einbetten von RDF in Webseiten:

JSON-LD wird in einem eigenen script-Element eingebettet:

				
					<script type="application/ld+json">
{ 
   "@context": "https://schema.org",
   "@type": "Organization",
   "name": "ACME"
}
</script>
				
			
Microdata besteht aus Attributen (z. B. itemprop), die dem bestehenden HTML hinzugefügt werden können:
				
					<div itemscope itemtype="https://schema.org/Organization">
  <span itemprop="name">ACME</span>
</div>
				
			
RDFa besteht, wie auch Microdata, aus Attributen (z. B. property):
				
					<div typeof="schema:Organization">
  <span property="schema:name">ACME</span>
</div>
				
			

Während Microdata und RDFa es ermöglichen, die vorhandenen Inhalte zu nutzen, erfordert JSON-LD die Inhalte zu duplizieren.

Wie viele Webseiten betten RDF ein?

Das Projekt Web Data Commons analysiert regelmäßig den Korpus des Projekts Common Crawl, um herauszufinden, wie viele der gecrawlten Domains / Webseiten Tripel einbetten (was die drei oben genannten Syntaxen umfasst, sowie bestimmte Microformats): https://webdatacommons.org/structureddata/

Für jedes Jahr von 2012 bis 2022 zeigt das Balkendiagramm, wie viele Pay-Level-Domains Microdata, JSON-LD, hCard (Microformats) und RDFa veröffentlicht wurden. (Screenshot aufgenommen von webdatacommons.org, 2023-03-07)

Im Crawl vom Oktober 2022 enthielten fast 50 % der gecrawlten Webseiten und circa 40 % der gecrawlten Pay-Level-Domains Tripel.

Wie lässt sich feststellen, ob eine Webseite RDF einbettet?

Standardmäßig zeigen Browser nicht an, dass eine Webseite RDF enthält. Neben der Überprüfung des HTML-Quelltextes gibt es die Option, Browser-Erweiterungen zu nutzen, die eingebettetes RDF anzeigen können.

Ein Beispiel ist der Structured Data Sniffer von OpenLink Software. Diese Erweiterung zeigt das RDF in einem Overlay in der oberen rechten Ecke an:

Beispiel: Stellenausschreibung auf LinkedIn
Wie lässt sich eingebettetes RDF extrahieren?

Die oben genannte Erweiterung Structured Data Sniffer ermöglicht es, das RDF anzuzeigen, zu speichern und hochzuladen (z. B. in einen SPARQL-Endpoint). Sie unterstützt die RDF-Serialisationen JSON-LD, RDF/XML und Turtle.

Eine weitere Option, die auch in Programmen verwendet werden kann, ist die Python-Bibliothek und das Kommandozeilen-Tool extruct von Zyte. Es legt die Tripel in einem JSON-Object ab, das ein JSON-LD-Object für das extrahierte RDF enthält.

Join in!

Möchten Sie eingebettetes RDF nutzen? Beispielsweise um es in Ihrem Knowledge Graph zu integrieren?

Möchten Sie RDF in Ihren Webseiten einbetten? Beispielsweise um die Sichtbarkeit auf Suchergebnisseiten zu erhöhen?

Nehmen Sie Kontakt mit uns auf, um herauszufinden, ob wir Sie unterstützen können.

Autor

Stefan Götz

Haben wir Ihr Interesse geweckt?
Lassen Sie uns ins Gespräch kommen​

Das könnte Ihnen auch gefallen

Neuester Beitrag Aktuelles

Cross-Selling durch einen Knowledge-Graph: Der brox Use Case eines globalen Elektro-Werkzeug-Unternehmens

Cross-Selling durch einen Knowledge-Graph: Der brox Use Case eines globalen Elektro-Werkzeug-Unternehmens Ein führender Hersteller von Elektro-Werkzeugen wollte Kompatibilitätslisten zwischen seinen Werkzeugen und Zubehörteilen erstellen, um Cross-Selling zu unterstützen. Die Schwierigkeit dabei war, dass die Daten für Werkzeuge und Zubehör in verschiedenen Datenformaten und Datenbanken gespeichert waren. Durch die Beratung der

Weiterlesen...
Fachartikel

Time Ontology

Case study: a browser embedded ontology-driven app for finding time intervals RDF (Resource Description Framework), SPARQL, ontologies and other Semantic Web Stack technologies are typically associated either with academia or with big corporate data integration projects where knowledge graphs solutions enable what is hard to achieve without the sophisticated modelling

Weiterlesen...
Fachartikel

Testmanagement

Testmanagement: Dein Schlüssel zur erstklassigen Softwarequalität Die unverzichtbare Rolle des Testmanagements In der dynamischen Welt der Technologie entscheidet die Softwarequalität oft über Erfolg oder Misserfolg eines Produkts. Angesichts der einzigartigen Herausforderungen jedes Projekts bleibt eines konstant: die Notwendigkeit, erstklassige Software zu liefern. Hier kommt das Testmanagement ins Spiel, das oft

Weiterlesen...
Neuester Beitrag Sonstiges

Der Wandel der brox

Der Wandel der brox Zusammenfassung Die brox ist geprägt durch ihre familiäre Atmosphäre und möchte diese während ihres Wachstums nicht verlieren. Die Vision besteht darin, organisches Wachstum mit ihrer Identität zu vereinen. Hierzu müssen verschiedene Herausforderungen, wie die enge Verzahnung der neuen Standorte, sowie die Eingliederung extern geregelter Prozesse, gemeistert

Weiterlesen...
Fachartikel

Erstellung eines Incident Management Dashboards

5 Tipps zur Erstellung eines Incident Management Dashboards 1. Kenne deine Zielgruppe Es gibt viele potenzielle Zielgruppen für die Daten des Incident Managements. Neben den Process Performern und dem Process Management gehören das mittlere und höhere Management genauso dazu, wie die Kunden und Nutzer der eigenen Produkte. Grundsätzlich gilt: Ein

Weiterlesen...
Firmenevents

Team-Event in der Lauschhütte

Team-Event Stuttgart und Mannheim: Impulskette in der Lauschhütte Teambuilding in der Lauschhütte Das brox-Team Mannheim und Stuttgart hatten ein gemeinsames Team-Event! Im September ging es für uns nach Bingen zur Lauschhütte, in der uns ein kleines Abenteuer bevorstand – eine Baumhausübernachtung. Nach individueller Ankunft besprachen wir während des Mittagessens die

Weiterlesen...

Lassen Sie uns ins Gespräch kommen​