Der Ngram-Viewer

ngram-viewer-vergleich-des-auftretens-der-begriffe-holocaust-und-shoah-zwischen-1950-und-2008-in-google-books_5289998978_oIm Wikipedia-Kurier wird auf ein neues Werkzeug aus den Google Labs hingwiesen, mit dem man den Textkorpus von Google Books auswerten kann. Der Ngram Viewer erlaubt die Suche über mehrere landessprachliche Korpora sowohl für einzelne Stichwörter als auch im Vergleich miteinander (ein sogenanntes N-Gramm). So kann man beispielsweise darstellen, wie sich die Begriffe Holocaust und Shoah seit Mitte der 1980er Jahre ergänzt, aber nicht auf gegenseitige Kosten verdrängt haben.

ngram-viewer-auftreten-des-begriffs-gefahrtarif-zwischen-1900-und-2008-in-google-books_5290014008_oNatürlich hat mich interessiert, ob es eine Besonderheit bei dem Begriff Gefahrtarif zu erkennen gibt. Die sprunghafte Zunahme der Rechtsstreitigkeiten um die Gefahrtarife insbesondere der Verwaltungs-Berufsgenossenschaft seit 2000 hat laut Ngram-Viewer tatsächlich zu einer ebenso sprunghaften Zunahme der Häufigkeit dieses Begriffs im deutschen Textkorpus von Google Books geführt, die auch darüberhinaus weiter anhält.

Hierzu wäre natürlich anzumerken, daß der Korpus von Google Books in keiner Weise repräsentativ wäre für die deutsche Sprache (oder für irgendeine andere Sprache, die dort erfaßt wird), denn darüber, welche zeitgenössischen Werke in Google Books eingestellt werden, entscheiden allein die Verlage und die Urheber dieser Werke, wie man mir am Buchmessestand von Google erklärt hatte. Nur bei den gemeinfreien Werken bediene sich Google nach eigenem Gutdünken. Außerdem dürften dort bei weitem mehr wissenschaftliche als populäre oder belletristische Werke erfaßt worden sein. Die Verlage entscheiden zudem darüber, welche Textausschnitte zu Werbezwecken bei Google abrufbar sind. Der Textkorpus von Google Books ist genauso unbekannt wie alles übrige auch bei Google, insbesodere die Suchalgorithmen. Google ist sozusagen die größte black box des Internets. Rückschlüsse von Google Books auf „die deutsche Sprache“ sind also nur innerhalb gewisser Grenzen zulässig… trotzdem ganz sicherlich ein sehr interessantes Tool.

4 Kommentare zu „Der Ngram-Viewer“

  1. Nicht vergessen sollte man allerdings, daß ein solches Werkzeug in Laienhand behände falsche Schlüsse nach sich ziehen kann ob statistischer Artefakte. Die daraus resultierende Flut an Daten, macht es letztendlich erheblich schwieriger, die Spreu vom Weizen zu trennen.

  2. Davon abgesehen fand ich es schon immer recht absurd entsprechende Prosa oder gar Lyrik zu bemessen. Diese Dinge kann man mit dem Geist erfassen, man kann sie verinnerlichen, man kann über diese reden und eine Meinung diesbezüglich haben, aber man kann sie nicht in Zahlen fassen.

Die Kommentarfunktion ist geschlossen.