• Facebook
  • Twitter
  • Google Plus
  • Analyse

Das Fünf-Sterne-Problem des Internets

, Geoffrey Fowler, Wall Street Journal

Sterne-Bewertungen sind Teil der Online-Kultur. Aber wenn alles 4,3 Sterne bekommt, ist die Aussagekraft gleich null. Von Geoffrey Fowler

Ein Finger tippt auf einen goldenen Stern © Getty Images
Fünf Sterne sind das Standard-Bewertungssystem im Internet

Wissen Sie, für was ich null Sterne vergeben würde? Die meisten der Sterne-Bewertungen sehen Sie online. Du musst Sterne vergeben an Deinen Uber-Fahrer, den Film, den Du gestreamt hast, das Ben & Jerry’s-Eis, das Du bestellt haben - und den Kerl, der es ausgeliefert hat.

Und was bekommt man dafür? In einem kleinen Experiment habe ich mir alle Klebebänder angeschaut, die bei Amazon verkauft werden. Für die 250 Typen und Größen lag die durchschnittliche Bewertung bei 4,2 Sternen. Auf Yelp habe ich mir Eisdielen in San Francisco angeschaut: Mehr als die Hälfte erhalten entweder 4,5 oder 5 Sterne. Und ich kann mich nicht erinnern, dass ich jemals einen Uber-Fahrer mit einer Bewertung unter 4,3 Sterne gesehen hätte.

Tatsächlich erhalten online bewertete Produkte durchschnittlich 4,3 Sterne, wie Power Reviews bei der Analyse von mehr als 1000 Online-Shops festgestellt hat.

Netflix: Daumen statt Sterne

Zweifellos können Online-Bewertungen helfen, schlechte Produkte auszusortieren, vor miesen Restaurants zu warnen und gefährliche Fahrer von der Straße fernzuhalten. Bewertungen sind eine Säule der Online-Kultur, und es gibt Möglichkeiten, um nützliche Informationen aus ihnen herauszuholen. Aber ich mag nicht akzeptieren, dass alles im Internet überdurchschnittlich gut sein soll.

Am Mittwoch vergangener Woche hat Netflix offiziell sein Fünf-Sterne-System abgeschafft. Nach umfangreichen Tests wird es ersetzt durch ein einfaches Daumen hoch und Daumen runter. „Sie erhalten mehr Bewertungen, wenn Sie weniger Entscheidungsmöglichkeiten haben“, sagt Todd Yellin, Netflix-Vizepräsident zuständig für Produktinnovationen. Und mehr Daten, kombiniert mit dem tatsächlichen Sehverhalten, ermöglichen es Netflix, personalisierte Empfehlungen zu geben, die als prozentuale Übereinstimmung dargestellt werden. Es ist wie eine Dating-Website für Filme.

Daumen und Empfehlungen können nicht für jede App funktionieren. Aber das schaffen auch die Sterne-Bewertungen nicht, die von professionellen Kritiken entlehnt und jetzt oft als Mittel zur Bestimmung der Schwarmintelligenz missbraucht werden.

Die Menschen brauchen mehr Hilfe, um die Ergebnisse zu interpretieren. „Ist drei Sterne gut oder schlecht? Ich kann mich an keine Plattform erinnern, die das festgelegt hat“, sagt Michael Luca, Dozent für Informationsdesign an der Harvard Business School.

Wir sind viel zu nett

Es ist zum Teil unsere Schuld: Wir sind viel zu nett. Das Internet ist bekannt dafür, Meinungen zu verdrehen. Aber es gibt Beweise, dass wir viel eher zu positiven Bewertungen neigen als schlechte zu vergeben. Laut Yelp werden für örtliche Unternehmen in 46 Prozent der Fälle fünf Sterne vergeben. Das mag an der menschlichen Natur liegen: Du hast dieses Restaurant gewählt, also wie könnte es etwas weniger sein als eine Fünf-Sterne-Entscheidung? Nur einmal während eines längeren Zeitraums haben Sie mal ein schreckliches Erlebnis, vor dem Sie mit einer Ein-Sterne-Bewertung warnen möchten.

Viele von uns würden sich sogar selbst belügen, wenn sie sich als Kritiker betätigten, sagt Yellin. Haben Sie nicht auch mal einen Oscar-nominierten Film mit fünf Sternen bewertet, weil er „wichtig“ war ... obwohl Sie ihn tatsächlich gähnend langweilig fanden?

[Seitenwechsel]

Noch schlimmer wird es wenn Apps dazu benutzt werden, um die Leistung von Mitarbeitern zu bewerten. Uber-Fahrer können bei relativ niedrigen Bewertungen rausfliegen, wobei das Unternehmen nichts zu den Grenzen sagen will. Es ist jedenfalls sozial schwierig, weniger als fünf Sterne zu geben, auch wenn es im Auto des Fahrers irgendwie komisch riecht. Ubers Sterne eignen sich nicht für die Suche nach guten Fahrern, sie markieren die Schlechten.

Bei Yelp dient die Verwendung des gleichen Sternesystems einem anderen Zweck: die besten örtlichen Unternehmen zu kennzeichnen. Aber wenn jede Eisdiele eine überdurchschnittliche Bewertung erhält, brauchen wir andere Faktoren, um einen Gewinner zu ermitteln. Das ist der Grund, warum die User schriftliche Rezensionen hinterlassen müssen, die dem Kern der Sache näher kommen. Der Nachteil: Wir müssen dem Geschmack der Leute vertrauen, die Zeit zum Schreiben haben.

Und dann gibt es ja auch noch Betrug. Apps blasen ihre Bewertungen auf, indem sie zuerst fragen, ob die Nutzer glücklich sind, bevor sie sie auffordern eine Rezension zu schreiben. (Nicht glücklich? Hier ist der Kundenservice.) Ich kenne Uber-Fahrer, die mir angeboten haben, eine Fahrt früher zu beenden – gegen einen kleinen Preisnachlass – im Austausch für eine Fünf-Sterne-Bewertung. Bezahlte Lobhudler oder Internet-Trolle sind hier noch gar nicht miteingerechnet.

Suche nach besseren Wegen

Die gute Nachricht ist: Viele Fehlerkorrekturen sind im Gange. Amazon brachte Klagen gegen über 1000 Personen auf den Weg wegen Missbräuchen wie dem Kauf gefälschter Kritiken. Und im vergangenen Jahr änderte Amazon sein Sternesystem, um hilfreichen Bewertungen und solchen von verifizierten Käufern mehr Gewicht zu geben.

Airbnb stellte fest, dass Kritiken viel präziser ausfielen, nachdem das Unternehmen 2014 ein Doppelblind-Verfahren eingeführt hatte: Gastgeber und Gäste bekommen die Bewertung des jeweils anderen nicht zu sehen, bevor sie gepostet werden.

Es gibt ein Spannungsverhältnis zwischen dem Bestreben, die Bewertungsverfahren zu vereinfachen, damit sich mehr Menschen beteiligen können, und dem Wunsch nach größerer Genauigkeit, damit die Bewertungen nützlicher werden. Als Netflix den Daumen als Alternative zu den Sternen testete, verdoppelte sich die Beteiligungsquote auf 40 Prozent. Trotz des Verlustes der sternspezifischen Genauigkeit, sagt Netflix, dass die User ehrlicher mit dem Daumen sind. Dadurch kann die Netflix-Software Vorschläge machen, die den Geschmack treffen.

Auch Uber hat den Daumen getestet in Verbindung mit Emojis. Aber die Alternativen hätten dazu geführt, dass die Fahrgäste noch positivere Bewertungen abgaben – womit das Feedback für die Fahrer noch weniger aussagekräftig gewesen sei. Uber hat jetzt sein Fünf-Sterne-System um ein Menü ergänzt, wo die Fahrgäste Lob und Tadel spezifizieren können.

Trip Advisor zeigt neben dem Durchschnittswert auch eine Rankingposition an. Das San Francisco Maritime Museum beispielsweise hat 4,5 Sterne, aber unter den besten Sehenswürdigkeiten der Stadt liegt es nur auf Platz 152.

Bei Yelp werden die Suchergebnisse nicht nur nach der durchschnittlichen Bewertung, sondern auch nach der Zahl der Kommentare, deren Aktualität und der Entfernung vom jeweiligen User aufgelistet. Das top-gelistete Taco-Restaurant in San Francisco hat zwar nur vier Sterne ... aber mehr als 4000 Kritiken.

Die Firmen sollen uns verstehen

Die Abschaffung des Sterne-Systems wird nicht einfach, weil wir uns daran gewöhnt haben. „Alle möglichen Unternehmen haben schon anderen Bewertungssystemen gearbeitet, und die meisten kehren zu den fünf Sternen zurück“, sagt Matt Moog, CEO von Power Reviews.

Was wir wirklich wollen ist, dass uns diese Firmen verstehen. Leider werden die Einschätzungen nur besser, wenn die Unternehmen noch genauer erfassen was wir da treiben – ob wir ein Produkt tatsächlich kaufen oder ob wir im Restaurant essen. Die Erkenntnisse von Netflix sind brillant, weil der TV-Dienst weiß, bei welchem Film Du nach zehn Minuten ausgestiegen bist.

Eine personalisierte Empfehlung ist besser als eine beliebige Vier-Sterne-Komma-irgendwas Bewertung. Aber die gibt es nur, wenn man viel von sich preisgibt.

Copyright The Wall Street Journal 2017


Artikel zum Thema