Traffic Sign Recognition: Das Datensatz-Problem und TS-1M als Lösung

In einem früheren Artikel über Data Labeling habe ich die automatische Verkehrszeichenerkennung – oft als Traffic Sign Recognition bekannt – als eine der komplexesten Komponenten der gesamten Pipeline für autonomes Fahren beschrieben. Eine Aufgabe, bei der die technischen Anforderungen hoch sind, regionale Unterschiede eine große Rolle spielen und schon ein einzig falsch gelabeltes Frame dazu führen kann, dass ein ML-Modell insgesamt schlechter performt.

Ein aktuelles Research Paper der Hong Kong University of Science and Technology (Guangzhou) bestätigt genau diese Einschätzung und geht sogar noch einen Schritt weiter: das Paper „Traffic Sign Recognition in Autonomous Driving: Dataset, Benchmark, and Field Experiment“ (arXiv:2603.23034) stellt TS-1M vor: einen groß angelegten, global diversifizierten Datensatz für Verkehrszeichen, der gezielt aufzeigt, wo aktuelle ML-Modelle an ihre Grenzen stoßen. Und diese Lücken sind nicht nur theoretischer Natur. Es sind genau die Probleme, auf die man im produktiven Data Labeling ständig stößt.

DIE REFERENZIERTE FORSCHUNG

TS-1M: Traffic Sign Recognition in Autonomous Driving –
Dataset, Benchmark, and Field Experiment

Zhao et al., The Hong Kong University of Science and Technology (Guangzhou)

Was ist TS-1M und warum ist es so wichtig?

TS-1M umfasst über eine Million reale Bilder von Verkehrszeichen aus unterschiedlichen Regionen weltweit. Insgesamt deckt der Datensatz 454 standardisierte Kategorien ab. Die meisten bestehenden Datensätze zur automatischen Verkehrszeichenerkennung sind deutlich eingeschränkter: Sie fokussieren sich oft auf einzelne Länder oder Regionen und werden unter Bedingungen evaluiert, die wenig mit der Realität zu tun haben.

1M+

Trainingsbilder unter realen Bedingungen

454

standardisierte Kategorien von Verkehrszeichen

200K

Testbilder für challenge-basierte Evaluation

Der Benchmark vergleicht drei Modelltypen:

Klassische supervised Modelle (CNNs, Vision Transformer)
Self-supervised pretrained Modelle
Multimodale Vision-Language-Modelle (VLMs)

Und das unter vier zentralen Herausforderungen:

Semantisches Textverständnis
Generalisierung über Regionen hinweg
Erkennung seltener Kategorien
Robustheit bei schlechter Bildqualität

Das „Cross-Region“-Problem ist aus der Praxis nur zu bekannt

Wie ich schon im vorherigen Artikel beschrieben habe: Die automatische Verkehrszeichenerkennung ist extrem abhängig von Land und Region. Der Typ eines Verkehrszeichens, die Kategorie (Verbot, Warnung, Gefahr, Richtung, Ausstattung) und sogar die erlaubten Textwerte innerhalb eines Tempolimits unterscheiden sich je nach nationaler Gesetzgebung.

Das TS-1M Paper macht genau das in großem Maßstab sichtbar.
Ein zentrales Ergebnis: Semantisches Verständnis – also zu verstehen, was ein Verkehrszeichen bedeutet, nicht nur wie es aussieht – ist der entscheidende Faktor für Generalisierung über Regionen hinweg. Modelle, die rein auf visuelle Muster setzen, brechen schnell ein, sobald sich Form, Farbe oder Symbolik zwischen Ländern unterscheiden.

Traffic sign recognition in autonomous driving is challenging because traffic signs vary widely across regions in shape, color, iconography, legal meaning. The TS-1M dataset highlights that cross-region generalization depends on semantic understanding and not just visual pattern matching, showing where computer vision and machine learning models still struggle in real-world conditions.
Image created with Midjourney and later modified. — Verkehrszeichen variieren weltweit stark und genau deshalb ist automatische Verkehrszeichenerkennung so schwierig. TS-1M zeigt: Ohne semantisches Verständnis scheitern viele Modelle im realen Einsatz.
Bild erstellt mit Midjourney und nachträglich modifiziert.

EINBLICK AUS DER PRAXIS

„Es geht nicht nur darum, zu erkennen, dass da ein Verkehrszeichen ist.
Sondern auch: Welcher Typ ist es? Was steht drauf? Welche Handlung impliziert es, und gilt es überhaupt für das eigene Fahrzeug?
Die Labeling-Struktur muss diese semantische Tiefe von Anfang an abbilden.“

Genau deshalb ist das Onboarding eines neuen Landes in eine Labeling-Pipeline kein simples Datensammeln. Es bedeutet:

Die komplette Überarbeitung der Labeling-Struktur
Neue Regeln und Anpassungen im Labeling-Tool
Zusätzliche Qualitätssicherung mit Annotatoren (= Menschen, die Daten „beschriften“, damit KI-Modelle daraus lernen können), die die lokalen Verkehrszeichen wirklich verstehen

Diese Prozesse von Monaten auf Wochen zu verkürzen ist möglich, aber nur mit den richtigen Tools und Prozessen. Die Komplexität selbst verschwindet nicht. Man muss sie nur besser managen.

Long-Tail-Verteilungen und seltene Kategorien

Die Analyse seltener Kategorien bestätigt, was viele aus der Praxis schon vermuten:
Modelle, die sich stark auf visuelle Muster verlassen, haben Probleme, wenn die Trainingsdaten unausgewogen sind.

Einfach gesagt: Wenn ein Verkehrszeichen im Training nur selten vorkommt, erkennen solche Modelle es später deutlich schlechter.

Modelle mit stärkerem semantischem Verständnis, vor allem multimodale Vision-Language-Modelle (VLMs), sind hier robuster. Sie können auch dann besser einordnen, um welches Verkehrszeichen es sich handelt, wenn sie nur wenige Beispiele davon gesehen haben. Das passt direkt zu einer zentralen Strategie im Data Labeling:
gezielt nach seltenen oder unterrepräsentierten Fällen suchen und diese bewusst ins Training zurückspielen. Die Ergebnisse von TS-1M liefern dafür die wissenschaftliche Begründung: Diese Strategie ist kein Nice-to-have, sondern entscheidend für die Modellqualität.

Schlechte Bildqualität und das Problem mit beschädigten Verkehrszeichen

Ein besonders spannender Teil des Papers ist die Bewertung der Robustheit gegenüber schlechter Bildqualität. Denn die Realität sieht so aus: Verkehrszeichen verblassen, werden überklebt, beschmiert oder beschädigt. In der Praxis müssen solche Zustände beim Labeling für Fahrassistenzsysteme klar erfasst werden:

Strukturelle Schäden (Verformung des Verkehrszeichens)
Umwelteinflüsse (Sonne, Wasser, Rost)
Verblasste Farben (geringer Kontrast)
Sticker/Graffiti (teilweise oder komplette Verdeckung)

Das TS-1M-Paper zeigt: Ein Modell, das auf sauberen Bildern gut funktioniert, kann bei beschädigten Verkehrszeichen komplett versagen. Deshalb ist Defekt-Annotation ein zentraler Trainingsfaktor.

Die Zwei-Modell-Architektur: Forschung bestätigt Praxis

In meinem früheren Artikel habe ich einen Ansatz beschrieben, der in der automatischen Verkehrszeichenerkennung häufig in der Praxis genutzt wird: ein Zwei-Modell-System. Dabei übernimmt ein Modell die Detektion (also: Wo befindet sich das Verkehrszeichen im Kamerabild inklusive Position und Abstand zum eigenen Fahrzeug), und ein separates Modell die Klassifikation (also: Welcher Typ ist es, welcher Text steht darauf und wie relevant ist es).

Die TS-1M-Benchmark bewertet genau diese Aufteilung. Das Ergebnis: Semantisches Textverständnis ist eine eigene, klar abgrenzbare Herausforderung, unabhängig von der visuellen Detektion. Das erklärt, warum beide Aufgaben von unterschiedlichen Modellarchitekturen profitieren, die jeweils mit unterschiedlichen Arten von gelabelten Daten trainiert werden. Ein unnötiger Mehraufwand? Nein, sondern die Grundlage für ein zuverlässiges System.

Was das für Data Labeling in der Praxis bedeutet

Die zentrale Aussage meines früheren Artikels war: Data Labeling ist kein einmaliges Projekt, sondern ein kontinuierlicher Prozess. TS-1M bestätigt genau das – nur aus einer anderen Perspektive. Die verschiedenen Evaluationsszenarien im Benchmark zeigen im Grunde alle Wege, wie beim Labeling Daten entstehen können, die auf den ersten Blick gut aussehen, aber genau dann versagen, wenn es darauf ankommt.

FAZIT

Ein gelabelter Datensatz ist nicht einfach nur Input für ein ML-Modell.
Er ist ein eigenes Produkt. Mit klaren Anforderungen, eigenen Qualitätskriterien und dem Bedarf, ständig weiterentwickelt zu werden. TS-1M zeigt: Datensätze müssen genauso sorgfältig bewertet werden wie die Modelle, die auf ihnen trainiert werden. Das Gleiche gilt für die Labeling-Prozesse, die diese Daten überhaupt erst erzeugen.

Ausblick: Automatische Verkehrszeichenerkennung in der Zukunft

Das TS-1M Paper validiert seine Benchmark auch durch Experimente in realen Fahrszenarien. Dabei wird die automatische Verkehrszeichenerkennung mit räumlicher Lokalisierung und semantischem Verständnis kombiniert, um Entscheidungslogiken auf Kartenebene zu unterstützen. Genau in diese Richtung entwickelt sich das Feld: weg von isolierten Wahrnehmungsaufgaben hin zu einem integrierten Verständnis der Fahrumgebung, in dem jedes gelabelte Objekt zu einem konsistenten, semantisch fundierten Weltmodell beiträgt.

Für alle, die an der Datenseite dieser Pipeline arbeiten, ist die Botschaft klar:
Die Anforderungen an Qualität steigen. Regionenübergreifende Abdeckung, die Repräsentation seltener Verkehrszeichen-Kategorien, die Annotation von Defekten und eine ausreichende semantische Tiefe sind zu grundlegenden Anforderungen geworden. Die Forschung bringt auf den Punkt, was Teams in der Praxis längst wissen – und jetzt können beide Seiten darüber sprechen.

Quellen

https://applydata.io/data-labeling-as-a-continuous-service/
https://arxiv.org/pdf/2603.23034

Author info

Dana Juncu

Ich arbeite im Produktmanagement bei diconium data. Das Coolste, was man mit Daten machen kann, sind Statistiken, die in benutzerfreundlichen Dashboards präsentiert werden. Je einfacher wir die Daten über ein Produkt verstehen können, desto bessere Entscheidungen können wir darüber treffen. Mit welchem Seriencharakter ich mich am meisten identifizieren kann? Lisa Simpson.