Titelbild: 3 Mio. Zeichen verstehen in 48h? kein Ding.

Wie Statista+ unstrukturierte Texte 95 Prozent schneller verarbeitet

Wer wochenlang Interviews, E-Mails oder Protokolle auswertet, hat keine Zeit für Strategie. Statista+ zeigt am Beispiel von Experteninterviews, wie ein flexibles System aus Skripten und KI-Modulen den Aufwand drastisch beschleunigt – und warum die Logik überall funktioniert, wo heute noch manuell Informationen aus Texten in Tabellen fließen.

Von Ralf Theil, 26.03.2026.

Problem

Die manuelle Analyse langer Interviews dauerte pro Gespräch 8-12 Arbeitsstunden. Bei 30-40 Interviews pro Projekt ein Engpass, der Analyst:innen wochenlang band.

Lösung

Ein Baukasten aus regelbasierten Skripten und KI-Modulen. Je offener die Interviewfragen und je vielfältiger die Antworten, desto leistungsfähiger die Werkzeuge.

Ergebnis

Die Automatisierung reduziert die strukturelle Analysezeit eines kompletten Interviewprojekts von mehreren Wochen auf rund 30 Minuten Rechenzeit. Statt statischer Berichte liefert das System eine navigierbare Datenbank mit validierten Originalzitaten.

ROI

Rund 95 Prozent Zeitersparnis, mehr Umsatz bei gleicher Teamgröße. Systematisches Upskilling für das ganze Team.

Inhaltsübersicht

01

Ausgangslage

Die Crux der manuellen Analyse

02

Vier Schritte: Von Audio zur durchsuchbaren Datenbank

Schritt 1: Transkripte bereinigen (regelbasiert)

Schritt 2: Sprachliche Bereinigung (LLM)

Schritt 3: Der Kernprozess – Insights und Zitate extrahieren

Schritt 4: Der Output als Datenbank

03

Perspektive

Von Analysten zu Supervisoren

04

Learnings: So gelingt die Skalierung

Die neue Ökonomie des Influencer-Marketings

01

Die Crux der manuellen Analyse

Ein qualitatives Experteninterview liefert tiefe Einblicke – aber in der Nachbereitung steht man erst einmal vor Unmengen von unstrukturierten Daten. Eine Stunde Audio, automatisch transkribiert, liefert rund 80.000 Zeichen – voller Füllwörter, Verständnisfehler und Halbsätze.

So sah der Alltag bei Statista+ aus, wo qualitative Interviews zum Kerngeschäft gehören: Sie validieren quantitative Ergebnisse, erschließen Nischenmärkte und liefern Kontext, den keine Datenbank hergibt. „Wenn du fünf Tage am Stück solche Interviews auswertest, tritt irgendwann Fatigue ein“, erinnert sich Kaba Barsch, Head of Data-Driven Solutions. Früher kostete die Analyse eines einzigen Gesprächs bis zu zwölf Stunden – bei einem typischen Projekt bedeutete das sechs Wochen reine Fleißarbeit, in der Nuancen oft verloren gingen.

Doch nicht nur der Zeitfaktor spielt eine Rolle: „Wenn wir die Daten strukturiert vorliegen haben, ist das Ergebnis auch für den Kunden wertvoller als vorher“, sagt Frederik Gronwald, Chief Customer Officer.

Das Ziel: Schneller arbeiten ohne Qualitätsverlust. Doch wie entscheidet man, welche Werkzeuge wo zum Einsatz kommen?

Wie viel Automatisierung braucht ein Interview? Das Varianz-Modell entscheidet


Nicht jedes Interview ist gleich komplex. Entscheidend ist, welche Daten in die Analyse fließen und welches Ergebnis am Ende stehen soll. Statista+ prüft deshalb vorab zwei Faktoren:

Input-Varianz – Wie heterogen sind die Rohdaten?

Der Input sind die Interviewdaten, die analysiert werden sollen.

  • Niedrige Varianz: Standardisierte Antworten auf geschlossene Fragen, begrenzte Zahl möglicher Antworten („Welche Marke nutzen Sie?“)
  • Hohe Varianz: Offene, explorative Gespräche, die unterschiedliche Perspektiven, Widersprüche und neue Themen hervorbringen („Was erwarten Sie von der Branche in fünf Jahren?“)

Beispiel für hohe Input-Varianz: Wer Vertriebsmitarbeitende, Zwischenhändler:innen und Endnutzer:innen zum gleichen Produkt befragt, erhält sehr unterschiedliche Perspektiven und Detailinformationen.

Output-Varianz – Wie differenziert soll das Analyseergebnis sein?

Der Output ist das Ergebnis der Analyse, das dem Kunden geliefert wird.

  • Niedrige Varianz: Aggregierte Kategorien oder Häufigkeitsverteilungen („30 Prozent nennen Option A, 40 Prozent Option B, 25 Prozent Option C“)
  • Hohe Varianz: Differenzierte, kontextbezogene Handlungsempfehlungen, die verschiedene Perspektiven und Nuancen berücksichtigen

Wichtig: Input- und Output-Varianz sind unabhängig voneinander. Auch aus sehr heterogenen Rohdaten (hohe Input-Varianz) kann ein einfaches, aggregiertes Ergebnis entstehen (niedrige Output-Varianz) – etwa, wenn zunächst nur grundlegende Muster identifiziert werden sollen.

Die Konsequenz: Spezialisierte Module statt Einheitslösung

Je höher die Varianz, desto leistungsfähiger müssen die Werkzeuge sein. „Wir haben am Anfang versucht, der KI alles in einem Prompt zu erklären“, erinnert sich Kaba Barsch. „Das führte zu sehr komplexen und fehleranfälligen Prompts.“ Die Lösung: Für jede Kombination gibt es spezialisierte Module.
Bei niedriger Varianz reicht ein einfaches Python-Skript oder ein schnelles, günstiges LLM. Bei hoher Varianz greifen komplexe KI-Module mit mehrstufigen Prompts und engmaschiger manueller Kontrolle.

Das Unternehmen

Statista ist eines der weltweit führenden Data-as-a-Service-Unternehmen und bietet mit über 1,5 Millionen Statistiken zu 80.000 Themen die Basis für faktenbasierte Entscheidungen. Der hier vorgestellte Case wurde von Statista+ realisiert. Als spezialisierte Service-Marke übersetzt Statista+ diese Datenkompetenz in maßgeschneiderte Marktforschung und komplexe Datenanalysen für internationale Unternehmen.

Portrait Kaba Barsch

Kaba Barsch, Head of Data-Driven Solutions

Zu den Projektverantwortlichen:

Kaba Barsch ist Head of Data-Driven Solutions bei Statista+ und verantwortet Data Science, Analytics und Visualisierung. Sie entwickelt KI-basierte Lösungen, die aus Analysen tragfähige Entscheidungen machen. Ihr Fokus: komplexe Vorhaben so strukturieren, dass Teams wirksam arbeiten und datenbasierte Lösungen verantwortungsvoll einsetzen können. Vor Statista war sie in Forschung, Lehre und internationalen Programmen an der Schnittstelle von Wissenschaft und Praxis tätig.

Frederik Gronwald ist Chief Customer Officer bei Statista und verantwortet alle kundenorientierten Funktionen sowie Revenue. Er verzahnt Daten, Produkte, konkrete Beispiel-Inhalte (Marktanalyse / Buchhaltungssoftware), Technologie und Vertrieb, um Kunden entlang ihrer Wertschöpfungskette zu begleiten. Zuvor leitete er als Chief Solution Officer die Service-Marke Statista+ und verantwortete deren Übergang ins Kerngeschäft. Frederik bringt über 15 Jahre Erfahrung im Aufbau internationaler Vertriebs- und Marketingstrukturen mit.

Portrait Frederik Gronwald

Frederik Gronwald, Chief Customer Officer

02

Vier Schritte: Von Audio zur durchsuchbaren Datenbank

Schritt 1: Transkripte bereinigen (regelbasiert)

Transkriptions-Tools teilen längere Aussagen oft in überflüssige Zeitstempel-Fragmente – das verwirrt LLMs. Statista+ nutzt ein Python-Skript, das anhand der Zeitstempel und Sprecher-IDs erkennt, was zusammengehört, und Segmente sinnvoll zusammenführt.

Der Code-Ansatz:

# Erkennen einer Speaker-Zeile # Annahme: Speaker-Zeile enthält keinen Anführungs-Text if line.startswith("Speaker"): speaker_line = line speaker_name = speaker_line.split() [0] + " " + speaker_line.split()[1] # Der eigentliche Text steht in der nächsten Zeile text_line lines [i + 1].strip() # Wenn gleicher Speaker wie zuvor → Text anhängen if speaker_name == current_speaker: current_text.append(text_line)

Schritt 2: Sprachliche Bereinigung (LLM)

Jetzt kommt die KI. Der Text wird in Chunks geteilt, um das Kontextfenster nicht zu sprengen, und die OpenAI-API erhält den Auftrag: Entferne Füllwörter, korrigiere Grammatik, aber verändere niemals den Inhalt. Ein Beispiel von Kaba Barsch zeigt, wie wichtig Kontextverständnis bei Fachbegriffen ist: Aus „Netz in Struktur Entwicklungs Bahn“ (Originaltranskript) wird „Netzinfrastrukturentwicklungsplan“.

Der Prompt (Ausschnitt):

# Context You are a specialized transcription and proofreading tool trained to edit interview transcripts to make them more accurate and readable. # Task Your tasks are: - Consideration of the entire transcript: Read through the entire interview and timestamps carefully. - Correct grammar and spelling: Your goal is to create a detailed and accurate document that reflects all the content of the interview in its original form (…) - Keep all timestamps from the original transcript - Do not output any additional text or explanation. The output must only contain the complete cleaned transcript.

Schritt 3: Der Kernprozess – Insights und Zitate extrahieren

Bei Interviews mit hoher Varianz identifiziert die KI zunächst Themencluster und ordnet dann die Aussagen zu. Hier stieß das Team auf eine zentrale Herausforderung: „Wenn wir anfangs nach direkten Zitaten zu bestimmten Themen gefragt haben, hat das Modell oft Phrasen erfunden“, erklärt Kaba Barsch. Die Lösung: Eine klare Rollenbeschreibung als „qualitativer Forscher“. Statt Floskeln („It's an important category and will become even more important“) liefert die KI nun Zitate, die konkret zur jeweiligen Insight passen.

Stichprobenartige manuelle Qualitätschecks begleiten jeden Schritt. Vor der finalen Freigabe prüft ein:e erfahren:e Analyst:in gezielt Grenzfälle und die Kohärenz der Ergebnisse.

Der Prompt (Ausschnitt):

Context: You have received a transcript of an interview from a series of interviews (in-depth interviews, expert interviews, or focus groups) conducted as part of a qualitative study. You have also received a list of pre-defined categories und sub-categories that guide your analysis. Find insights for each category in the category list.

Schritt 4: Der Output als Datenbank

Früher endete der Prozess in einer PowerPoint-Präsentation mit verdichteten Insights – etwa SWOT-Analysen aus dutzenden Interviews. Das Problem: Wollte ein Kunde tiefer einsteigen oder eine Aussage hinterfragen, bedeutete das erheblichen Mehraufwand.


Heute liefert die Pipeline eine strukturierte Datenbank in Excel oder JSON. Von der Management Summary über Kernaussagen bis zum Originalzitat können Kunden selbst durchklicken – und dabei auch Widersprüche oder Muster erkennen, die in der Zusammenfassung untergehen würden.

Ein Blick in eine beispielhafte Marktanalyse zeigt Erkenntnisse und Aussagen auf verschiedenen Ebenen:

Tabelle Beispiel Output Marktanalyse

03

Perspektive: Von Analysten zu Supervisoren

„Übersicht verschafft Einsicht“, sagt Kaba Barsch: Analyst:innen müssen heute keine Interviews mehr dreimal durchhören, um minutiöse Notizen anzufertigen. Sie definieren die inhaltliche Logik – also wonach die KI suchen soll – und prüfen am Ende die Qualität der Insights. Was früher sechs Wochen dauerte, erledigt die Pipeline in 30 Minuten Rechenzeit – inklusive menschlicher Validierung sind es zwei Tage.

Die Maschine ordnet, der Mensch versteht: Dieses Prinzip funktioniert als Blaupause für jede Abteilung, die mit unstrukturierten Informationen arbeitet. Überall dort, wo Daten heute noch manuell aus Mails, Calls oder Protokollen in Tabellen fließen, automatisiert dieser Baukasten den Prozess.

Eines bleibt jedoch analog: Das Interview selbst. „Empathie, Nachfassen, Menschlichkeit – das ist ein Differenzierungsfaktor“, sagt Frederik Gronwald. Die Maschine darf die Daten ordnen, aber verstehen muss sie am Ende immer noch der Mensch.

04

Learnings: So gelingt die Skalierung

  • Modularität statt riesiger Prompts:
    Das Team versuchte anfangs, alle Logik in einen Prompt zu packen. Die Erkenntnis: Trenne Aufgaben in kleine, spezialisierte Module. Das macht Fehler sofort sichtbar und erleichtert Iterationen.
  • KI ist nicht immer die beste Lösung:
    Was regelbasiert lösbar ist, setzt das Team ohne KI um. Das spart Geld und reduziert Halluzinationen.
  • Strategie vor Technik:
    Ohne Varianz-Analyse landen Projekte in Endlosschleifen. Die strukturierte Vorarbeit entscheidet über Erfolg oder Scheitern.

05

Action-Checkliste

  • Finde deine Engpässe:
    Wo landen bei dir unstrukturierte Infos aus Interviews, E-Mails, Calls oder Protokollen heute noch in manuell gepflegten Excel-Listen? Das ist dein Einstiegspunkt.
  • Wähle das Werkzeug nach der Varianz:
    Bestimme vor Projektstart, wie stark Input und Output schwanken – das entscheidet über Skript oder LLM.
  • Plane den Human in the Loop ein:
    Automatisierung ersetzt keine Expert:innen, sondern befreit sie für die finale Validierung.

Geschafft!

Das war erst der Anfang. Jetzt weitere Use Cases und Online Kurse als Teil von t3n PRO entdecken.

Alle ansehen

Geschafft!

Das war erst der Anfang. Jetzt weitere Use Cases und Online Kurse als Teil von t3n PRO entdecken.