Lektionen5

Unstrukturierte Rezeptdaten in strukturierte Daten überführen

Lerne, wie du Rezeptinhalte aus Freitext und Page Buildern extrahierst, einem sauberen Ziel-Schema zuordnest und die Datenqualität nach der Überführung sicherstellst.

0% abgeschlossen

WordPress

Schreibweisen vereinheitlichen und Lücken schließen

Du hast die Daten extrahiert und das Mapping steht. Jetzt kommt der Schritt, den die meisten unterschätzen: Bereinigung...

Noch nicht gestartet

Du hast die Daten extrahiert und das Mapping steht. Jetzt kommt der Schritt, den die meisten unterschätzen: Bereinigung. Denn selbst wenn alle Felder korrekt zugeordnet sind, stimmt die Qualität der Inhalte oft nicht.

Mengeneinheiten. "EL", "Esslöffel", "El.", "Essl.", "1 gehäufter EL" — in einem Freitextfeld stört das nicht. In einem strukturierten System, das Einheiten in einem Dropdown erwartet, muss alles einheitlich sein. Wir haben bei Kunden Bereinigungslisten mit 30+ verschiedenen Schreibweisen für die gleichen 8 Einheiten gesehen.

Zutatennamen. "Butter", "Butter, weich", "weiche Butter", "Süßrahmbutter" — sind das vier verschiedene Zutaten oder eine? Das hängt vom Kontext ab. Für ein Suchsystem oder eine Zutatenliste mit Filterfunktion macht der Unterschied viel aus.

Fehlende Zeitangaben. 40 Prozent der Rezepte haben eine Zubereitungszeit, 60 Prozent nicht. Oder die Zeit steht im Fließtext ("In etwa einer halben Stunde hast du ein fertiges Abendessen"), aber nicht im Plugin-Feld. Bei der Bereinigung muss entschieden werden: Fehlende Zeiten nachpflegen, aus dem Text ableiten oder leer lassen?

Portionsangaben. "Für 4 Personen", "4 Portionen", "Ergibt ca. 12 Stück", "Für eine Springform 26cm" — vier verschiedene Formate für die Portionsangabe. Das Ziel-System erwartet vielleicht eine Zahl und eine Einheit. Die Umwandlung ist nicht immer eindeutig.

Kategorien und Tags. Manche Rezepte haben 15 Tags, andere keinen einzigen. Manche Kategorien überschneiden sich ("Kuchen" und "Backen" und "Süßes"). Bei der Migration ist der richtige Moment, die Kategoriestruktur zu bereinigen — aber das sollte bewusst und geplant passieren, nicht nebenbei.

Die Bereinigung fühlt sich nach Fleißarbeit an. Ist sie auch. Aber sie ist der Unterschied zwischen einer Migration, die zu einem sauberen neuen System führt, und einer, die das Chaos nur von einem Plugin ins nächste verschiebt.

Wenn du diese Lektion gelesen hast, markiere sie als abgeschlossen.