Schreibweisen vereinheitlichen und Lücken schließen
Du hast die Daten extrahiert und das Mapping steht. Jetzt kommt der Schritt, den die meisten unterschätzen: Bereinigung...
Du hast die Daten extrahiert und das Mapping steht. Jetzt kommt der Schritt, den die meisten unterschätzen: Bereinigung. Denn selbst wenn alle Felder korrekt zugeordnet sind, stimmt die Qualität der Inhalte oft nicht.
Mengeneinheiten. "EL", "Esslöffel", "El.", "Essl.", "1 gehäufter EL" — in einem Freitextfeld stört das nicht. In einem strukturierten System, das Einheiten in einem Dropdown erwartet, muss alles einheitlich sein. Wir haben bei Kunden Bereinigungslisten mit 30+ verschiedenen Schreibweisen für die gleichen 8 Einheiten gesehen.
Zutatennamen. "Butter", "Butter, weich", "weiche Butter", "Süßrahmbutter" — sind das vier verschiedene Zutaten oder eine? Das hängt vom Kontext ab. Für ein Suchsystem oder eine Zutatenliste mit Filterfunktion macht der Unterschied viel aus.
Fehlende Zeitangaben. 40 Prozent der Rezepte haben eine Zubereitungszeit, 60 Prozent nicht. Oder die Zeit steht im Fließtext ("In etwa einer halben Stunde hast du ein fertiges Abendessen"), aber nicht im Plugin-Feld. Bei der Bereinigung muss entschieden werden: Fehlende Zeiten nachpflegen, aus dem Text ableiten oder leer lassen?
Portionsangaben. "Für 4 Personen", "4 Portionen", "Ergibt ca. 12 Stück", "Für eine Springform 26cm" — vier verschiedene Formate für die Portionsangabe. Das Ziel-System erwartet vielleicht eine Zahl und eine Einheit. Die Umwandlung ist nicht immer eindeutig.
Kategorien und Tags. Manche Rezepte haben 15 Tags, andere keinen einzigen. Manche Kategorien überschneiden sich ("Kuchen" und "Backen" und "Süßes"). Bei der Migration ist der richtige Moment, die Kategoriestruktur zu bereinigen — aber das sollte bewusst und geplant passieren, nicht nebenbei.
Die Bereinigung fühlt sich nach Fleißarbeit an. Ist sie auch. Aber sie ist der Unterschied zwischen einer Migration, die zu einem sauberen neuen System führt, und einer, die das Chaos nur von einem Plugin ins nächste verschiebt.
Wenn du diese Lektion gelesen hast, markiere sie als abgeschlossen.
