id: 02243469 dt: j an: 02243469 au: Ewen, Stephan; Ortega-Binderberger, Michael; Markl, Volker ti: A learning optimizer for a federated database management system. so: Inform., Forsch. Entwickl. 20, No. 3, 138-151 (2005). py: 2005 pu: Springer-Verlag, Berlin la: DE cc: ut: ci: li: doi:10.1007/s00450-005-0206-8 ab: Summary: Anfrageoptimierer in modernen Datenbanksystemen (DBS) verwenden ein Kostenmodell, um für eine Anfrage einen effizienten Zugriffsplan aus der Menge aller möglichen Zugriffspläne auszuwählen. Die Genauigkeit, mit der diese Kosten geschätzt werden, hängt stark davon ab, wie genau Statistiken über die Datenverteilung die ihnen zugrunde liegenden Daten modellieren. Veraltete Statistiken, oder ungültige Annahmen im statistischen Modell, führen häufig zur Auswahl suboptimaler Zugriffspläne und dadurch zu Defiziten bei der Ausführungsgeschwindigkeit von Datenbankanfragen. Föderierte Systeme müssen auf dem koordinierenden DBS Statistiken über verteilte Daten unterhalten, um effiziente Zugriffspläne zu entwickeln, wenn Daten aus verschiedenen Datenquellen zusammengeführt werden. Fehlerhafte Statistiken verursachen in diesem Fall schlechte Lastenverteilung sowie zusätzlichen Kommunikationsaufwand und Netzlast. Die Synchronisation dieser zusätzlichen Statistiken mit den Statistiken der entfernten Datenquellen ist problematisch, da Datenquellen völlig unabhängig voneinander sind und ihre Statistiken eventuell nicht externalisieren oder inkompatible bzw. andere statistische Modelle verwenden als das koordinierende DBS. Im folgenden zeigen wir eine Erweiterung der Feedback-Schleife von DB2s lernendem Optimierer (LEO) auf föderierte Architekturen, die es LEO ermöglicht, automatisch Statistiken über Daten auf entfernten Datenquellen zu lernen und zu verwalten. Wir diskutieren mehrere Möglichkeiten, Feedback für föderierte Anfragen zu erhalten und stellen einen Lösung vor, die lokales Feedback verwendet, und einen Stichprobenprozess (statistical sampling) zu steuren, der die benötigten entfernten Daten basierend auf dem Feedback effizient ermittelt. Mittels einer detaillierten Leistungsanalyse der vorgestellten Möglichkeiten im Rahmen einer Fallstudie belegen wir, dass der potenzielle Geschwindigkeitszuwachs für Datenbankanfragen sehr hoch ist, während die Zusatzbelastung durch LEO in moderaten Grenzen liegt. rv: