Einführung in BigLake Metastore

BigLake Metastore ist ein vollständig verwalteter Metastore für Datenanalyseprodukte inGoogle Cloud. Es bietet eine einzige Quelle für die Verwaltung von Metadaten aus mehreren Quellen. Der Metastore ist über BigQuery und verschiedene offene Datenverarbeitungs-Engines zugänglich und daher ein nützliches Tool für Datenanalysten und Entwickler.

Sie können beispielsweise BigLake Metastore als Katalog mit Open-Source-Abfrage-Engines wie Apache Spark verwenden. Mit Spark erstellte Tabellen können mit BigQuery abgefragt werden, ohne dass Sie Ihre Metadaten synchronisieren müssen.

Vorteile

BigLake Metastore bietet mehrere Vorteile für die Datenverwaltung und -analyse:

  • Serverlose Architektur. Der BigLake Metastore bietet eine serverlose Architektur, sodass keine Server- oder Clusterverwaltung erforderlich ist. So lässt sich der betriebliche Aufwand reduzieren, die Bereitstellung vereinfachen und eine automatische Skalierung nach Bedarf ermöglichen.
  • Engine-Interoperabilität BigLake Metastore bietet direkten Tabellenzugriff in BigQuery. So können Sie Tabellen im offenen Format, die in BigQuery gespeichert sind, ohne zusätzliche Konfiguration abfragen. Sie können beispielsweise eine Tabelle in Spark erstellen und sie dann direkt in BigQuery abfragen. So können Sie Ihren Analyse-Workflow optimieren und die Notwendigkeit komplexer Datenübertragungen oder ETL-Prozesse reduzieren.
  • Einheitliche Nutzererfahrung BigLake Metastore bietet einen einheitlichen Workflow für BigQuery und BigQuery Studio. So können Sie Spark direkt in BigQuery und BigQuery Studio verwenden. Beispiel:

    Sie können zuerst eine Tabelle in Spark mit einem BigQuery Studio-Notebook erstellen.

    Tabelle im BigLake Metastore erstellen

    Als Nächstes können Sie dieselbe Spark-Tabelle in derGoogle Cloud -Konsole abfragen.

    Tabelle im BigLake Metastore abfragen

Unterstützte Einbindungen

Sie können den BigLake-Metastore mit der Google Cloud Console, der gcloud CLI, den BigQuery REST APIs oder der Iceberg REST API verwenden.

BigLake Metastore unterstützt die folgenden Integrationen:

Unterschiede zum BigLake Metastore (klassisch)

BigLake Metastore ist der empfohlene Metastore auf Google Cloud.

Zu den Hauptunterschieden zwischen BigLake Metastore und BigLake Metastore (klassisch) gehören die folgenden Details:

  • BigLake Metastore (classic) ist ein eigenständiger Metastore-Dienst, der sich von BigQuery unterscheidet und nur Iceberg-Tabellen unterstützt. Es hat ein anderes dreiteiliges Ressourcenmodell. BigLake-Metastore-Tabellen (klassisch) werden nicht automatisch in BigQuery erkannt.

  • BigLake Metastore basiert auf dem BigQuery-Katalog und lässt sich direkt in BigQuery einbinden. Tabellen im BigLake-Metastore können über mehrere Open-Source-Engines geändert werden und dieselben Tabellen können über BigQuery abgefragt werden. Wenn Sie BigQuery verwenden, gibt es nur eine einzige Quelle für Ihre Metadaten. BigLake Metastore unterstützt beispielsweise die direkte Integration mit Spark. Diese Integration sorgt für einen reibungsloseren Workflow und hilft, Redundanzen beim Speichern von Metadaten und Ausführen von Jobs zu reduzieren.

Beschränkungen

Für BigLake-Metastore-Tabellen gelten die folgenden Einschränkungen:

  • Sie können BigLake-Metastore-Tabellen mit DDL- oder DML-Anweisungen nicht mit der BigQuery-Engine erstellen oder ändern. Sie können BigLake-Metastore-Tabellen mit der BigQuery API (mit dem bq-Befehlszeilentool oder Clientbibliotheken) ändern. Dabei besteht jedoch das Risiko, dass Änderungen vorgenommen werden, die nicht mit der externen Engine kompatibel sind.
  • BigLake-Metastore-Tabellen unterstützen keine Umbenennungsvorgänge oder ALTER TABLE ... RENAME TO Spark SQL-Anweisungen.
  • Für BigLake-Metastore-Tabellen gelten dieselben Kontingente und Limits wie für Standardtabellen.
  • Die Abfrageleistung für BigLake-Metastore-Tabellen aus der BigQuery-Engine ist mitunter langsamer als bei der Abfrage von Daten in einer BigQuery-Standardtabelle. Im Allgemeinen sollte die Abfrageleistung bei einer BigLake-Metadatenbanktabelle der Leistung beim Auslesen der Daten direkt aus Cloud Storage entsprechen.
  • Ein Probelauf einer Abfrage, die eine BigLake-Metastore-Tabelle verwendet, kann eine Untergrenze von 0 Byte an Daten melden, auch wenn Zeilen zurückgegeben werden. Das liegt daran, dass die Datenmenge, die aus der Tabelle verarbeitet wird, erst nach Abschluss der eigentlichen Abfrage bestimmt werden kann. Für die Ausführung der Abfrage fallen weiterhin Kosten für die Verarbeitung dieser Daten an.
  • In einer Abfrage mit einer Platzhaltertabelle kann nicht auf eine BigLake-Metastore-Tabelle verwiesen werden.
  • Sie können die Methode tabledata.list nicht verwenden, um Daten aus BigLake-Metastore-Tabellen abzurufen. Stattdessen können Sie Abfrageergebnisse in einer Zieltabelle speichern und dann die Methode tabledata.list auf diese Tabelle anwenden.
  • BigLake Metastore-Tabellen unterstützen kein Clustering.
  • BigLake-Metastore-Tabellen unterstützen keine flexiblen Spaltennamen.
  • Die Anzeige von Tabellenspeicherstatistiken für BigLake-Metastore-Tabellen wird nicht unterstützt.

Nächste Schritte