Google Cloud Next '25 で見えたデータ基盤の Next Stage - 自律型ソリューション基盤への進化の可能性

2025-05-21

データプラットフォームチームの @kobori です。

前回のブログにも記載の通り、先日 Google Cloud Next '25 に現地参加してきました。 弊社の海外カンファレンス渡航プログラム利用による参加です。

Las Vegas での開催ということで、日本からの参加はなかなか難しいものではありますが、現地ならではの熱狂が伝わる非常によい体験になりました。

当初は全日程をセッションで埋めるようなスケジュールを組んでいましたが、Google Cloud Next では現地ならではの様々なプログラムが用意されています。 セッションは後日配信されるものも多いため、現地参加の際はスケジュールを詰め込みすぎず、展示ブースなども積極的に回り、現地の空気感を存分に味わうことをおすすめします。

さて、そんな Google Cloud Next '25 ですが、今回は BigQuery に関する様々なアップデートがありました。 autonomous というキーワードが多く聞かれましたが、BigQuery も自律型データプラットフォームに向かって進化しています。

そんな BigQuery の自律化を支えるデータガバナンス機能にもアップデートがありました。 今回発表された BigQuery Universal Catalog はそのひとつとも言えます。

本記事では Universal Catalog を中心に、BigQuery のデータガバナンス機能に関するアップデートをもとに、その進化と今後の可能性について考察してみました。

BigQuery Universal Catalog

今回の Google Cloud Next '25 では BigQuery Universal Catalog が発表されました。

これまでも Dataplex Catalog が存在していましたが、今回、 BigQuery metastore と Dataplex Catalog が統合され、AI を活用し機能強化された上で、統合的なデータガバナンス基盤としてリブランディングされました。

Dataplex Catalog

Dataplex Catalog はいわゆるデータカタログで、データ資産の一覧やそのデータのスキーマ定義などのデータ資産を可視化し、データ活用には欠かせない Data Discovery を向上させるためのサービスです (参考 1, 参考 2)。 データカタログを用いることで、データユーザはデータ資産を把握し、活用を進めることができます。

また、Dataplex Catalog は、メタデータ管理に加え自動的にデータリネージを収集します。 データリネージが可視化されることで、どのデータが何をソースとして、どのような変換によって現在の形態に至っているかを確認することができます。 データに異常があった場合に、どの段階でバグが混入したかなど、原因の究明を迅速に行うことができます。

元々 Data Catalog という機能がありましたが、その機能が拡張され 2024 年 8 月に GA になったのが Dataplex Catalog です。

BigQuery metastore

BigQuery metastore は BigQuery のテーブル定義などのメタデータを管理するための機能です。 BigQuery のみを利用している場合にはあまり存在感を感じられないのではないかと思います。

メタデータの管理ではありますが、Dataplex Catalog のようにデータユーザ直接利用するものではなく、BigQuery をはじめ、Spark や Dataflow などのクエリエンジンが利用するメタデータを管理するものです (参考)。 データのスキーマ、パーティション、保存場所などが管理されます。

metastore によりメタデータが一元管理されることによって、BigQuery により定義されたテーブル定義が、他のクエリエンジンからも参照することができ、メタデータの重複管理をする必要がなくなります。 metastore でメタデータが一元管理されない場合、BigQuery で外部テーブルを定義したとしても、同様のデータに Spark や Dataflow からそのデータを利用する際に別途テーブル定義を行う必要があります。

metastore によりメタデータの一元管理をすることでデータの一貫性の担保に大きく貢献します。

BigQuery Universal Catalog

上記の 2 つの異なる目的のメタストアを統合し、さらに以下のような機能強化も実現しています。

  • データカタログのセマンティック検索
    • 「2024 年の東京リージョンの購入データ」のような、自然言語での検索によって関連するデータを素早く見つけることができます。
  • クロスプロジェクトでのデータリネージの追跡
    • データの影響範囲や流入元をプロジェクトを超えて追跡することができます。
  • LLM によるメタデータの自動キュレーション
    • データの概要や関連するタグが自動的に付与され、手動でのメタデータ管理が省力化されます。
  • データ異常の自動検出
    • データ異常が自動的に検出され、誤ったデータによる意思決定の確率を下げることができます。

従来の静的なデータカタログを脱却し、データの意味や関係性を理解し、自動でデータを整理できる、謂わばデータガバナンスエージェントのような存在に進化しています。

自律型データエコシステムの未来

今回の発表の中で、個人的に注目したのは、LLM を用いたメタデータの自動キュレーションの機能です。 まだプレビュー段階であり、その仕組みの詳細までは明かされていませんが、メタデータの整備が人手を介さずに進むという点に大きな可能性を感じます。

前回の記事ではデータエージェントについて取り上げましたが、エージェントが適切に機能するためには、信頼できるメタデータが不可欠です。 その意味で、自律的なメタデータ管理は、データエージェントの基盤となる存在だと改めて感じました。

例えば、以下のようなエージェント連携の構想が思い描けます。

  • モニタリングによって問題を検知したデータアナリストエージェントが、必要に応じてデータマートの生成をデータエンジニアリングエージェントに依頼。
  • データエンジニアリングエージェントは、整備されたメタデータをもとにパイプラインを構築。
  • 生成されたマートをもとにアナリストエージェントが分析を実施。
  • データが使われることで、ガバナンスエージェントがリネージュや利用情報を補足し、さらにメタデータが強化される。

この繰り返しによって、使われるほどに整い、自律的に成長するデータ基盤が形作られるような未来です。

今回の Google Cloud Next '25 では、AI エージェント同士の直接的な連携を可能にする A2A(Agent-to-Agent)プロトコル も紹介されていましたが、 Google はこのような自律的なエージェント連携によるデータエコシステムの構築を見据えているのでは?と思わずにはいられませんでした。

現在データサイエンスエージェントは Colab 上でのコーディングサポートに留まっていますが、より高度な分析支援や予測、モデル改善提案などへと進化していくことは当然期待できます。 そして、これらのエージェントが進化し、連携することで、BigQuery は単なる「自律型データプラットフォーム」を超え、 課題の特定から施策の立案までを支援する、「自律型ソリューション基盤」へと進化していくのではないか?そんな未来さえ想像させられます。

AI の力を借りて、より速く・柔軟にデータ活用を進めるためには、まずはその土台となるガバナンスの整備にしっかり向き合う必要がある。 そう強く感じた今回の Google Cloud Next '25 となりました。

さいごに

弊社ではデータプラットフォームチームの採用も積極的に行っております。

弊社に興味を持たれた方は、是非 Entrance Book をご覧ください! ご応募お待ちしております!!