- 公開日
- 最終更新日
Apache IceBergeの勉強会に行ってきました
この記事を共有する
こんにちはサービスGの山内です!
先日JAWS-UGの勉強会に参加し、Apache Icebergについて学んできました!
今回は学んだ内容の備忘録として、概要レベルで簡単にまとめてみました!!
Apache Icebergってなに??
Apache Icebergは、計算エンジンにとらわれずに、データを管理できるオープンテーブルフォーマット(OTF)です。
Netflix社によって開発されました。
テーブルフォーマットという名前がついているように、表構造データを扱うためのフォーマット(形式)という意味となります。
Apache Icebergって何がすごいの??
Apache Icebergの魅力を伝えるために、データレイクの基本と問題点について記載します。
データレイクの基本
データレイクは以下の4つの概念で成り立っています。
- 収集:データの収集
- 保管:収集したデータの保管
- 処理:収集したデータに対してクエリを実施
- 分析:有益な洞察を得るために、クエリ結果を可視化
データレイクが抱える問題
以下のような問題が存在します。
巨大なデータに対する小さい単位での書き込み処理が非効率
100GBのCSVに対して、1行だけの変更を加えるような操作を実行すると、
100GBすべて読み込み、1行だけ更新し、100GBを書き出す必要があり非常に非効率。
トランザクションの担保が不可能
データ更新処理中に、別のクエリが来てしまった際のトランザクションの担保ができなくなってしまう。
過去の状態の保持ができない
収集したデータを使って機械学習を行う際に、新しいデータが追加されてしまい同じデータを使って学習ができなくなる。
Apache Icebergの特徴
Apache Icebergはメタデータを使って収集したデータを管理してくれます。
分析に使用するツールは収集したデータに直接クエリを実行するのではなく、Apache Icebergが管理するメタデータに対してクエリを実行するようになります。
メタデータを活用することで効率的なクエリや、過去の状態の保持を実現し、
収集したデータとの間にApache Icebergが介在することで、トランザクションを担保してくれるようになります。
また、収集するデータは部署に関係なく共通したデータを扱えるようになるため、データの一元管理ができるようになります。
所感
初めてのJAWS-UGかつ、業務経験のない領域に関する勉強会でしたが、
データレイクの基本から解説していただき、非常に分かりやすく楽しい勉強会でした!
ブログを書くにあたって理解していなかった部分も多くあることが分かり、よい復習となりました!
今後も参加していこうと思いました!
この記事は私が書きました
山内 宏紀
記事一覧Cloudformationが好きです。 使っているギターはSGです。