パフォーマンスに関するパネル表示でパフォーマンス パネルを 400% 高速化

Andrés Olivares
Andrés Olivares
Nancy Li
Nancy Li

開発するアプリの種類にかかわらず、パフォーマンスを最適化し、読み込みを高速化してスムーズな操作を実現することは、ユーザー エクスペリエンスとアプリの成功にとって重要です。そのための 1 つの方法は、プロファイリング ツールを使用してアプリのアクティビティを検査し、一定の期間にわたって実行されたときに内部で何が起こっているかを確認することです。DevTools の [パフォーマンス] パネルは、ウェブ アプリケーションのパフォーマンスを分析して最適化するための優れたプロファイリング ツールです。アプリが Chrome で実行されている場合は、アプリケーションの実行中にブラウザが何を行っているかを詳細に視覚的に把握できます。このアクティビティを理解することで、パフォーマンスを改善するために対処できるパターン、ボトルネック、パフォーマンスのホットスポットを特定できます。

次の例では、[パフォーマンス] パネルの使用方法について説明します。

プロファイリング シナリオの設定と再作成

Google は先日、[パフォーマンス] パネルのパフォーマンスを改善することを目標に掲げました。特に、大量のパフォーマンス データをより迅速に読み込みたいと考えました。たとえば、長時間実行または複雑なプロセスのプロファイリングや、きめ細かいデータをキャプチャする場合などです。これを実現するには、まず、アプリケーションのパフォーマンスの方法とその理由を把握する必要がありました。これは、プロファイリング ツールを使用して実現しました。

ご存じのとおり、DevTools 自体はウェブ アプリケーションです。そのため、[パフォーマンス] パネルを使用してプロファイリングできます。このパネル自体をプロファイリングするには、DevTools を開き、それに接続されている別の DevTools インスタンスを開きます。Google では、この設定を DevTools-on-DevTools と呼んでいます。

セットアップが完了したら、プロファイリングするシナリオを再作成して記録する必要があります。混乱を避けるため、元の DevTools ウィンドウを「最初の DevTools インスタンス」、最初のインスタンスを検証しているウィンドウを「2 番目の DevTools インスタンス」と呼びます。

DevTools 自体の要素を検査している DevTools インスタンスのスクリーンショット。
DevTools-on-DevTools: DevTools で DevTools を検査します。

2 つ目の DevTools インスタンスの [パフォーマンス] パネル(以下、パフォーマンス パネル)は、最初の DevTools インスタンスを監視してシナリオを再現し、プロファイルを読み込みます。

2 番目の DevTools インスタンスではライブ録画が開始され、1 番目のインスタンスではディスク上のファイルからプロファイルが読み込まれます。大規模な入力の処理のパフォーマンスを正確にプロファイリングするために、大規模なファイルが読み込まれます。両方のインスタンスの読み込みが完了すると、パフォーマンス プロファイリング データ(一般にトレースと呼ばれる)が、プロファイルを読み込んでいるパフォーマンス パネルの 2 番目の DevTools インスタンスに表示されます。

初期状態: 改善の機会を特定する

読み込みが完了すると、次のスクリーンショットに示すように、2 番目のパフォーマンス パネル インスタンスで次のことが発生しました。メインスレッドのアクティビティに注目します。このアクティビティは、[Main] というラベルの付いたトラックの下に表示されます。炎グラフには、5 つの大きなアクティビティ グループがあることがわかります。これらは、読み込みに最も時間がかかっているタスクで構成されています。これらのタスクの合計時間は約 10 秒でした。次のスクリーンショットでは、パフォーマンス パネルを使用して、これらのアクティビティ グループのそれぞれに焦点を当て、確認できる内容を確認しています。

別の DevTools インスタンスのパフォーマンス パネルでパフォーマンス トレース読み込みを調べている DevTools のパフォーマンス パネルのスクリーンショット。プロファイルの読み込みには 10 秒ほどかかります。この時間は、主に 5 つの主要なアクティビティ グループに分かれています。

最初のアクティビティ グループ: 不要な作業

最初のアクティビティ グループは、まだ実行されているが実際には必要のないレガシー コードであることが明らかになりました。基本的に、processThreadEvents というラベルの付いた緑色のブロックの下にあるものはすべて無駄な作業でした。すぐに解決しました。この関数呼び出しを削除することで、約 1.5 秒の時間が節約されました。すばらしいですね!

2 つ目のアクティビティ グループ

2 つ目のアクティビティ グループでは、解決策は 1 つ目のグループほど簡単ではありませんでした。buildProfileCalls は約 0.5 秒かかり、そのタスクは回避できませんでした。

別のパフォーマンス パネル インスタンスを検査している DevTools のパフォーマンス パネルのスクリーンショット。buildProfileCalls 関数に関連付けられたタスクは約 0.5 秒かかります。

興味が湧いたため、パフォーマンス パネルで [メモリ] オプションを有効にして詳しく調査したところ、buildProfileCalls アクティビティも大量のメモリを使用していることがわかりました。buildProfileCalls が実行されたとき、青い折れ線グラフが急激に跳ね上がっています。これは、メモリリークの可能性を示しています。

パフォーマンス パネルのメモリ使用量を評価する DevTools のメモリ プロファイラのスクリーンショット。インスペクタは、buildProfileCalls 関数がメモリリークの原因であると示唆しています。

この疑惑を調査するため、[Memory] パネル(DevTools の別のパネルで、[perf] パネルの [Memory] ドロワーとは異なります)を使用しました。[メモリ] パネルで、[割り当てサンプリング] プロファイリング タイプが選択され、CPU プロファイルを読み込む perf パネルのヒープ スナップショットが記録されました。

Memory Profiler の初期状態のスクリーンショット。[割り当てサンプリング] オプションが赤いボックスでハイライト表示されています。これは、このオプションが JavaScript メモリ プロファイリングに最適であることを示しています。

次のスクリーンショットは、収集されたヒープ スナップショットを示しています。

メモリ使用量の多い Set ベースの操作が選択されているメモリ プロファイラのスクリーンショット。

このヒープ スナップショットから、Set クラスが大量のメモリを消費していることが判明しました。呼び出しポイントを確認した結果、大量に作成されたオブジェクトに Set 型のプロパティが不必要に割り当てられていることが判明しました。このコストが積み重なり、大量のメモリが消費され、大規模な入力でアプリがクラッシュすることがよくありました。

セットは、一意のアイテムを保存する場合に便利です。また、データセットの重複除去や効率的なルックアップなど、コンテンツの一意性を使用するオペレーションを提供します。ただし、保存されるデータはソースとは一意であることが保証されているため、これらの機能は必要ありませんでした。そのため、そもそもセットは必要ありませんでした。メモリ割り当てを改善するため、プロパティの型が Set から単純な配列に変更されました。この変更を適用した後、別のヒープ スナップショットを取得し、メモリ割り当ての減少を確認しました。この変更によって速度が大幅に向上することはありませんでしたが、アプリケーションのクラッシュ頻度が低下するという副次的な効果がありました。

メモリ プロファイラのスクリーンショット。以前のメモリ使用量の多い Set ベースのオペレーションは、単純な配列を使用するように変更され、メモリコストが大幅に削減されました。

3 つ目のアクティビティ グループ: データ構造のトレードオフを比較する

3 番目のセクションは特殊です。フレームグラフでは、狭くて高い列で構成されています。これは、この場合は深い関数呼び出しと深い再帰を表します。このセクションの合計時間は約 1.4 秒です。このセクションの下部を見ると、これらの列の幅は 1 つの関数(appendEventAtLevel)の所要時間によって決まっていることがわかります。これは、ボトルネックになっている可能性があることを示しています。

appendEventAtLevel 関数の実装には、1 つ目立つ点があります。入力内の各データエントリ(コードでは「イベント」と呼ばれます)に対して、タイムライン エントリの垂直位置を追跡するアイテムがマップに追加されました。保存されるアイテムの量が非常に多かったため、これは問題でした。マップはキーベースの検索が高速ですが、このメリットは無料ではありません。マップが大きくなるにつれて、データの追加がコスト高になる可能性があります(たとえば、再ハッシュが原因で)。このコストは、大量のアイテムがマップ上に連続して追加される場合に顕著になります。

/**
 * Adds an event to the flame chart data at a defined vertical level.
 */
function appendEventAtLevel (event, level) {
  // ...

  const index = data.length;
  data.push(event);
  this.indexForEventMap.set(event, index);

  // ...
}

炎グラフのエントリごとにマップ内にアイテムを追加する必要がない別のアプローチをテストしました。改善は著しく、ボトルネックの問題が、すべてのデータを地図に追加する際に発生するオーバーヘッドに関連していることが確認されました。アクティビティ グループにかかる時間が 1.4 秒から 200 ミリ秒程度に短縮されました。

変換前:

appendEventAtLevel 関数を最適化する前のパフォーマンス パネルのスクリーンショット。関数の実行に要した合計時間は 1,372.51 ミリ秒です。

変換後:

appendEventAtLevel 関数を最適化した後のパフォーマンス パネルのスクリーンショット。関数の実行時間の合計は 207.2 ミリ秒でした。

4 つ目のアクティビティ グループ: 重要でない処理とキャッシュデータを遅らせて重複処理を防ぐ

このウィンドウを拡大すると、ほぼ同じ関数呼び出しのブロックが 2 つあることがわかります。呼び出された関数の名前を見ると、これらのブロックはツリーを構築するコード(refreshTreebuildChildren などの名前)で構成されていることが推測できます。実際、関連するコードは、パネルの下部ドロワーにツリービューを作成するコードです。興味深いのは、これらのツリービューは読み込み直後に表示されないことです。代わりに、ツリーを表示するには、ツリービュー(引き出しの [ボトムアップ]、[呼び出しツリー]、[イベントログ] タブ)を選択する必要があります。さらに、スクリーンショットからわかるように、ツリー構築プロセスが 2 回実行されています。

必要でないにもかかわらず実行される複数の反復タスクを示すパフォーマンス パネルのスクリーンショット。これらのタスクは、事前に実行するのではなく、オンデマンドで実行するように延期できます。

この写真には 2 つの問題があります。

  1. 重要でないタスクが読み込み時間のパフォーマンスを妨げていた。ユーザーが常に出力を求めているわけではありません。そのため、このタスクはプロファイルの読み込みに不可欠ではありません。
  2. これらのタスクの結果はキャッシュに保存されませんでした。そのため、データが変更されていないにもかかわらず、ツリーが 2 回計算されました。

まず、ユーザーがツリービューを手動で開いたときにツリーの計算を遅らせました。そのような場合にのみ、これらのツリーを作成するための費用を支払う価値があります。この処理を 2 回実行する合計時間は約 3.4 秒だったため、遅延させることで読み込み時間が大幅に短縮されました。Google では、このようなタスクのキャッシュ化についても現在調査中です。

5 つ目のアクティビティ グループ: 可能であれば複雑な呼び出し階層を避ける

このグループを詳しく調べたところ、特定の呼び出しチェーンが繰り返し呼び出されていることが明らかになりました。同じパターンが、フレームグラフのさまざまな場所に 6 回出現し、このウィンドウの合計時間は約 2.4 秒でした。

同じトレース ミニマップを生成するための 6 つの個別の関数呼び出しを示すパフォーマンス パネルのスクリーンショット。それぞれに深いコールスタックがあります。

複数回呼び出される関連コードは、「ミニマップ」(パネル上部のタイムライン アクティビティの概要)にレンダリングされるデータを処理する部分です。なぜ何度も発生したのかは不明ですが、6 回も発生する必要はありませんでした。実際、他のプロファイルが読み込まれていない場合、コードの出力は最新の状態を維持する必要があります。理論上、コードは 1 回だけ実行されるはずです。

調査の結果、関連するコードが呼び出された原因は、読み込みパイプラインの複数の部分がミニマップを計算する関数を直接または間接的に呼び出していたためであることが判明しました。これは、プログラムの呼び出しグラフの複雑さが時間とともに進化し、このコードに対する依存関係が知らぬ間に追加されたためです。この問題の簡単な解決策はありません。解決方法は、対象のコードベースのアーキテクチャによって異なります。この場合、呼び出し階層の複雑さを少し減らし、入力データが変更されていない場合にコードの実行を防ぐチェックを追加する必要がありました。これを実装した後のタイムラインの見通しは次のとおりです。

同じトレース ミニマップを生成するための 6 つの個別の関数呼び出しが 2 回に減らされたことを示すパフォーマンス パネルのスクリーンショット。

ミニマップのレンダリングの実行は 1 回ではなく 2 回行われます。これは、プロファイルごとに 2 つのミニマップが描画されるためです。1 つはパネル上部の概要用で、もう 1 つは履歴から現在表示されているプロファイルを選択するプルダウン メニュー用です(このメニューのすべての項目には、選択したプロファイルの概要が含まれています)。ただし、この 2 つはコンテンツがまったく同じであるため、一方をもう一方に再利用できます。

これらのミニマップはどちらもキャンバスに描画される画像であるため、drawImage キャンバス ユーティリティを使用し、コードを 1 回だけ実行することで、時間を節約できました。この取り組みの結果、グループの長さは 2.4 秒から 140 ミリ秒に短縮されました。

まとめ

これらの修正(およびその他の小さな修正)をすべて適用した後のプロフィールの読み込みタイムラインの変化は次のとおりです。

変換前:

最適化前のトレース読み込みを示すパフォーマンス パネルのスクリーンショット。このプロセスには約 10 秒かかりました。

変換後:

最適化後のトレース読み込みを示すパフォーマンス パネルのスクリーンショット。この処理には約 2 秒かかります。

改善後の読み込み時間は 2 秒でした。つまり、行われた作業のほとんどが簡単な修正だったため、比較的少ない労力で約 80%の改善を達成できました。もちろん、最初に何をすべきかを正しく特定することが重要であり、パフォーマンス パネルはこれに適したツールでした。

また、これらの数値は、調査の対象として使用されているプロファイルに固有のものであることも重要です。このプロファイルは特にサイズが大きいため、Google の関心を引きました。ただし、処理パイプラインはすべてのプロファイルで同じであるため、大幅な改善は、パフォーマンス パネルに読み込まれたすべてのプロファイルに適用されます。

要点

アプリケーションのパフォーマンスの最適化という観点から、これらの結果から得られる教訓は次のとおりです。

1. プロファイリング ツールを使用してランタイム パフォーマンス パターンを特定する

プロファイリング ツールは、実行中のアプリケーションで何が起こっているかを把握するのに非常に役立ちます。特に、パフォーマンスを改善する余地を特定する場合に便利です。Chrome DevTools の [パフォーマンス] パネルは、ブラウザのネイティブ ウェブ プロファイリング ツールであり、最新のウェブ プラットフォーム機能に合わせて積極的にメンテナンスされているため、ウェブ アプリケーションに最適です。また、処理速度も大幅に向上しました。😉

代表的なワークロードとして使用できるサンプルを使用して、何が見つかるでしょうか。

2. 複雑な呼び出し階層を避ける

可能な限り、コールグラフを複雑にしないようにします。呼び出し階層が複雑になると、パフォーマンスの低下が簡単に発生し、コードがそのように実行されている理由を把握しにくくなり、改善を適用しにくくなります。

3. 不要な作業を特定する

古いコードベースには、不要になったコードが含まれていることがよくあります。弊社の場合、読み込み時間の大部分を占めていたのは、不要なレガシー コードでした。削除は最も簡単に実行できる対策でした。

4. データ構造を適切に使用する

データ構造を使用してパフォーマンスを最適化しますが、どのデータ構造を使用するかを決定する際には、各タイプのデータ構造に伴う費用とトレードオフを理解してください。これは、データ構造自体の空間複雑性だけでなく、適用されるオペレーションの時間複雑性も考慮する必要があります。

5. 複雑なオペレーションや反復的なオペレーションで作業が重複しないように結果をキャッシュに保存する

オペレーションの実行にコストがかかる場合は、次回必要になるときに使用できるように結果を保存することをおすすめします。また、オペレーションが複数回実行される場合(1 回あたりのコストが特に高くない場合でも)にも、この方法が適しています。

6. 重要でない処理を遅らせる

タスクの出力がすぐに必要ではなく、タスクの実行によってクリティカル パスが延長される場合は、出力が実際に必要なときに遅延起動することで、タスクを延期することを検討してください。

7. 大規模な入力に効率的なアルゴリズムを使用する

入力が大きい場合、最適な時間複雑度のアルゴリズムが重要になります。この例ではこのカテゴリについては検討しませんでしたが、その重要性は過大評価されることはありません。

8. ボーナス: パイプラインのベンチマーク

進化するコードの速度を維持するには、動作をモニタリングして標準と比較することをおすすめします。これにより、リグレッションを事前に特定し、全体的な信頼性を向上させ、長期的な成功を収めることができます。