Bagging (Bootstrap Aggregation) - Overview, How It Works, Advantages

Ensemble machine learning can be mainly categorized into bagging and boosting. The bagging technique is useful for both regression and statistical classification. Bagging is used with decision trees, where it significantly raises the stability of models in the reduction of variance and improving accuracy, which eliminates the challenge of overfitting.

バギング

Figure 1. Bagging (Bootstrap Aggregation) Flow. Source

Bagging in ensemble machine learning takes several weak models, aggregating the predictions to select the best prediction. The weak models specialize in distinct sections of the feature space, which enables bagging leverage predictions to come from every model to reach the utmost purpose.

Quick Summary

  • バギングとブースティングは、アンサンブル機械学習の2つの主要な方法です。
  • バギングは、回帰と分類に使用できるアンサンブル手法です。
  • これはブートストラップ集約とも呼ばれ、バギングの2つの分類を形成します。

ブートストラップとは何ですか?

バギングは、集約とブートストラップの2つの部分で構成されます。ブートストラップはサンプリング方法であり、置換方法を使用して、セットからサンプルが選択されます。次に、選択したサンプルに対して学習アルゴリズムが実行されます。

ブートストラップ法では、サンプリングと置換を使用して、選択手順を完全にランダムにします。サンプルが置換なしで選択された場合、変数の後続の選択は常に前の選択に依存するため、基準はランダムではなくなります。

アグリゲーションとは何ですか?

モデル予測は、可能なすべての結果を検討するための最終予測のためにそれらを組み合わせるために集約されます。集計は、結果の総数、または手順内のすべてのモデルのブートストラップから導出された予測の確率に基づいて実行できます。

アンサンブル法とは何ですか?

バギングとブースティングの両方が、最も顕著なアンサンブル手法を形成します。アンサンブル手法は、同じ学習アルゴリズムを使用して複数のモデルのトレーニングを支援する機械学習プラットフォームです。アンサンブル法は、複数分類子のより大きなグループの参加者です。

マルチクラシファイアは、共通の問題を融合して解決できる共通の目標を持つ、数千人に達する複数の学習者のグループです。マルチクラシファイアのもう1つのカテゴリは、ハイブリッドメソッドです。ハイブリッドメソッドは学習者のセットを使用しますが、マルチ分類子とは異なり、異なる学習メソッドを使用できます。

学習は、主にバイアス、ノイズ、分散に起因するエラーなど、複数の課題に直面します。機械学習の精度と安定性は、バギングやブースティングなどのアンサンブル手法によって保証されます。複数の分類器の組み合わせは、特に分類器が不安定な場合に分散を減らし、単一の分類器よりも信頼性の高い結果を提示する上で重要です。

バギングまたはブースティングのいずれかを適用するには、最初に基本学習者アルゴリズムを選択する必要があります。たとえば、分類ツリーを選択した場合、ブースティングとバギングは、ユーザーの好みに等しいサイズのツリーのプールになります。

バギングの長所と短所

ランダムフォレストランダムフォレストランダムフォレストは、予測と行動分析のモデリングに使用される手法であり、決定木に基づいて構築されています。ランダムフォレストには多くの決定木が含まれており、最も人気のあるバギングアルゴリズムの1つです。バギングには、多くの弱い学習者が1人の強い学習者をしのぐ努力を組み合わせることができるという利点があります。また、分散の減少にも役立ちます。したがって、過剰適合の排除過剰適合過剰適合は、関数が手順内のモデルの特定のデータセットに非常に密接に対応する場合に発生するモデリングエラーを指す統計で使用される用語です。

バギングの欠点の1つは、モデルの解釈可能性が失われることです。適切な手順を無視すると、結果のモデルに多くのバイアスが発生する可能性があります。バギングは非常に正確ですが、計算コストが高くなる可能性があり、特定の場合には使用を妨げる可能性があります。

バギングとブースティング

バギングとブースティングの間に使用する最良の手法は、利用可能なデータ、シミュレーション、およびその時点での既存の状況によって異なります。推定値の分散は、組み合わせ手順中にバギングとブースティングの手法によって大幅に削減され、それによって精度が向上します。したがって、得られた結果は、個々の結果よりも高い安定性を示しています。

イベントが低パフォーマンスの課題を提示する場合、バギング手法はより良いバイアスをもたらしません。ただし、ブースティング手法は、単一モデルの利点の最適化と欠点の削減に重点を置いているため、エラーの少ない統合モデルを生成します。

単一モデルでの課題が過剰適合である場合、バギング法はブースティング法よりも優れたパフォーマンスを発揮します。Boostingは、それ自体が過剰適合を伴うため、過剰適合を処理するという課題に直面します。

関連する読み物

Financeは、Financial Modeling&Valuation Analyst(FMVA)™FMVA®認定を提供しています。キャリアを次のレベルに引き上げたいと考えている人のために、Amazon、JP Morgan、Ferrari認定プログラムなどの企業で働く350,600人以上の学生に参加してください。知識ベースの学習と開発を続けるには、以下の関連する追加の財務リソースを調べてください。

  • クラスターサンプリングクラスターサンプリング統計では、クラスターサンプリングは、調査の母集団全体を外部的に均一であるが内部的に分割するサンプリング方法です。
  • 自信過剰バイアス自信過剰バイアス自信過剰バイアスは、私たちのスキル、知性、または才能の誤った誤解を招く評価です。要するに、それは私たちが実際よりも優れているという自我の信念です。それは危険なバイアスになる可能性があり、行動金融や資本市場で非常に多産です。
  • 回帰分析回帰分析回帰分析は、従属変数と1つ以上の独立変数の間の関係を推定するために使用される統計手法のセットです。これは、変数間の関係の強さを評価し、変数間の将来の関係をモデル化するために利用できます。
  • 時系列データ分析時系列データ分析時系列データ分析は、一定期間にわたって変化するデータセットの分析です。時系列データセットは、さまざまな時点での同じ変数の観測値を記録します。金融アナリストは、株価の動きや企業の売上などの時系列データを使用します。