機械学習を使用してゴールドプロバイダーを予測することで調査回答率を向上
詳細
オーストラリア統計家のテクニカル シリーズの一部としてリリースされた 2 番目の研究論文
詳細
オーストラリア統計局 (ABS) やその他の国家統計機関にとって、調査に対する高い回答率を維持することはますます困難になっています。 データ収集の予算が限られているため、回答者をフォローアップするためのより効果的な戦略が模索されています。 このペーパーでは、フォローアップの電話を一切必要とせずに調査を完了する調査回答者 (以下、ゴールド プロバイダー (GP) と呼びます) を予測することに焦点を当てています。 GP を正確に予測することで、残りのプロバイダー、つまりフォローアップにより応答する可能性が高まるプロバイダーに焦点を当てたフォローアップの取り組みが可能になります。 フォローアップ リソースを割り当てるこの応答性の高いデータ収集プロトコルは、GP 戦略と呼ばれます。
この論文では、目標回答率の達成に苦戦している ABS 調査の 1 つである農村環境・農産物調査 (REACS) の 2018 年から 19 年サイクルにおけるこの GP 戦略の実際のトライアルを検証します。 GP の予測には、ルールベースの記述的アプローチとモデルベースの応答傾向アプローチの 2 つのアプローチが使用されました。 モデルベースの応答傾向アプローチでは、回帰ツリー法によるランダム フォレストと呼ばれる機械学習手法が使用されました。
ライブトライアルでは、機械学習アプローチは、GP と非 GP をより正確に予測し、サンプル全体で必要な GP の割合をより柔軟に設定できるため、ルールベースのアプローチよりも優れたパフォーマンスを示しました。
キーワード: ゴールドプロバイダー戦略。 集中的なフォローアップ。 反応傾向。 機械学習。 ランダムフォレスト法
ABS やその他の国家統計機関にとって、調査に対する高い回答率を一貫して維持することはますます困難になってきています。 この事実に加えて、データ収集にかかるコストの増加と予算の制約により、これらの機関は、無回答バイアスの減少に役立つ回答率の向上を目的とした、より効果的なフォローアップ戦略を模索するようになりました。
関心のあるターゲット調査変数が統計的に回答傾向から独立している場合、これは、ABS で集中フォローアップ (IFU) 取り組みとして知られているものを戦略的に遅らせ、リダイレクトするゴールドプロバイダー (GP) 戦略と呼ばれる応答性の高いデータ収集プロトコルを通じて達成できます。それ以外の場合は、GP 戦略期間中に GP から非 GP への通話(つまり、電話)が費やされます。 ここで GP は、自己回答する、つまりフォローアップの電話を必要とせずにアンケートを完了するアンケート回答者です。 GP 戦略期間中、非 GP には通常のフォローアップ コールが行われますが、GP は意図的にフォローアップされず、GP から保存されたフォローアップ コールは非 GP に再割り当てされます。 。 GP 戦略期間が終了すると、自己応答しなかった GP も、非 GP と同様にフォローアップされます。 GP 戦略の重要な要素が GP への IFU リソースを停止またはキャンセルするのではなく遅らせることであるとすると、概念的には、推定値に追加の非応答バイアスが生じることはなく、したがって、次の場合に重大な統計的リスクを引き起こすことはありません。データ品質に関しては何でも構いません。 一方、遅れた一般開業医のフォローアップで保存された通話は、非一般開業医のフォローアップに使用できるため、応答率の向上と無応答バイアスの軽減に役立ちます。 したがって、この GP 戦略は最終的に、データ品質を低下させることなく、あるいは改善することなく、全体的な応答率を向上させるために最も効率的にフォローアップの取り組みを行うことを目的としています。
毎年実施される農村環境・農産物調査(REACS)は、目標とする回答率の達成が困難に直面している ABS ビジネス調査の 1 つです。 REACS の場合、IFU 期間は約 3 か月で、2 回目と 3 回目のリマインダーレターと IFU の終了という 3 つの重要なマイルストーンがあります。 最初のリマインダーレターは、早期に発生したため、重要なマイルストーンとはみなされないことに注意してください。 IFU 期間全体を通じて、重要な IFU 戦略は、Completely Enumerated (CEd) セクターの非回答者に対して IFU リソース (つまりコール) を優先し、次にサンプリングされたセクターを優先することです。 ここで、CEd セクターとは、推定の品質に重大な影響を与えるため、選択確率が 1 である回答者を含むセクターを指します。 それにもかかわらず、CE 対象セクター内および同様にサンプル対象セクター内では、すべての回答者が同じ回答傾向を持ち、回答に同等のリソースを必要とするという暗黙の仮定が存在します。 したがって、セクター内のリソース配分の強度は、回答者ごとに区別されません。
明らかに、これは GP 戦略よりも費用対効果の低い IFU 戦略です。 GP 戦略の有効性を説明するために、2018 年から 2019 年の REACS サイクルのサンプルの半分に対してライブ トライアルを実施しました。
このペーパーでは、2018 ~ 2019 年のサンプルから GP を予測および選択するために使用される方法論、ライブトライアルの設定、予測精度、コスト削減、および予測精度に関する GP 戦略の有効性の評価の概要を説明します。データ品質への影響。
GP 戦略を成功させる鍵は、GP を正確に特定することです。 それを達成するにはさまざまな方法があります。 簡単なアプローチは、ルールベース記述 (RBD) 手法を使用して、以前の調査サイクルでの回答行動に基づいて GP を定義および予測することです。 これは歴史的に、ABS における限られた数のビジネス調査に使用されてきました。
あるいは、モデルによって予測された調査回答傾向がデータ収集プロトコルの開発に使用されてきたため (McCarthy et al., 2009; Peytchev et al., 2010; Earp et al., 2013; Buskirk et al., 2013; Phipps and Toth, 2012; Wilson et al., 2015; Plewis and Shlomo, 2017)、モデルベースの応答傾向(MBRP)法を調整して GP を定義および予測することもできます。 ライブトライアルでは、GP を正確に予測する際のパフォーマンスを比較するために、RBD メソッドと MBRP メソッドの両方が評価されています。
RDB のルールを開発したり、REACS 2018-19 サイクルの GP を予測するための MBRP のアルゴリズムをトレーニングしたりするために、2014-15 年から 2017-18 年までの 4 つの過去の調査サイクルからの調査情報をまとめたデータセットを使用しました。 統合されたデータセットには、各 IFU 段階(つまり、2 回目と 3 回目の督促状および IFU の終了)での対応状況、最終的な対応状況、最終回答日、IFU に送信された督促状の総数などの調査情報が含まれていました。データの統合と対立の後、約 100,000 人の回答者からの合計 157,000 件の観察結果 (その多くは 1 サイクル以上で発生したもの) がデータに含まれました。セット。
統合データセットに履歴情報がある2018-19サイクルの調査回答者のみがGPステータスで予測され、2018-19サイクルに新たに選択された回答者、または完全な履歴情報がなかった回答者のみが予測されることは注目に値します。情報は自動的に非 GP として分類されました。
ABS で以前に使用されていた GP 戦略では、GP は、前の調査サイクルでフォローアップを必要とせずに調査を完了した調査回答者として定義されました (「定義 1」と呼ばれます)。
このライブ トライアルでは、さまざまなマイルストーンでのコール数に関連するルールに特定の緩和を加えた、いくつかの代替定義も検討されました。 これらが:
GP の予測精度と IFU コール数の潜在的な節約の観点から、3 つの定義すべてに対して遡及分析が実施されました。
予測精度の観点から、GP を正しく予測する際の各定義の精度レベルが評価されました。 つまり、2015 年から 2016 年の REACS 調査サイクルにおいて、彼らが真の GP であるかどうかを判断するために、2014 年から 2015 年の調査サイクルの情報を使用して、選択された定義に基づいて GP として予測された一連の回答者が、彼らの回答に照らして評価されました。実際の対応状況と試行された IFU の取り組み。 結果は、定義 1 と定義 2 のそれぞれ 75% と 70% に対して、定義 3 が 80% 以上の精度で GP の最も正確な予測を提供することを示しました。 2016 ~ 2017 年と 2017 ~ 2018 年の REACS 調査サイクルの評価では、一貫した結果が示されました。
コスト削減の観点から、各定義によって予測される GP をフォローアップしないことによる潜在的なコール削減額が評価されました。 結果は、定義 3 を使用することで節約されるコールの数が、定義 1 および 2 を使用する場合よりも多いことを示しました。具体的には、定義 1 と比較して、定義 3 で節約されるコールの割合は 6.3 です。 2015-16 年、2016-17 年、2017-18 年のサイクルではそれぞれ %、10.5%、8.5% 増加しました。 また、定義 2 と比較すると、定義 3 で節約されるコールの割合はさらに大きく、2015 ~ 16 年のサイクルでは 7.8%、2016 ~ 17 年のサイクルでは 15.4%、2017 ~ 18 年のサイクルでは 13.2% 増加しています。
遡及分析の結果に基づいて、定義 3 が最終的な RBD 定義として選択されました。 つまり、GP は、前回の調査サイクルで IFU 終了までに 2 回以下の通話で回答した調査回答者です。
反応傾向をモデル化するための多くの方法が文献で提唱されています。 伝統的に、応答傾向はロジットまたはプロビット回帰モデルを当てはめることによって推定されます (Black et al., 2010; Peytchev et al., 2010; Chen et al., 2012; Whiting and McNaughtan, 2013; Plewis and Shlomo, 2017)。 ロジット回帰モデルまたはプロビット回帰モデルでは、モデル結果の堅牢性と適合性をテストするための複数の検証手段があります。 しかし、Earp et al. (2013) は、ロジット回帰では、分析者が無応答に関連すると考えられる変数を仮説化し、観察されたデータを使用してモデル パラメーターに適合させる必要があると指摘しました。 したがって、これらの「説明用」変数が誤って指定されたり、過小評価されたりするリスクがあり、特性変数間の相互作用のため、ロジスティック回帰モデルの解釈が困難になることがよくあります。
分類と回帰ツリー (CART) を含む、分類と予測のための新しい機械学習 (ML) 技術 (Phipps and Toth、2012; Valiiant et al.、2013; Earp et al.、2013; Toth and Phipps、2012; Buskirk and Kolenikov、 2015; Lohr et al., 2015; Wilson et al., 2015)およびランダムフォレスト(Brieman, 2001; Buskirk et al., 2013; Buskirk and Kolenikov, 2015)は、調査の回答傾向を予測するための強力なツールであることが証明されています。 これらの ML 手法も、説明変数が正しく包括的に特定されていない場合、モデルの仕様の誤りに悩まされますが、モデリングで線形性の仮定を必要としないため、ロジスティック回帰モデルよりも優れています。 さらに重要なことは、ツリーに固有の自動インタラクション検出は、補助データとパラデータの間のインタラクションと応答傾向を説明し、簡単に解釈する簡単な方法を提供することです (Earp et al., 2013; Toth and Phipps, 2014; Buskirk and Kolenikov, 2015) )。
これらのさまざまな ML 手法のうち、ランダム フォレスト法は、単一のツリーの結果を使用するのではなく、複数の分類ツリーまたは回帰ツリーの結果を組み合わせることによって推定値を生成するため、ノンパラメトリック「アンサンブル」ツリー ベースの手法の一例です。 ランダム フォレストは、ブートストラップされたデータセットを使用し、アルゴリズムによって選択される特徴の数を制限することで、過剰適合に関連する問題を克服するため、多数のツリーにわたる推定値を集約することにより、単一のツリーから生成された推定値と比較して、より安定したばらつきの少ない推定値を生成する傾向があります。各ノードで (Brieman、2001)。
分類ツリーのフォレストと回帰ツリーのフォレストは、ランダム フォレストで開発された 2 つの主要な傾向推定方法です。 このライブ トライアルでは、連続応答傾向を生成できるため、回帰ツリーを使用したランダム フォレスト手法が MBRP アプローチとして選択されました。
ランダム フォレストに含めるように選択された予測子は、モデルの適合性と予測精度において重要な役割を果たします。 したがって、予測精度をさらに向上させるために、関連する予測変数を選択する努力が必要です。
調査変数のみを予測変数として含む標準応答モデルは、予測の点でパフォーマンスが低いことが文献 (Durrant et al., 2017) によって示されています。 代わりに、ABS の研究 (Black et al., 2010) では、エリアの特性、ビジネスの特性、調査デザインの特徴、回答者の特性、面接者の特性、面接者の観察を含む 6 つの主要なカテゴリをカバーするフレームワークを使用することを推奨しています。 最初の 3 つのカテゴリは調査変数であり、最後の 3 つのカテゴリはパラデータと呼ばれます。 このフレームワークを使用して、どの調査変数とパラデータ項目をライブトライアルの予測変数として採用するかを決定するために記述分析が実行されました。 これらには、州、産業、規模、有意水準、推定値に対する重み付け寄与度(調査変数として)、発信された電話の数と送信されたリマインダーレターの数(パラデータとして)が含まれます。 データが不足しているため、面接者の特徴や面接者の観察のカテゴリーの特徴を予測因子として含めることができませんでした。
ランダム フォレストで使用されるパラメーターは、モデルの予測能力を高めることができます。 ただし、パラメーターを過剰に使用すると、モデルが「過剰適合」し、予測バイアスが生じる可能性があります。 したがって、モデルの最適な予測パフォーマンスを達成するには、モデリング プロセス中にパラメーターを調整することが非常に重要です。 調整するために選択する最も一般的なパラメーターには、ntree (フォレスト内で成長するツリーの数)、mtry (各ツリーの構築に使用される変数の数)、nodesize (ターミナル ノードの最小サイズ) が含まれます。
この作業のパラメーターの選択を決定するために、トレーニング データ セットとして 15,700 の観測値のデータ セットに対してランダム フォレスト モデルを実行することで予備テストを実行しました。 次に、予測の誤り率が最も低くなるパラメータのセットを選択しました。 この作業のすべての計算は、R パッケージ RandomForest を使用して実行されました。
テストでは、回帰ツリー法の場合、\(mtry=4\) および \(nodesize = 20\) で \(ntree = 300\) を使用すると、フォレストの安定したエラー率が達成されることが示されました。
「サンプル外」予測誤差率を推定するために、テスト モデルで決定された選択されたパラメーターのセットを利用して、n 分割相互検証アプローチを使用して最終応答傾向スコアを生成しました。 n 分割相互検証の一般的な考え方は、データを 2 つの部分に分割することです。1 つはトレーニング データセットで、モデルの構築、つまりツリーの成長に使用されます。 もう 1 つは、モデルの検証と評価、つまりサンプル外の予測精度の評価に使用されるテスト データ セットです。 10 分割相互検証は、機械学習で主によく使用されます。 10 分割相互検証では、元のデータセットがサンプル サイズ 1/10 の等しい 10 個のサブセットにランダムに分割されます。 1 つのサブセットがテスト セットとして選択され、他の 9 つはトレーニング セットになります。 毎回異なるテストセットを選択し、この手順を 10 回繰り返すため、すべての観測値が 1 回だけテストされます。 推定値は、各テスト セットの結果を組み合わせて得られます。 この研究では、157,000 個の観測値がランダムに 10 個のサブセットにグループ化され、各サブグループのサンプル サイズはほぼ等しい 15,700 個になりました。 毎回、異なるサブセットをテスト セットとして選択し、残りの 9 つのサブセットをトレーニング セットとして組み合わせました。 この手順を 10 回繰り返すことにより、157,000 の観測値すべてが 1 回テストされました。 応答傾向は、各テスト セットの結果を組み合わせて推定されました。 これらの推定された回答傾向スコアは GP を予測するために使用され、予測は回答者の実際のステータスと比較されて誤り率が決定されました。 ライブトライアルの目的では、予測傾向が 0.85 以上の回答者を GP とみなしました。
前のセクションで述べたように、2014 ~ 2015 年から 2017 ~ 2018 年の 4 つのサイクルからの調査情報をまとめることで、約 100,000 人の回答者からの合計 157,000 件の観測値がトレーニング データセットに含まれました。 したがって、回答者の多くは 1 つ以上のサイクルで発生し、複数の回答傾向があると予測されました。 これらの回答者については、さまざまなサイクルからの予測された回答傾向が平均されて、最終的な回答傾向が生成されました。
GP 定義を決定するために IFU 期間のさまざまな段階を使用して調査した RBD アプローチと同様に、MBRP アプローチもさまざまな段階、つまり 3 回目のリマインダーレターと IFU 終了での応答傾向を予測しました。 IFU の終了時に生成される応答傾向が最も正確な予測を提供することが判明しました。 コール数の緩和は、MBRP アプローチでも定義の一部として採用されました。
したがって、MBRP アプローチの最終的な GP の定義は次のとおりです。GP は、IFU 終了前に 2 件以下のコールで応答する予測平均傾向が特定のカットオフしきい値 (このライブ トライアルでは 0.85) を超える調査回答者です。
各アプローチの最終定義に基づいて、REACS 2018-19 サイクルの回答者 27,159 人の合計サンプルが GP または非 GP として予測されました。 過去の情報が不足しているため、どちらのアプローチでも GP ステータスを予測できなかった回答者がいることは注目に値します。 これらの回答者は自動的に非 GP として分類されました。
両方のアプローチから 2018 ~ 2019 年のサイクルで予測される GP は次のとおりです。
ワークフローを簡素化し、十分な規模の治療グループを用意するために、RBD アプローチと MBRP アプローチを組み合わせて、総サンプル サイズの 40% を GP として分類することが決定されました。 したがって、治験の GP は次のメンバーで構成されました。
ライブトライアルの GP を認識するこの集合的な方法は、GP_final アプローチと呼ばれます。 サンプル全体の残りの 60% (1,718 人の CE 回答者と 14,155 人のサンプル回答者を含む) は、このライブ試験では非 GP として扱われました。
予測された一般開業医と非一般開業医の両方を、対照群と治療群という 2 つの同種のサブグループに均等に分割し、新規回答者の総数を含む仕様の類似性を考慮して、回答者の総数のバランスを確保しました。 、CE 回答者の総数、GP の総数、GP である CE 回答者の数。 均等な分割は層レベルで実施され、REACS サンプルはサイズや地理的位置などの特性によって層別化されていることに注目する価値があります。 したがって、対照群と治療群の間のこれらの特性による分布も同様であるはずです。
割り当てられた対照群と治療群の詳細な構成を以下の表 1 および 2 に示します。
ライブ試験では、対照群はデータ収集期間全体を通して「通常の」IFUフォローアップが行われる一方、治療群は全体的な反応を高めることを目的としてGP戦略を実施するように設定されました。同じ IFU リソースを使用してレートを調整します。 この構成要素は次のとおりです。
GP 戦略のライブトライアルは、厳格な実装および監視フレームワークのガイドラインの下で成功裏に実施されました。 完了後、予測精度、費用対効果、データ品質への影響という 3 つの主要な観点から治療群と対照群のパフォーマンスを比較することによって評価が行われました。 この評価は、GP 戦略期間中に GP に対する IFU アクションを遅らせ、これらの追加の IFU リソースを非 GP に再割り当てすることにより、GP 戦略が全体的な反応率の向上に効果的であるかどうかを評価することを目的としていました。 さらに、この評価は、REACS に対して GP 戦略を継続的に採用するかどうか、またどの規模で採用するかを決定する際に重要であり、その有効性を高めるために実施できる将来の改善点を特定する上でも重要でした。
GP 戦略の成功を評価するために、まず最も重要な点は、遡及的な観点から GP がどの程度正確に予測されたかを評価することでした。
以下の表 3 は、さまざまなアプローチで定義された GP ステータスの概要を、2018 ~ 2019 年サイクルの実際の GP ステータス (最終行の数字) と比較して示しています。 ここで、「未分類」列は、履歴情報が欠如しているため、どちらのアプローチでも回答者の GP ステータスを予測できなかった状況を指します。 表 3 から、実際の GP の母集団はサンプル全体の約 60% であり、設定した 40% より 20% 高いことがわかります。 また、GP_MBRP のみのアプローチでは、より近い合計 GP 数を特定できました。 さらに、RBD のみのアプローチと比較して、未分類の回答者の数がはるかに少なくなりました。
以下の表 4 は、さまざまなアプローチの予測精度をレートの観点から示しています。 結果から、すべてのアプローチが GP の予測において高い精度を達成しており、精度率はそれぞれ 76% ~ 80% であることが明確にわかります。 さらに、GP_MBRP のみのアプローチが、GP と非 GP の両方を予測する高い精度を達成する点で他のアプローチよりも優れていることがわかります。
RBD アプローチと MBRP アプローチの予測精度をさらに比較するために、GP_final アプローチを使用して GP として予測された 10,863 人の回答者を、予測に使用されたアプローチごとに分類し、彼らの予測精度を実際の GP ステータスに対して評価しました。 この内訳を以下の表 5 に示します。そこから、両方のアプローチで共通に予測された 7,955 個の GP のうち、6,495 個が実際の GP であり、精度が約 82% であることがわかります。 どちらのアプローチでも一意に予測された 2 セットの 1,454 GP のうち、MBRP アプローチで予測されたものは、RBD アプローチよりもはるかに高い精度を達成しました。これは、MBRP のみのアプローチの予測精度が高いことを再度証明しました。
上記で行われた遡及分析から、ライブトライアルで実施された GP 特定アプローチは成功したと結論付けました。 さらに、GP と非 GP の両方の予測において他のアプローチよりも優れているため、MBRP のみのアプローチを採用することでさらに改善される可能性があります。 さらに、MBRP のみのアプローチは、予測された応答傾向スコアのカットオフしきい値を調整することでユーザーが全体的な GP 比率を指定できるという点でより柔軟であり、そのため履歴情報に基づく変更や改善により適応できました。 前述したように、実際の GP 回答者は、ライブ トライアル用に設定した 40% ではなく、サンプル全体の約 60% でした。 したがって、次のサイクルでは、この実際の GP ステータスを反映するために、カットオフしきい値を 0.85 から、たとえば 0.75 に下げて、MBRP アプローチによってより多くの GP を予測できるようにする必要があります。
IFU リソースが同じであり、主な目的が全体的な反応率を高めることであったことを考えると、費用対効果の観点から GP 戦略の成功を分析することが重要です。より具体的には、達成された反応率 (すなわち、有効性) と対照群と治療群の間で一般開業医と非一般開業医の回答者に IFU 期間中の通話で示されたとおりに割り当てられた IFU リソース (つまりコスト)。 以下の表 6 から、治療グループは対照グループと比較して、一般医への電話が 708 件少なく、同様の応答率を達成したことがわかります。 また、治療グループの一般開業医が、対照グループの一般開業医に比べて、応答あたりの平均コール数がはるかに小さいことも明らかな観察でした。 これらは、IFU リソースの節約における GP 戦略の有効性を強く示しています。 ただし、ライブトライアルでは、節約されたリソースを GP 以外に転用することは費用対効果が低いことも実証されました。 表 6 に見られるように、非 GP への通話が 900 件以上増加したにもかかわらず、非 GP の応答率はほとんど改善されませんでした。
表 7 は、反応状況と割り当てられた IFU リソースの観点から、対照群と治療群間の非 GP の分割をさらに詳しく示しています。 治療グループでは、追加の 875 コール (228 プラス 647) により、対照グループと比較して、予想外に全体の反応者数が 24 (38 マイナス 14) と減少したことがわかります。 また、全体としてより高い応答率は達成されなかったものの、治療グループ内の回答者に割り当てられた平均コール数が対照グループよりも多かったことがわかります。
(a) 範囲外とは、選択後に 2018 ~ 2019 年のサイクルの範囲外と特定された回答者を指します。
表 6 と 7 の両方の結果は、治療グループの場合、GP から保存され、非 GP にリダイレクトされた通話では、より良い応答結果が得られなかったことを示唆しています。 これは、これらのリソースが非 GP に非効果的に再割り当てされたことが原因である可能性があります。 したがって、再割り当てをより効率的に行うには、より集中的なフォローアップ コールで応答する可能性が高い特定の非 GP、つまり予測応答傾向が比較的高い非 GP を追加リソースの対象にする必要があります。 この提案されたアプローチを検証するために、達成された応答率と、対照群と治療群の間で非 GP に割り当てられた IFU リソースを、以下の表 8 に示す応答傾向スコア範囲によってさらに調べました。
表 8 から、治療群と対照群の両方で予想されたように、反応傾向と反応率の間に強い相関関係があることがわかります。 これもまた、GP の予測における MBRP アプローチの高い予測力を強く示しています。 同様に、各応答傾向スコア範囲について、治療群と対照群の両方について、回答者の割合とコールの間の正の関係も観察できます。 ただし、治療グループでは、表 8 でそれぞれ (a) および (b) と注釈が付けられている応答傾向スコア範囲内の回答者に割り当てられたコールが、対照グループのコールと比較して不均衡に大きかったり小さかったりすることに注意してください。相応の高いまたは低い応答率に変換することなく、グループに影響を与えます。 これは、これらの追加コールが、予測された応答傾向スコアの最高から最低までの範囲に基づいて非 GP に再割り当てされていた場合、対照グループの結果が示すように、全体的な費用対効果が改善された可能性があることを示唆しています。 表 8 の結果は、実質的な単位数を持つ RP スコア範囲、つまり (0.2, 0.3] から始まるもの) に焦点を当てて解釈されるべきであることに注意してください。
(a) 不釣り合いに小さい (b) 不釣り合いに大きい
この仮定を検証するために、治療群の各スコア範囲の潜在的な新規応答率もシミュレーションされました。このとき、治療群のコール当たりの応答変換は同じままであり、非 GP へのコール分布が対照群の分布と一致していると仮定しました。 表 9 に示すシミュレーション結果は、治療グループ内の非一般開業医に対して同じ合計 3,906 件の電話がかけられた場合、応答者全体が 5,025 人から 5,189 人に増加する可能性があり、その結果、全体の応答率が 2 増加する可能性があることを示唆しています。 %。 理論的には、ターゲットを絞ったコール再割り当ての新しいアプローチは、対照グループのアプローチよりも効果的であるはずであるため、これらのシミュレーション結果が保守的であることは注目に値します。
要約すると、費用対効果の評価では、GP 戦略は、回答者の回答率の低下を引き起こすことなく、GP に対する IFU リソースの開始を遅らせることで、GP からの IFU リソースを節約するのに効果的であることが示唆されました。 この結果は、IFU を必要としない回答者からリソースをそらすという GP 戦略の成功を強く示しています。 ただし、評価では、GP から保存され、非 GP にリダイレクトされた IFU リソースは、これらのリソースの再割り当てが非効果的であるため、より良い応答結果をもたらさないことも示されました。 さらなるシミュレーション研究により、これらの節約されたリソースが対照群と同じ方法で非一般開業医に向けられた場合、2% 高い反応率が達成された可能性があることが示されました。 これは、節約されたリソースが最も高い応答傾向を持つ非 GP のみに向けられた場合、応答でさらに多くの利益が達成される可能性があることを示唆しています。 無回答バイアスを減らすことを目的として、節約されたリソースを非一般開業医に効果的に展開する方法を開発するために、さらなる研究を実施する必要があります。
導入セクションですでに述べたように、GP 戦略の重要な部分が GP への IFU リソースを停止するのではなく遅らせることであることを考えると、概念的には推定値に非応答バイアスを引き起こすべきではないため、いかなる問題も引き起こすことはありません。調査のデータ品質に重大な統計的リスクがある場合。 この記述を定量的に検証するために、治療グループと対照グループ間の推定値も分析しました。
以下の散布図に示されているように、対象の状態および変数によって生成された推定値についての対照群と治療群の比較に基づいて、系統的な偏り(すなわち、推定値の過大または過少の問題)がどちらにしても発生していないことがわかりました。 したがって、ライブトライアルが実施された方法で GP 戦略を導入しても、全体の推定値に追加の無回答バイアスが生じることはなかったと結論付けることができます。
同じデータ収集予算を維持しながら全体的な回答率を高めるために、GP 戦略は REACS 2018 ~ 2019 サイクルのライブ トライアルを通じて実施されました。 GP 戦略は、不必要なフォローアップ連絡を GP から非 GP に、つまり、自己応答する可能性が高い回答者から、自己応答する可能性が低い回答者にリダイレクトすることで応答率を高めることを目的としています。
このペーパーでは、2018 ~ 2019 年のサンプルからの GP 回答者の予測と選択、対照群と治療群によるライブ トライアルの設定、GP 戦略の有効性の評価の側面に焦点を当てた GP 戦略のライブ トライアルの概要を説明します。予測精度、コスト削減、データ品質の点で。
予測精度を評価するために、GP を予測するために 2 つの方法が採用されました。 RBD アプローチでは、GP は、前回の調査サイクルで IFU 終了までに 2 回以下の通話で回答した調査回答者として定義されました。 MBRP アプローチでは、GP は、IFU 終了前に 2 件以下のコールで応答する平均モデル予測傾向が特定のカットオフしきい値 (このライブ トライアルでは 0.85) を超える調査回答者として定義されました。 両方のアプローチを組み合わせると、合計 10,863 人の回答者 (総サンプル サイズの 40%) が GP であると予測され、残りの 60% は非 GP として分類されました。 これらの GP と非 GP は、新規回答者の合計数、CE 回答者の合計数、GP 回答者の合計数、および GP 回答者の合計数などの仕様の類似性を考慮して、対照群と治療群の 2 つのサブグループに均等かつランダムに分割されました。 GP である CE 回答者の数。
ライブ試験では、対照群にはデータ収集期間全体を通じて「通常の」IFU アクションが行われますが、治療群は GP 戦略を実行するように設定されました。 これには次の要素が含まれていました。
ライブトライアルが正常に完了すると、予測精度、費用対効果、データ品質への影響の観点から治療群と対照群を比較することで評価が行われました。 この評価は、GP 戦略期間中に GP 回答者に対する IFU アクションを遅らせ、これらの追加の IFU リソースを非 GP に再割り当てすることにより、GP 戦略が全体的な回答率の向上に効果的であるかどうかを評価することを目的としていました。 さらに、この評価は、REACS に対して GP 戦略を継続的に採用するかどうか、またどのような規模で採用するかについての決定を下し、その有効性を高めるために実施できる将来の改善点を特定する上で重要でした。
予測精度の評価により、GP を特定する際の RBD アプローチと MBRP アプローチの両方が効果的であることが確認されました。 さらに、MBRP アプローチが GP と非 GP の両方の予測において RBD よりも優れていることが示されました。 さらに、MBRP アプローチは、予測された応答傾向スコアのカットオフしきい値を調整することにより、全体的な GP 比率をより柔軟に変更できるため、履歴情報に基づく変更や改善にさらに適応できます。
費用対効果の評価では、GP 戦略が、GP への IFU リソースの開始を遅らせ、回答者の回答率の低下を引き起こすことなく、GP からの IFU リソースを節約するのに効果的であることが示唆されました。 この結果は、IFU を必要としない回答者からリソースをそらすという GP 戦略の成功を強く示しています。 ただし、この評価では、GP から保存され非 GP にリダイレクトされた IFU リソースは、ライブ試験におけるこれらのリソースの再割り当てが非効果的であるため、より良い応答結果をもたらさないことも示されました。
データ品質の評価により、GP 戦略の導入によって追加のデータ品質リスクが生じていないことが確認されました。
評価の結果に基づいて、MBRP ベースの GP 戦略は GP の特定と IFU リソースの節約に効果的であり、継続的に REACS に採用できると結論付けることができます。 ただし、将来の REACS に向けた回答率のさらなる向上と無回答バイアスの削減を目的として、これらのリソースの効果的な展開戦略を開発するには、さらなる研究が必要となるでしょう。
Black, M.、Brent, G.、Bell, P.、Starick, R.、および Zhang, M. (2010)。パラデータを使用した調査コスト、回答率およびバイアスの経験的モデル、カタログ。 いいえ。 1352.0.55.113、ABS、キャンベラ。
ブライマン、L. (2001)。 ランダムフォレスト。 機械学習、45 (1)、5-32。
AT バークス氏および TD バスカーク氏 (2012)。 応答傾向は木の上で成長することができますか? ABS サンプリング フレームに追加された補助データを使用した、ランダム フォレストに基づく応答傾向モデルの探索。 イリノイ州シカゴで開催された 2012 年中西部世論調査協会で発表された論文。 http://www.mapor.org/confdocs/progarchives/mapor_2012.pdf (2017 年 12 月 20 日にアクセス)。
TD バスカーク、AT 州バークス、BT 州ウェスト (2013)。 アンケート回答の傾向は木に生えるのか? ABS サンプリング フレームに追加された母集団変数を使用したランダム フォレストとロジスティック回帰モデルの妥当性の比較」、ニューオーリンズで開催された 2013 年の統計実践会議で発表されたポスター。
バスカーク、TD およびコレニコフ、S. (2015)。 フォレスト内で回答者を見つける: 回答傾向の重み付けと層別化のためのロジスティック回帰モデルとランダム フォレスト モデルの比較。 調査の洞察: 現場からの手法、重み付け: 実践的な問題と「方法」アプローチ。 http://surveyinsights.org/?p=5108 から取得 (2017 年 12 月 20 日にアクセス)。
Chen, Q.、Gelman, A.、Tracy, M.、Norris, FH、および Galea, S. (2012)。 パネル無応答の重み付け調整。 http://www.stat.columbia.edu/~gelman/research/unpublished/weighting%20adjustments%20for%20panel%20surveys.pdf で入手可能です (2017 年 12 月 20 日にアクセス)。
Durrant, GB、Maslovskaya, O. および Smith, PWF (2017)。以前の波情報とパラデータの使用: 縦断的研究における応答結果とコール シーケンスの長さの予測に役立ちますか? 政府統計ジャーナル、33-3、801–833。
アープ、M.、トス、D.、フィップス、P.、およびオスランド、C. (2013)。 データ収集プロセス全体を通じて無回答者の特徴を特定し、比較する。 https://www.bls.gov/osmr/pdf/st130090.pdf で入手可能です (2017 年 12 月 20 日にアクセス)。
マッカーシー、JT、ジェイコブ、T.、アトキンソン、D. (2009)。 公的統計の作成におけるデータマイニング技術の革新的な使用。 統計方法に関する連邦委員会の論文。 https://www.nass.usda.gov/Education_and_Outreach/Reports,_Presentations_and_Conferences/reports/conferences/FCSM/data%20mining%202009%20fcsm.pdf (2017 年 12 月 20 日にアクセス)。
A. ペイチェフ、S. ライリー、J. ローゼン、J. マーフィー、M. リンドブラッド (2010)。 ケースの優先順位付けによるアンケートの無回答バイアスの削減。 調査研究法、4-1、21-29。
フィップス、P. およびトス、D. (2012)。 リンクされた管理データを使用した解釈可能な回帰ツリー モデルを使用した施設の無回答の分析。 応用統計年報、6、772-794。
フィップス、P. およびトス、D. (2012)。 調査回答を分析するための回帰木モデル。 https://www.bls.gov/osmr/pdf/st140160.pdf で入手可能です (2017 年 12 月 20 日にアクセス)。
プレウィス、I. およびシュロモ、N. (2017)。 回答傾向モデルを使用して縦断的研究における回答データの品質を向上させる。 政府統計ジャーナル、33-3、753–779。
Lohr, S.、Hsu, V.、Montaquila, J. (2015)。 分類木と回帰木を使用して調査の無回答をモデル化する。 https://ww2.amstat.org/sections/srms/Proceedings/y2015/files/234054.pdf で入手可能です (2017 年 12 月 20 日に評価)。
Valliant, R.、Dever, J.、および Kreuter, F. (2013)。 調査サンプルの設計と重み付けのための実用的なツール。 ニューヨーク州スプリンガー。
ホワイティング、J.、およびマクノートン、R. (2013)。 2016 年国勢調査列挙モデルの応答モデリング、カタログ。 いいえ。 1352.0.55.136、ABS、キャンベラ。
ウィルソン、T.、マッカーシー、J.、およびダウ、A. (2015)。 施設調査における適応設計: 農業資源管理調査における「最適な」データ収集手順の目標設定、適用、測定。 スイスのジュネーブで開催された2016年設立調査国際会議で発表された論文。 http://ww2.amstat.org/meetings/ices/2016/proceedings/047_ices15Final00159.pdf (2017 年 12 月 20 日にアクセス)。
この論文に洞察を提供し、オーストラリア統計家の技術シリーズの一部としてこの論文を出版することを支持してくれたオーストラリアの統計学者、David Gruen AO 博士に特別な感謝の意を表したいと思います。 また、時間を割いてこの論文を何度も編集し、何度もレビューしてくださった元主任方法論者の Siu-Ming Tam 博士、主任方法論者の Anders Holmberg 博士、およびプログラム マネージャーの Paul Schubert にも、深く心から感謝いたします。 有益なコメントを提供してくださったマンチェスター大学のナタリー・シュロモ教授にも感謝します。
この文書の基礎となっているゴールド プロバイダー プロジェクトは、ビジネス統計手法、農業統計プログラム、データ収集デザイン センター、国立データ収集センター、モデリング、分析など、さまざまな分野の ABS 同僚からの洞察力に富んだインプットと努力による共同成果です。そして視覚化。 彼らのサポートと献身にとても感謝しています。 特に、思慮深い指導をしてくれた Justin Farrow と Lyndon Ang、たゆまぬ努力をしてくれた Susan Fletcher と Tom Davidson、そしてこの論文の出版を支援してくれた Kirrilie Horswill と Sean Geltner に感謝します。
Summer Wang方法論部門アシスタントディレクター
ABS の 2018 ~ 2019 年の農業調査に関する詳細情報は、オーストラリアの農業商品でご覧いただけます。
ABS の 2018 ~ 2019 年の年次農業調査で使用された方法論の詳細については、オーストラリアの農業商品の方法論を参照してください。
オーストラリアの統計家のテクニカル シリーズでは、ABS で使用される統計手法の新たな発展についての分析と議論を紹介します。
このシリーズは、オーストラリアのコミュニティに情報を提供し、議論を刺激し、重要な技術的問題についてのフィードバックを求めることを目的としています。
詳細については、次のメディアリリースをご覧ください。