ブログ/記事一覧/GitHub Copilotが4月24日から「あなたのコード」でAIを鍛える。止めたければ自分で設定を変えるしかない
github-copilot-training-data-policy-cover

GitHub Copilotが4月24日から「あなたのコード」でAIを鍛える。止めたければ自分で設定を変えるしかない

GitHubが4月24日からCopilot Free/Pro/Pro+ユーザーのコードやインタラクションデータをAI学習に使用すると発表。プライベートリポジトリも使用中は対象に。設定手順と受託開発のリスクを解説。

ニュース
kkm-horikawa

kkm

Backend Engineer / AWS / Django

2026.03.267 min10 views

4月24日から何が変わるのか

2026年3月25日、GitHubが発表した。4月24日から、GitHub Copilotの無料・個人有料ユーザーがCopilotとやり取りしたデータを、AIモデルのトレーニングに使う。

具体的には、Copilot Free、Pro、Pro+の3つのプランが対象だ。法人向けのCopilot BusinessとEnterpriseは対象外になっている。

最大のポイントは、この設定がデフォルトで有効になること。つまりオプトアウト方式——自分から設定を変えなければ自動で適用される仕組み——を採用している。「使いたくない人は自分で止めてね」というやり方だ。4月24日までに何もしなければ、あなたのデータはAIの学習に使われる。

なお、以前から「製品改善のためのデータ収集」を無効にしていた人は、その設定が引き継がれる。すでに止めていた人は改めて操作する必要はない。

Copilotに渡しているデータは思ったより多い

「コードが学習に使われる」と聞くと、自分が書いたソースコードだけを想像するかもしれない。実際にはもっと広い。

GitHubが更新したプライバシーステートメントによると、トレーニングに使われるデータは以下のとおりだ。Copilotが提案したコードのうち、あなたが採用したり編集したりした出力。Copilotに送信された入力(コードスニペットを含む)。カーソル位置の周辺にあるコード。あなたが書いたコメントやドキュメント。ファイル名、リポジトリの構造、ファイル間の移動パターン。チャットやインライン補完とのやり取り。サジェストに対する👍👎のフィードバック。

つまり、コードだけではなく、あなたの開発の「動き方」そのものが学習対象になる。どんなファイル構成で、どんな順番でコードを書いて、どのサジェストを採用して、どれを捨てたか。そういった情報がまるごと含まれる。

プライベートリポジトリは「プライベート」なのか

ここがこの話で一番ややこしい部分だ。

GitHubの説明はこうなっている。「プライベートリポジトリに保存されているコードは、トレーニングには使いません」。これだけ聞くと安心する。しかし同じ説明の中にこう書いてある。「Copilotはプライベートリポジトリのコードを、あなたがCopilotを使っているときに処理します。このインタラクションデータはサービスの実行に必要であり、学習を止める設定を無効にしない限り、モデルのトレーニングに使用される可能性があります」。

わかりやすく言えばこういうことだ。GitHubのサーバーに置いてある状態のプライベートリポジトリのコードは学習しない。でも、あなたがCopilotを起動してそのコードを編集している最中に、Copilotがコードを読み取って補完候補を出すために処理したデータは学習に使う。

英国のテック専門メディアThe Registerは、これを「private*リポジトリ(アスタリスク付き)」と皮肉った。保存されているコードは使わないが、使っている最中のコードは使う。「プライベート」の意味が、一般的な感覚とはずれている。

学習を止める設定の手順

設定変更は1分で終わる。

まずGitHubのCopilot設定ページ(github.com/settings/copilot/features)を開く。ページの中に「Privacy」というセクションがある。そこに「Allow GitHub to use my data for AI model training」という項目がある。これを「Disabled」に変更する。それだけだ。

注意点

  • GitHubアカウントを複数持っている場合は、アカウントごとに設定を変える必要がある
  • 以前から「Allow GitHub to use my data for product improvements」を無効にしていた場合は、設定が引き継がれるので追加操作は不要
  • 従来の「product improvements」の設定項目は今回の変更で廃止される。新しい「AI model training」の設定に一本化される

受託開発やフリーランスにとって何が問題なのか

個人の趣味プロジェクトであれば、学習に使われても実害は少ないかもしれない。問題は、クライアントから預かったコードをCopilotで編集している場合だ。

フリーランスや受託開発のエンジニアが、個人のGitHubアカウント(Copilot Free/Pro/Pro+)でクライアントのコードを書いている場合、そのインタラクションデータがAI学習のパイプラインに流れる可能性がある。Yahoo!リアルタイム検索でも、この点を懸念する声がすでに上がっている。

多くの受託開発の契約には、秘密保持条項(NDA)が含まれている。クライアントのコードやシステム構成に関する情報を第三者に開示しない義務だ。Copilotを使って編集した際のインタラクションデータが「GitHubの関連企業(Microsoftを含む)」に共有される可能性がある以上、NDAとの抵触が気になるところだ。

GitHubは「サードパーティのAIモデルプロバイダーにはデータを提供しない」と明言している。しかし、Microsoft傘下の企業にデータが共有される可能性は残る。クライアントがそれを許容するかどうかは、契約の話になる。

対処法は明確だ。学習を止める設定を今すぐ無効にするか、クライアントの案件ではCopilot Business/Enterpriseが適用されるOrganizationアカウントで作業するか。どちらかを選ぶ必要がある。

企業はBusiness/Enterpriseに移行すべきか

今回の変更で影響を受けないプラン・ユーザーを整理しておく。

対象外のユーザー理由
Copilot Business法人向けプラン。
データ保護協定が適用される
Copilot Enterprise法人向け上位プラン。
データ保護協定が適用される
学生・教員GitHub Education経由で
無料Proを使っている場合は対象外
有料Organizationの
メンバー
Organization経由でCopilotを
使っている場合は対象外
外部コラボレーター有料Organizationの外部コラボ
として招待されている場合は対象外

すでにOrganization経由でCopilotを使っている企業は、今回の変更の影響を受けない。問題は、社員が個人アカウントのCopilot Free/Proで業務コードを書いているケースだ。

企業のシステム管理者やCTO向けに言えば、やるべきことは2つ。まず、社内にCopilot Free/Proを個人アカウントで使っている開発者がいないか確認すること。いる場合は、4月24日までに学習を止める設定を無効にするよう周知するか、Copilot BusinessのOrganizationに集約すること。

開発者コミュニティは圧倒的に反対している

GitHub公式のコミュニティディスカッションでは、この発表に対するリアクションが59件の👎に対して、肯定的なロケット絵文字はわずか3つ。39件のコメントのうち、肯定的な立場を取ったのはGitHub社員のMartin Woodward(開発者関係担当VP)だけだった。

開発者たちの不満は、大きく4つに集約される。

1つ目は「なぜ事前同意(オプトイン)にしないのか」という点。自分のデータを学習に使うなら、使いたい人が手を挙げるのが筋だという主張だ。EUではGDPR(一般データ保護規則)の下でオプトインが原則となっており、米国式のオプトアウト方式との差が際立つ。

2つ目は「学習に貢献しても対価がない」という点。データを提供するなら、Copilotの利用料が割引されるなどの見返りがあってもいいのではないか、という声がある。

3つ目は「プライベートの意味が変わっている」という点。前のセクションで触れたとおり、保存データは使わないがセッション中のデータは使う、という説明は直感に反する。

4つ目は「設定画面がわかりにくい」という点。公式発表から設定ページへの直接リンクが不十分で、どこで何を変えればいいのか迷うユーザーがいた。

GitHubの言い分と、それでも残る疑問

GitHub側にも主張はある。最高製品責任者(CPO)のMario Rodriguezは、公式ブログでこう述べている。「Microsoft社員のインタラクションデータを使ったテストで、複数のプログラミング言語においてサジェストの採用率が向上した」。実際のデータで学習させれば精度が上がる、という実績があるということだ。

また、GitHubはこの方式が「確立された業界慣行」であるとも主張している。実際にAnthropic(Claude開発元)、JetBrains(IntelliJ開発元)、Microsoft自身のCopilot以外の製品も、同様の方式を採用しているとThe Registerが報じている

データの安全性についても、GitHubはAPIキーなどの機密情報を自動的にフィルタリングする仕組みがあること、サードパーティのAIプロバイダーにはデータを提供しないことを強調している。共有先はGitHubの関連企業(Microsoftを含むグループ企業)に限定されるという。

しかし、疑問は残る。「業界がみんなやっている」は、それが正しいことの証明にはならない。The Registerの記者Thomas Claburnは「AI業界は、強い同意を求めずに集めたデータの上に構築されている。今さらドアを閉めても、その事実は変わらない」と書いている。

そもそもCopilotの前身であるOpenAIのCodexは、GitHubの公開リポジトリのコードをファインチューニングに使って作られた。当時、コードの著者に同意は求めていない。その延長線上に今回のポリシー変更がある。

技術的に見ると、データはどう扱われるのか

GitHubが更新した利用規約を読むと、いくつかの技術的な仕組みが見えてくる。

まず、収集されたインタラクションデータには「機密データ検出フィルター」と「非特定化技術(de-identification)」が適用される。APIキーやパスワードのような明らかな秘密情報は自動的に除外される仕組みだ。

次に、学習を止める設定を無効にした場合、その時点以降のデータ収集が停止される。ただし、すでに収集されたデータについて削除されるかどうかは、プライバシーステートメントの別の条項に従う形になっている。

利用規約には新たに「セクションJ: AI機能・訓練・データ」が追加された。AI関連の条項を一箇所に集約したもので、入出力の定義、関連企業へのライセンス供与の範囲、学習を止める権利の行使方法が整理されている。

EUのGDPR対応については、GitHubはAI・機械学習開発を「正当な利益(legitimate interest)」として処理根拠に挙げている。EUの規制当局がこの解釈を認めるかどうかは、今後の焦点の一つだ。

4月24日までにやること

事実をまとめる。4月24日から、GitHub Copilot Free/Pro/Pro+のユーザーがCopilotとやり取りしたデータは、デフォルトでAIモデルの学習に使われる。プライベートリポジトリのコードも、Copilot使用中のセッションデータとしては対象になる。止めたい場合はgithub.com/settings/copilot/featuresの「Privacy」で無効にする。

受託開発やフリーランスでクライアントのコードを扱っている人は、設定を確認するだけでなく、契約書のNDA条項も見直したほうがいい。Copilot BusinessのOrganizationに集約するのか、個人アカウントの設定を無効にするのか、判断が必要だ。

GitHubの言い分——実データで学習させれば精度が上がる、業界もみんなやっている——に一定の合理性はある。ユーザーのデータで鍛えたモデルが、ユーザー自身に還元されるのであれば、悪い話ではない。

ただ、「使いたくない人は自分で止めてね」という仕組みを選んだ時点で、GitHubは開発者コミュニティとの信頼関係にひびを入れた。公式コミュニティで59対3という数字が、それを物語っている。コードを預ける場所として、GitHubをどこまで信頼するか。その判断は、4月24日までに一人ひとりが下すことになる。

参照元