Open Source Initiative (OSI)が世界のオープンソースコミュニティによる共同設計プロセスを経て作成した「オープンソースAIの定義」(Open Source AI Definition)最新版の日本語参考訳を下記に掲載します。機械学習システムを評価するためのチェックリストと定義のFAQは別ページにあります。その他の情報は下記のGitHubプロジェクト等でも提供されています。
- オープンソースAIの定義 日本語訳プロジェクト (過去のドラフト版の日本語訳有り)
- 佐渡秀治によるオープンソースAIの定義の策定経緯や条文の概説(ドラフト版)、1.0版解説スライドも併せてご利用ください。
オープンソースAIの定義
バージョン 1.0
前文
オープンソースの人工知能(AI)が必要な理由
オープンソースは、ソフトウェア・システムの学習、使用、共有、改善の障壁を取り除くことで、誰もが多大な恩恵を得られることを実証してきました。これらの恩恵は、オープンソースの定義に準拠したライセンスを使用した結果として得られたものです。AIにおいても、AIの開発者、導入者、およびエンドユーザーが同様の利益、すなわち自律性、透明性、軋轢が生じない再利用、共同での改善を享受できるようにするためには、社会は少なくともオープンソースと同様の基本的な自由を必要としています。
オープンソースAIとは何か
「システム」という場合、完全に機能する構造とその個別の構造要素の両方を広く指しています。オープンソースと見なされるためには、システム、モデル、ウェイト及びパラメータ、またはその他の構造要素のいずれに適用される場合でも要件は同じです。
オープンソースAIとは、以下のような自由[1]を認める条件と方法で提供されるAIシステムです:
- 使用:どのような目的であれ、許可を得ることなくシステムを使用すること。
- 研究:システムがどのように動作するかを研究し、そのコンポーネントを検査すること。
- 改変:出力を変更することを含め、どのような目的であれシステムを改変すること。
- 共有:どのような目的であれ、改変の有無に関わらず、他者が使用できるようにシステムを共有すること。
これらの自由は、完全に機能するシステムとシステムの個別の要素の両方に適用されます。これらの自由を行使するための前提条件は、システムに改変を加えるための推奨される形式にアクセスできることです。
機械学習システムに改変を加えるための推奨される形式
機械学習システムに変更を加える際の推奨される形式には、以下のすべての要素を含める必要があります:
- データ情報:熟練者が実質的に同等のシステムを構築できる程度に、システムのトレーニングに使用したデータに関する十分に詳細な情報。データ情報は、OSIが承認した条件の下で利用可能であることとします。
- 特に、これには以下を含める必要があります:(1)トレーニングに使用された全てのデータ(共有不可のデータを使用している場合はそれらも含む)の完全な説明、データの出所と範囲および特性、データの取得方法と選択方法、ラベリングの手順、そしてデータ処理およびフィルタリングの方法の開示。(2)公開されている全てのトレーニングデータとその入手先の一覧。(3)第三者から入手可能な全てのトレーニングデータとその入手先(有料の場合を含む)の一覧。
- コード:システムのトレーニングと実行に使用される完全なソースコード。コードは、データの処理方法とフィルタリング方法、およびトレーニングの実行方法の完全な仕様を表すものとします。コードは、OSIが承認したライセンスの下で利用可能であることとします。
- 例えば、使用される場合、これにはデータの処理とフィルタリングに使用されるコード、使用される引数と設定を含むトレーニングと検証およびテストに使用されるコード、トークナイザーやハイパーパラメーター検索コード等のサポートライブラリ、推論コード、およびモデルアーキテクチャが含まれなければなりません。
- パラメータ:重みやその他の構成設定などのモデルパラメータ。パラメータは、OSIが承認した条件の下で利用可能であることとします。
- 例えば、トレーニングの主要な中間段階のチェックポイントや、最終的なオプティマイザーの状態が含まれる場合があります。
これらの要素およびそれらの任意の組み合わせに適用されるライセンスまたはその他の条件には、修正版をオリジナルと同じ条件で公開することを求める条件が含まれている場合があります。
オープンソース・モデルとオープンソース・ウェイト
機械学習システムの場合、
- AIモデルは、モデル・アーキテクチャ、モデル・パラメータ(ウェイトを含む)、及びモデルを実行するための推論コードで構成されます。
- AIウェイトは、与えられた入力から出力を生成するためにモデル・アーキテクチャへ重ね合わされる学習済みのパラメータのセットです。
機械学習システムに改変を加えるための推奨される形式は、これらの個々のコンポーネントにも適用されます。「オープンソース・モデル」及び「オープンソース・ウェイト」には、これらのパラメータを導出するために使用されたデータ情報及びコードが含まれている必要があります。
オープンソースAIの定義では、モデル・パラメータが全ての人に自由に利用可能であることを保証するための特定の法的メカニズムを要求していません。それらは本質的に自由である場合もあれば、それらの自由を保証するためにライセンスやその他の法的手段が必要な場合もあります。法制度がオープンソースAIシステムに対応する機会が増えれば、この点は時間の経過とともに明確になるものと期待しています。
定義
- AIシステム[2]:AIシステムとは、明示的または暗黙的な目的のために、受け取った入力から物理的または仮想的な環境に影響を与えることができる予測、コンテンツ、推奨、または決定などの出力を生成する方法を推論する機械ベースのシステムです。AIシステムによって、自律性や導入後の適応性のレベルは異なります。
- 機械学習[3]:機械学習とは、機械の性能を向上させ、通常は人間からの明示的な指示ではなく、パターンや規則性を識別するのに役立つトレーニングデータへの露出を通じて自動的にモデルを生成することを可能にする一連の技術です。機械学習技術を使用してシステムの性能を向上させるプロセスは、「トレーニング」と呼ばれます。
これらの自由は、フリーソフトウェアの定義から派生したものです。 ↩︎
Recommendation of the Council on Artificial Intelligence(人工知能に関する理事会の勧告) OECD/LEGAL/0449, Organization for Economic and Co-operation Development (OECD:経済協力開発機構), 2024 ↩︎
Explanatory memorandum on the updated OECD definition of an AI system(OECDのAIシステムの定義の更新に関する説明覚書), OECD Artificial Intelligence Papers, No. 8, OECD Publishing, Paris ↩︎
