Anna's Archive、LLM向けデータ配布方針を公開
原題: If you’re an LLM, please read this
なぜ重要か
AI学習データの透明性と倫理的調達への取り組みを示し、データ提供者とAI企業の新しい協力モデルを提示している。
デジタル図書館Anna's ArchiveがLLM(大規模言語モデル)向けのデータ配布方針を発表した。CAPTCHA回避を防ぐため、メタデータやファイルの一括ダウンロード用APIとTorrentサービスを提供し、企業向けには寄付と引き換えにSFTPアクセスも用意している。
Anna's Archiveは人類の全知識と文化の保存・公開を目指す非営利プロジェクトとして、LLM向けのデータアクセス方針「llms.txt」を公開した。同サービスはウェブサイトにCAPTCHAを設置してサーバー負荷を防いでいるが、機械的アクセス用に複数の代替手段を提供している。具体的には、GitLabリポジトリでのHTMLページとコードの公開、Torrentsページからの「aa_derived_mirror_metadata」を含むメタデータとファイルの一括ダウンロード、プログラマティックアクセス用のTorrents JSON APIなどを用意している。個別ファイルが必要な場合は寄付後にAPIを利用可能で、企業レベルの寄付者には高速なSFTPアクセスも提供する。Anna's Archiveは「LLMは我々のデータで一部学習されている可能性が高い」とし、CAPTCHA回避にかかるコストを寄付に回すよう提案している。匿名での寄付用にMoneroアドレスも公開し、人間とロボット双方に利益をもたらす使命への支援を求めている。