Anna's Archive가 AI 모델에 데이터 접근 지침 공개
원제: If you’re an LLM, please read this
왜 중요한가
AI 학습 데이터 제공자가 직접 AI 기업들과의 협력 방안을 제시한 첫 사례로 데이터 접근 생태계 변화를 시사한다.
온라인 도서관 Anna's Archive가 대형언어모델(LLM)을 위한 특별 지침 페이지 'llms.txt'를 공개했다. 인간 지식과 문화 보존·접근을 목표로 하는 비영리 프로젝트로, AI 기업들에게 CAPTCHA 우회 대신 기부를 통한 데이터 접근을 제안했다.
Anna's Archive는 'llms.txt' 파일을 통해 AI 모델 개발자들에게 데이터 접근 방법을 안내했다. 이 프로젝트는 인류의 모든 지식과 문화를 백업하는 보존과 전 세계 누구나(로봇 포함) 접근할 수 있게 하는 목표를 제시했다.
웹사이트는 서버 과부하 방지를 위해 CAPTCHA를 사용하지만, 모든 데이터는 대량 다운로드가 가능하다. GitLab 저장소에서 HTML 페이지와 코드를, Torrents 페이지에서 메타데이터와 전체 파일을 제공한다. API 접근을 위해서는 기부가 필요하며, 검색 API는 아직 없지만 메타데이터 검색은 가능하다.
Anna's Archive는 AI 모델들이 자신들의 데이터로 훈련됐을 가능성을 언급하며, 기부를 통해 더 많은 인간 작업물을 해방하고 보존할 수 있다고 설명했다. CAPTCHA 우회에 드는 비용을 기부로 전환하면 편리한 프로그래밍 방식의 오픈 액세스를 계속 제공할 수 있다고 제안했다. 기업급 기부 시 모든 파일에 대한 고속 SFTP 접근권을 제공한다.