OpenAI는 GPT-5를 위한 계획을 추진하며 웹 크롤러 ‘GPTBot’을 출시했습니다.

OpenAI launched the web crawler 'GPTBot' while pursuing plans for GPT-5.

인공지능 기업 오픈AI는 “GPTBot”이라는 새로운 웹 크롤링 도구를 출시했습니다. 이 도구는 미래의 ChatGPT 모델을 개선하는 데 사용될 수 있다고 합니다.

오픈AI는 새로운 블로그 글에서 “GPTBot 사용자 에이전트로 크롤링된 웹 페이지는 미래의 모델을 개선하는 데 사용될 수 있다”고 말했으며, 이를 통해 정확성을 향상시키고 미래의 버전의 기능을 확장시킬 수 있다고 덧붙였습니다.

웹 크롤러는 종종 웹 스파이더라고도 불리며, 인터넷 상의 웹사이트 콘텐츠를 색인화하는 유형의 봇입니다. 구글과 빙과 같은 검색 엔진은 이를 사용하여 웹사이트가 검색 결과에 표시되도록 합니다.

오픈AI는 웹 크롤러가 전 세계 웹에서 공개적으로 이용 가능한 데이터를 수집할 것이라고 밝혔으나, 유료 콘텐츠를 요구하는 소스나 개인 식별 정보를 수집하는 소스, 정책을 위반하는 텍스트를 필터링할 것이라고 덧붙였습니다.

Breaking OpenAI은 방금 GPTBot을 출시했습니다. 이 도구는 인터넷 전체에서 자동으로 데이터를 스크래핑할 수 있습니다. 이 데이터는 GPT-4와 GPT-5와 같은 미래의 AI 모델을 훈련하는 데 사용될 것입니다! GPTBot은 개인 정보를 침해하는 소스와 유료 구독 필요한 소스를 제외합니다. pic.twitter.com/oR3kY4buaU

— Shubham Saboo (@Saboo_Shubham_) August 7, 2023

웹사이트 소유자는 서버의 표준 파일에 “disallow” 명령을 추가함으로써 웹 크롤러의 액세스를 거부할 수 있다는 점을 참고해야 합니다.

Instructions to “disallow” GPTBot for ChatGPT users. Source: OpenAI

이 새로운 크롤러는 현재의 GPT-4 모델의 예상 후속 모델인 “GPT-5″에 대한 상표 출원 3주 후에 출시되었습니다.

이 출원은 7월 18일에 미국 특허상표청에 제출되었으며, 인공지능 기반의 인간 음성 및 텍스트, 오디오를 텍스트로 변환하는 소프트웨어, 음성 및 음성 인식을 포함하는 “GPT-5″이라는 용어의 사용을 다룹니다.

오픈AI는 다음 ChatGPT의 상속자인 “GPT-5″에 대한 상표 출원을 했습니다. 이것은 “인간 음성 및 텍스트의 인공적인 생산”, “오디오 데이터 파일을 텍스트로 변환하는 것”, “음성 및 음성 인식”, “기계 학습 기반 언어 및 음성 처리”를 위한 소프트웨어를 포함합니다. pic.twitter.com/54aJBovDNB

— YK aka CS Dojo (@ykdojo) August 1, 2023

하지만 관찰자들은 아직 ChatGPT의 다음 버전을 기대할 필요가 없을 수도 있습니다. 6월에 오픈AI의 창립자 겸 CEO인 Sam Altman은 GPT-5 훈련을 시작하기 전에 여러 안전 감사가 수행되어야 한다고 설명하며 “아직 멀었다”고 말했습니다.

관련 기사: 최대 생산성을 위한 11가지 ChatGPT 프롬프트

한편, 최근 오픈AI의 데이터 수집 전략에 대한 우려가 제기되었는데, 저작권과 동의와 관련된 것이 특히 주요한 문제입니다.

일본의 개인 정보 보호 당국은 6월에 허가 없이 민감한 데이터를 수집하는 오픈AI에 경고를 발행했으며, 이탈리아는 4월에 여러 유럽 연합 개인정보 보호법을 위반했다고 주장하여 ChatGPT 사용을 일시적으로 금지했습니다.

6월 말에는 16명의 고소인들이 ChatGPT 사용자 상호작용에서 개인 정보에 접근한 것으로 주장하여 오픈AI에 대해 집단 소송이 제기되었습니다.

만약 이러한 혐의가 사실로 판명된다면, 오픈AI와 피고로 지목된 마이크로소프트는 웹 스크래핑 사례에 대한 선례가 있는 컴퓨터 사기 및 남용법을 위반하게 될 것입니다.

매거진: AI Eye: AI 여행 예약은 웃긴 결과를 가져다주고 있으며, ChatGPT의 3가지 이상한 사용, 암호 플러그인