지난 2022년 11월 말, OpenAI(오픈AI)는 대화형 인공지능 생성형 챗봇인 ChatGPT를 출시했다. 그리고 많은 사람들이 ChatGPT기반의 서비스를 출시 또는 이용하고 있는데, 이번 글에서는 ChatGPT에 대한 핵심 정보와 내 블로그 & 홈페이지 & 사이트 데이터가 ChatGPT에서 활용되지 않도록 차단하는 방법에 대해 이야기하고자 한다.
1. ChatGPT 서비스 소개
ChatGPT 서비스는 대화형 인공지능 챗봇 서비스로써 LLMs 대화형 인공지능을 기반으로 사용자가 원하는 정보를 다양한 방식으로 답변해 주는 서비스이다. 즉, 이전의 챗봇 서비스들은 질문에 대해 단편적인 답변만 가능했다면, ChatGPT 서비스는 더욱 복잡한 형태로 답변을 생성하여 대화를 이어나간다.
2. GPT-3.5와 GPT-4의 차이
OpenAI는 ChatGPT의 버전을 꾸준히 업그레이드해 왔으며, GPT-1부터 GPT-4까지 공개된 상태이다. 그리고 현재의 경우 GPT-3.5와 GPT-4 버전만 사용할 수 있고, GPT-3.5는 무료로 GPT-4는 유료(월 20달러)로 이용 가능하다.
그렇다면 GPT-3.5와 GPT-4의 주요한 기능차이는 무엇일까?
첫 번째로, 기억 능력에 있어 GPT-3.5는 약 8,000여 개의 단어까지 기억할 수 있었다면, GPT-4는 8배에 해당하는 약 64,000여 개의 단어를 기억할 수 있다. 그래서 GPT-4는 이전의 답변을 기반으로 사용자에게 매끄러운 맞춤형 답변을 제공할 수 있다.
두 번째로, 언어 이해 능력에 있어 GPT-3.5의 영어 이해 능력은 약 70.1%였다면, GPT-4의 영어 이해 능력은 약 85.5%로 약 15% 이상 향상되었다. 또한 한국어를 포함한 다른 언어들에 있어서도 상당 부분 개선되었다.
세 번째로, 이미지를 인식하여 답변하는 능력에 있어 GPT-3.5는 불가했지만, GPT-4는 멀티 모달(multimodal)의 기능이 도입되어 이미지 인식이 가능해졌다. 그래서 GPT-4는 이미지 속 텍스트 및 그래프를 분석하여 요약할 수 있으며, 이미지 속 문제에 대한 답 또한 구할 수 있다. 또한 밈과 관련된 이미지도 이해하여 답변할 수 있고, 손글씨로 작성한 이미지도 인식하여 원하는 데이터로 구현해 준다.
이외에도 다양한 부분에 있어 GPT-4가 GPT-3.5와 비교해 기능 개선이 이루어졌다.
3. ChatGPT의 데이터 활용을 차단하는 방법
이렇게 OpenAI의 ChatGPT는 나날이 발전하고 있는데, 아무래도 GPTBot이 온라인상의 데이터를 수집하여 답변을 구성하다 보니 저작권 문제에서 상당한 이슈가 발생하고 있다. 즉, 내가 창작한 데이터들(글, 이미지, 영상 등)이 자신도 모르게 ChatGPT의 답변에 활용될 수 있다는 것을 의미하며, GPTBot의 정보수집을 원하지 않을 경우 별도의 조치를 취해야 한다.
1) GPTBot의 접근을 완전히 차단하고자 할 경우, robots.txt에 다음의 코드를 넣어주면 된다.
User-agent: GPTBot
Disallow: /
2) GPTBot의 접근을 일부 허용하고자 할 경우, robots.txt에 다음의 코드를 넣어주면 된다.
User-agent: GPTBot
Allow: /directory-1/
Allow: /directory-2/
3) GPTBot의 접근을 일부 비허용하고자 할 경우, robots.txt에 다음의 코드를 넣어주면 된다.
User-agent: GPTBot
Disallow: /directory-1/
Disallow: /directory-2/
4. 함께 읽으면 좋은 글
지금까지, OpenAI에서 출시한 ChatGPT에 대해 간단히 살펴보고, ChatGPT의 데이터 활용을 차단하는 방법에 대해 이야기해 보았다. 앞으로 대화형 인공지능 서비스는 더욱 많은 곳에서 활용될 것으로 생각하며, 우리는 이러한 서비스들을 지혜롭게 이용해 나가야 할 것이다.