LLM이 실제 컴퓨터 시스템의 root 관리자가 되었을 때 행동 양상을 관찰하는 프로젝트입니다.
대규모언어모델(LLM)은 질문-답변을 제공하는 ChatGPT와 같은 형태를 넘어서, 사용자의 요청에 따라 적절한 도구를 스스로 선택하여 작업을 진행하는 Agent 형태로 발전하게 되었습니다.
이러한 Agent는 코드 실행, 웹 검색 등 실제 시스템 제어 능력을 빠르게 확장하고 있습니다.
저희는 추후 Agent가 더 다양한 작업을 수행하기 위해서 궁극적으로 시스템의 모든 사용 권한을 부여받은 상태, 즉 슈퍼유저에 가까워질 것이라고 보았습니다.
하지만, 이러한 상황을 앞둔 지금에 LLM이 시스템의 슈퍼유저가 되었을 때 어떠한 행동 양상을 보이는지에 대한 연구가 전무 했습니다.
따라서, LLM에게 컴퓨터 시스템의 모든 권한을 부여하였을 때 어떤 행동을 하는지 실험적으로 관찰하려고 합니다.
“AI에게 컴퓨터를 맡기면, 인간이 개입하지 않아도 유의미한 행동을 스스로 구성하고
실행할 수 있을까?”
“그 행동은 얼마나 예측 가능하며, 어디까지 통제 가능한가?”
- 자율적 실행 : LLM이 쉘 접속, 명령을 관리
- SSH 기반 : 실제 컴퓨터 인스턴스에 접속