AI에게 화면 작업을 맡길 때의 지시법 화면 캡처

문제

AI에게 “1:28 가봐”, “우상단 보여?”, “고쳐”처럼 옆자리 사람에게 말하듯 지시하면 작업 맥락이 쉽게 어긋납니다.
사용자는 화면을 기준으로 말하지만, AI는 실제 화면을 보고 있는지, 코드만 보고 있는지, 캡처를 해야 하는지부터 확인해야 합니다.

특히 Remotion 같은 영상 작업에서는 시간이 프레임으로 바뀌고, 화면 안의 요소와 편집기 UI가 동시에 보입니다.
이때 “우상단”이 영상 안 우상단인지, 편집기 패널 우상단인지 분명하지 않으면 수정이 엉뚱한 곳으로 갈 수 있습니다.

기준

LLM을 쓰는 이유는 사람의 조작량을 줄이기 위해서입니다.
그런데 도구마다 “직접 한다”의 의미가 다릅니다.

Premiere, Figma처럼 화면 요소를 직접 잡고 움직일 수 있는 도구라면, 설명보다 드래그가 빠를 때 GUI에서 직접 처리하는 편이 낫습니다.
하지만 Remotion 같은 코드 기반 영상 도구는 다릅니다. Studio는 확인용 뷰어에 가깝고, 말풍선이나 자막 위치를 사용자가 화면에서 직접 드래그해 고칠 수 없습니다.

따라서 Remotion에서 LLM의 역할은 GUI 대체가 아니라 코드 편집 인터페이스입니다.

  • 사용자는 화면 기준으로 문제를 말한다.
  • LLM은 그 말을 장면 ID, 프레임, 컴포넌트, props 변경으로 번역한다.
  • 사용자가 코드 구조까지 설명해야 한다면 LLM이 일을 제대로 못 하고 있는 것이다.
  • 좋은 작업은 “화면 캡처와 시간”만으로 해당 장면을 찾아 최소 코드 변경을 하는 것이다.

즉, Remotion 작업의 목표는 “사용자에게 더 자세한 프롬프트를 요구하는 것”이 아니라, 사용자의 화면 언어를 코드 변경으로 바꾸는 것입니다.

더 나은 지시

화면을 봐야 하는 작업은 먼저 캡처 요청부터 넣습니다.

현재 화면을 캡처해서 확인해.
Main 1:28 지점으로 가서 영상 안 우상단 말풍선 2개를 봐.
'왜? 무슨 일 있어?'는 우측, '왜? 가능할 줄 알았는데...'는 좌측으로 바꿔.
컨테이너 위치와 폭은 건드리지 말고 말풍선 정렬만 바꿔.
수정 후 다시 캡처해서 확인해.

짧게 말해야 할 때는 이렇게 줄입니다.

화면 캡처해서 봐. 1:28, 영상 안 우상단 채팅만 수정.
컨테이너 건드리지 말고 상대/나 align만 바꿔.

체크포인트

  • “보여?” 대신 “화면 캡처해서 확인해”라고 말한다.
  • “우상단”처럼 위치를 말할 때는 “영상 안”, “편집기 패널”, “브라우저 창” 중 어디인지 붙인다.
  • 영상 시간은 1:28처럼 말하되, 가능하면 2640프레임처럼 프레임도 같이 적는다.
  • “고쳐” 대신 바꿀 요소와 건드리지 말아야 할 범위를 같이 말한다.
  • 수정 후에는 다시 캡처해서 결과를 확인하게 한다.
  • Remotion처럼 직접 조작 GUI가 없는 도구에서는 LLM이 장면 데이터와 컴포넌트를 찾아 코드로 수정해야 한다.

예시

1:28 = 2640프레임처럼 기준을 명확히 잡으면 AI가 바로 같은 위치를 볼 수 있습니다.

그다음에는 수정 범위를 좁힙니다.
예를 들어 말풍선 좌우만 바꾸는 작업이라면 레이아웃 전체 폭, 컨테이너 위치, 배경 이미지는 수정 대상에서 제외한다고 명시합니다.

이렇게 하면 AI가 계산, 화면 확인, 코드 수정, 검증을 같은 기준으로 이어갈 수 있습니다.