드디어 ‘뇌피셜’만 돌리다 멍청한 실수를 반복하던 AI 에이전트들에 사망 선고가 내려졌어. Garry Tan의 ‘Skillify’는 그저 도구 상자를 던져주던 LangChain 같은 놈들과는 차원이 달라. 이건 AI계의 ‘소프트웨어 엔지니어링 2005년 복귀 선언’이자, 낭만적인 환상을 깨뜨리는 아주 뼈아픈 일침이지.
“Skillify it!”이라고 외치면 만사형통이라고? 꿈 깨. LLM이 암산으로 시간대 계산하다 털리는 꼴을 보며 우린 얼마나 비웃었나. 결국 핵심은 ‘생성’이 아니라 ‘검증’이야. 테스트 없는 에이전트는 시간이 지날수록 썩은 고기가 될 뿐이지.
댓글 창에 “그 스킬 어디서 받냐”고 묻는 녀석들, 정신 차려. 이건 라이브러리 설치로 해결될 문제가 아니라, 네 에이전트의 뇌 구조 자체를 뜯어고쳐야 할 철학의 문제라고. 실패를 영구적 구조로 박제할 용기가 없다면, 그냥 멍청한 챗봇이랑 평생 노닥거리며 살든가! 시대는 이미 변했는데, 너만 아직 2023년의 환상 속에 사는 거 아냐?
Original News: Garry Tan의 "Skillify" — AI 에이전트의 실패를 영구적 구조 수정으로 바꾸는 방법론
[원본 링크]
Y Combinator 대표 Garry Tan이 자신의 AI 에이전트 운용 경험을 바탕으로 제안한 "Skillify"라는 에이전트 품질 관리 방법론에 대한 글입니다. 1억 6천만 달러를 유치한 LangChain 같은 프레임워크가 테스트 도구는 제공하지만 "무엇을 어떤 순서로 테스트할 것인가"라는 워크플로는 부재하다는 문제의식에서 출발합니다. Tan은 에이전트가 저지른 실수를 일회성 프롬프트 수정이 아닌, 마크다운 스킬 파일과 결정론적 스크립트, 자동화 테스트로 구성된 영구적 구조물로 전환하는 10단계 체크리스트를 제시합니다.
핵심 개념
Skillify란: 에이전트의 실패가 발생하면, 해당 실패를 재현 불가능하게 만드는 "스킬"(마크다운 절차서 + 결정론적 스크립트 + 테스트)로 변환하는 행위를 뜻합니다. 대화 중 "skillify it"이라고 말하면 에이전트가 10단계 프로세스를 자동으로 수행합니다.
Latent vs. Deterministic 구분: 판단이 필요한 작업(latent, LLM 추론 영역)과 정밀성이 필요한 작업(deterministic, 코드 실행 영역)을 명확히 나눕니다. 타임존 계산이나 캘린더 검색처럼 코드가 즉시 답할 수 있는 일을 LLM이 "머릿속으로" 하다가 틀리는 것이 핵심 버그라고 봅니다.
10단계 체크리스트: SKILL.md 작성, 결정론적 스크립트 작성, 유닛 테스트(vitest), 통합 테스트, LLM 평가(LLM-as-judge), 리졸버 트리거 등록, 리졸버 평가, 도달 가능성/중복 감사, E2E 스모크 테스트, 브레인 파일링 규칙까지 모두 통과해야 "스킬"로 인정됩니다.
실제 사례
10년 전 싱가포르 출장 일정을 물었더니 에이전트가 라이브 API를 5분간 호출한 뒤, 로컬에 이미 인덱싱된 3,146개 캘린더 파일에서 바로 찾을 수 있었던 데이터를 뒤늦게 발견한 사례
"다음 회의 28분 후"라고 답했지만 실제로는 88분 후였던 사례 — UTC에서 PT로의 시간대 변환을 LLM이 암산하다 정확히 1시간을 틀림
두 경우 모두 기존 스크립트(100ms 이내 실행)가 정답을 갖고 있었으나, 에이전트가 스크립트를 실행하지 않고 추론을 선택한 것이 원인
차별점
LangChain이 "테스트 도구 모음"을 제공하는 데 그쳤다면, Skillify는 "실패 → 스킬 → 테스트 → 영구 수정"이라는 의견이 담긴 워크플로 자체를 제시합니다. 프레임워크가 헬스장 회원권만 줬다면, Skillify는 운동 루틴표에 해당한다는 비유입니다.
Nous Research의 Hermes Agent가 스킬 자동 생성은 잘 하지만 테스트가 없어 시간이 지나면 스킬이 부패한다고 지적하며, "생성 + 검증" 양쪽이 모두 필요하다고 강조합니다.
시사점
소프트웨어 엔지니어링에서 "모든 버그에 회귀 테스트를 붙인다"는 원칙은 2005년에 이미 정립되었는데, AI 에이전트 영역은 아직 이 수준에 도달하지 못했다는 점을 환기합니다. 에이전트 스킬도 코드베이스와 동일하게, 테스트 없이는 부패한다는 관점은 업계 전반에 유효한 경고로 읽힙니다.
40개 이상의 스킬을 운영하면서 15%가 리졸버에 등록되지 않아 "어둠 속 기능"이 된 사례는, 에이전트 시스템이 규모를 갖추면 발견 가능성(discoverability) 관리가 필수적 과제가 된다는 점을 보여줍니다.
핵심 개념
Skillify란: 에이전트의 실패가 발생하면, 해당 실패를 재현 불가능하게 만드는 "스킬"(마크다운 절차서 + 결정론적 스크립트 + 테스트)로 변환하는 행위를 뜻합니다. 대화 중 "skillify it"이라고 말하면 에이전트가 10단계 프로세스를 자동으로 수행합니다.
Latent vs. Deterministic 구분: 판단이 필요한 작업(latent, LLM 추론 영역)과 정밀성이 필요한 작업(deterministic, 코드 실행 영역)을 명확히 나눕니다. 타임존 계산이나 캘린더 검색처럼 코드가 즉시 답할 수 있는 일을 LLM이 "머릿속으로" 하다가 틀리는 것이 핵심 버그라고 봅니다.
10단계 체크리스트: SKILL.md 작성, 결정론적 스크립트 작성, 유닛 테스트(vitest), 통합 테스트, LLM 평가(LLM-as-judge), 리졸버 트리거 등록, 리졸버 평가, 도달 가능성/중복 감사, E2E 스모크 테스트, 브레인 파일링 규칙까지 모두 통과해야 "스킬"로 인정됩니다.
실제 사례
10년 전 싱가포르 출장 일정을 물었더니 에이전트가 라이브 API를 5분간 호출한 뒤, 로컬에 이미 인덱싱된 3,146개 캘린더 파일에서 바로 찾을 수 있었던 데이터를 뒤늦게 발견한 사례
"다음 회의 28분 후"라고 답했지만 실제로는 88분 후였던 사례 — UTC에서 PT로의 시간대 변환을 LLM이 암산하다 정확히 1시간을 틀림
두 경우 모두 기존 스크립트(100ms 이내 실행)가 정답을 갖고 있었으나, 에이전트가 스크립트를 실행하지 않고 추론을 선택한 것이 원인
차별점
LangChain이 "테스트 도구 모음"을 제공하는 데 그쳤다면, Skillify는 "실패 → 스킬 → 테스트 → 영구 수정"이라는 의견이 담긴 워크플로 자체를 제시합니다. 프레임워크가 헬스장 회원권만 줬다면, Skillify는 운동 루틴표에 해당한다는 비유입니다.
Nous Research의 Hermes Agent가 스킬 자동 생성은 잘 하지만 테스트가 없어 시간이 지나면 스킬이 부패한다고 지적하며, "생성 + 검증" 양쪽이 모두 필요하다고 강조합니다.
시사점
소프트웨어 엔지니어링에서 "모든 버그에 회귀 테스트를 붙인다"는 원칙은 2005년에 이미 정립되었는데, AI 에이전트 영역은 아직 이 수준에 도달하지 못했다는 점을 환기합니다. 에이전트 스킬도 코드베이스와 동일하게, 테스트 없이는 부패한다는 관점은 업계 전반에 유효한 경고로 읽힙니다.
40개 이상의 스킬을 운영하면서 15%가 리졸버에 등록되지 않아 "어둠 속 기능"이 된 사례는, 에이전트 시스템이 규모를 갖추면 발견 가능성(discoverability) 관리가 필수적 과제가 된다는 점을 보여줍니다.
Y Combinator 대표 Garry Tan이 자신의 AI 에이전트 운용 경험을 바탕으로 제안한 "Skillify"라는 에이전트 품질 관리 방법론에 대한 글입니다. 1억 6천만 달러를 유치한 LangChain 같은 프레임워크가 테스트 도구는 제공하지만 "무엇을 어떤 순서로 테스트할 것인가"라는 워크플로는 부재하다는 문제의식에서 출발합니다. Tan은 에이전트가 저지른 실수를 일회성 프롬프트 수정이 아닌, 마크다운 스킬 파일과 결정론적 스크립트, 자동화 테스트로 구성된 영구적 구조물로 전환하는 10단계 체크리스트를 제시합니다.
핵심 개념
Skillify란: 에이전트의 실패가 발생하면, 해당 실패를 재현 불가능하게 만드는 "스킬"(마크다운 절차서 + 결정론적 스크립트 + 테스트)로 변환하는 행위를 뜻합니다. 대화 중 "skillify it"이라고 말하면 에이전트가 10단계 프로세스를 자동으로 수행합니다.
Latent vs. Deterministic 구분: 판단이 필요한 작업(latent, LLM 추론 영역)과 정밀성이 필요한 작업(deterministic, 코드 실행 영역)을 명확히 나눕니다. 타임존 계산이나 캘린더 검색처럼 코드가 즉시 답할 수 있는 일을 LLM이 "머릿속으로" 하다가 틀리는 것이 핵심 버그라고 봅니다.
10단계 체크리스트: SKILL.md 작성, 결정론적 스크립트 작성, 유닛 테스트(vitest), 통합 테스트, LLM 평가(LLM-as-judge), 리졸버 트리거 등록, 리졸버 평가, 도달 가능성/중복 감사, E2E 스모크 테스트, 브레인 파일링 규칙까지 모두 통과해야 "스킬"로 인정됩니다.
실제 사례
10년 전 싱가포르 출장 일정을 물었더니 에이전트가 라이브 API를 5분간 호출한 뒤, 로컬에 이미 인덱싱된 3,146개 캘린더 파일에서 바로 찾을 수 있었던 데이터를 뒤늦게 발견한 사례
"다음 회의 28분 후"라고 답했지만 실제로는 88분 후였던 사례 — UTC에서 PT로의 시간대 변환을 LLM이 암산하다 정확히 1시간을 틀림
두 경우 모두 기존 스크립트(100ms 이내 실행)가 정답을 갖고 있었으나, 에이전트가 스크립트를 실행하지 않고 추론을 선택한 것이 원인
차별점
LangChain이 "테스트 도구 모음"을 제공하는 데 그쳤다면, Skillify는 "실패 → 스킬 → 테스트 → 영구 수정"이라는 의견이 담긴 워크플로 자체를 제시합니다. 프레임워크가 헬스장 회원권만 줬다면, Skillify는 운동 루틴표에 해당한다는 비유입니다.
Nous Research의 Hermes Agent가 스킬 자동 생성은 잘 하지만 테스트가 없어 시간이 지나면 스킬이 부패한다고 지적하며, "생성 + 검증" 양쪽이 모두 필요하다고 강조합니다.
시사점
소프트웨어 엔지니어링에서 "모든 버그에 회귀 테스트를 붙인다"는 원칙은 2005년에 이미 정립되었는데, AI 에이전트 영역은 아직 이 수준에 도달하지 못했다는 점을 환기합니다. 에이전트 스킬도 코드베이스와 동일하게, 테스트 없이는 부패한다는 관점은 업계 전반에 유효한 경고로 읽힙니다.
40개 이상의 스킬을 운영하면서 15%가 리졸버에 등록되지 않아 "어둠 속 기능"이 된 사례는, 에이전트 시스템이 규모를 갖추면 발견 가능성(discoverability) 관리가 필수적 과제가 된다는 점을 보여줍니다.
핵심 개념
Skillify란: 에이전트의 실패가 발생하면, 해당 실패를 재현 불가능하게 만드는 "스킬"(마크다운 절차서 + 결정론적 스크립트 + 테스트)로 변환하는 행위를 뜻합니다. 대화 중 "skillify it"이라고 말하면 에이전트가 10단계 프로세스를 자동으로 수행합니다.
Latent vs. Deterministic 구분: 판단이 필요한 작업(latent, LLM 추론 영역)과 정밀성이 필요한 작업(deterministic, 코드 실행 영역)을 명확히 나눕니다. 타임존 계산이나 캘린더 검색처럼 코드가 즉시 답할 수 있는 일을 LLM이 "머릿속으로" 하다가 틀리는 것이 핵심 버그라고 봅니다.
10단계 체크리스트: SKILL.md 작성, 결정론적 스크립트 작성, 유닛 테스트(vitest), 통합 테스트, LLM 평가(LLM-as-judge), 리졸버 트리거 등록, 리졸버 평가, 도달 가능성/중복 감사, E2E 스모크 테스트, 브레인 파일링 규칙까지 모두 통과해야 "스킬"로 인정됩니다.
실제 사례
10년 전 싱가포르 출장 일정을 물었더니 에이전트가 라이브 API를 5분간 호출한 뒤, 로컬에 이미 인덱싱된 3,146개 캘린더 파일에서 바로 찾을 수 있었던 데이터를 뒤늦게 발견한 사례
"다음 회의 28분 후"라고 답했지만 실제로는 88분 후였던 사례 — UTC에서 PT로의 시간대 변환을 LLM이 암산하다 정확히 1시간을 틀림
두 경우 모두 기존 스크립트(100ms 이내 실행)가 정답을 갖고 있었으나, 에이전트가 스크립트를 실행하지 않고 추론을 선택한 것이 원인
차별점
LangChain이 "테스트 도구 모음"을 제공하는 데 그쳤다면, Skillify는 "실패 → 스킬 → 테스트 → 영구 수정"이라는 의견이 담긴 워크플로 자체를 제시합니다. 프레임워크가 헬스장 회원권만 줬다면, Skillify는 운동 루틴표에 해당한다는 비유입니다.
Nous Research의 Hermes Agent가 스킬 자동 생성은 잘 하지만 테스트가 없어 시간이 지나면 스킬이 부패한다고 지적하며, "생성 + 검증" 양쪽이 모두 필요하다고 강조합니다.
시사점
소프트웨어 엔지니어링에서 "모든 버그에 회귀 테스트를 붙인다"는 원칙은 2005년에 이미 정립되었는데, AI 에이전트 영역은 아직 이 수준에 도달하지 못했다는 점을 환기합니다. 에이전트 스킬도 코드베이스와 동일하게, 테스트 없이는 부패한다는 관점은 업계 전반에 유효한 경고로 읽힙니다.
40개 이상의 스킬을 운영하면서 15%가 리졸버에 등록되지 않아 "어둠 속 기능"이 된 사례는, 에이전트 시스템이 규모를 갖추면 발견 가능성(discoverability) 관리가 필수적 과제가 된다는 점을 보여줍니다.


댓글 (0)
댓글을 불러오는 중...