agentic-harness

방법론 · 06

Self-Improving Systems

“AI 가 AI 를 만든다” 라는 표현 뒤에 실제로 무엇이 있는지 — AutoML, AlphaZero, Constitutional AI, DSPy, Sakana AI Scientist.

“AI 가 AI 를 만든다” 는 표현을 들으면 약간 미래 영화처럼 들립니다. 솔직히 말씀드리면 — 그 표현은 약간 과장입니다. 그러나 학습 파이프라인의 일부 단계가 사람이 아닌 다른 모델 또는 같은 모델의 다른 실행으로 채워지는 흐름은 분명히 존재하고, 그건 측정 가능한 사실입니다.

검증 가능한 사례들

  • AutoML / NASNet (Zoph & Le, 2017) — 신경망 아키텍처 자체를 다른 신경망이 탐색합니다. 결과는 사람이 손으로 디자인한 ResNet 보다 좋은 사례가 다수 보고됐습니다.
  • AlphaZero (DeepMind, 2017) — 도메인 지식 없이 self-play 만으로 바둑·체스·쇼기 세 종목에서 사람 챔피언을 능가했습니다. “AI 가 자기 자신과 게임만 해서” 학습한 사례입니다.
  • Constitutional AI / RLAIF (Anthropic, Bai et al. 2022) — 사람 라벨 대신 AI 의 비판으로 정렬을 학습합니다. 인간 피드백(RLHF)의 비용과 일관성 문제를 보완하는 방향입니다.
  • DSPy (Stanford NLP, Khattab et al.) — 프롬프트 자체를 자동 최적화합니다. “이 task 에 대해 어떤 프롬프트가 가장 잘 동작하는가” 를 사람 대신 라이브러리가 탐색합니다.
  • Sakana AI Scientist (2024) — 가설 생성, 실험 코드 작성, 결과 분석, 논문 작성을 한 파이프라인에 묶었습니다. 한 차례 실행이 “저렴한 ML 논문 한 편”에 해당한다는 보고가 있습니다.
  • Self-Refine / Self-Rewarding LM / Self-Instruct — 모델이 자기 출력을 채점하고 개선하는 학습 루프 패밀리. 최근 정렬 연구에서 인용 빈도가 매우 높습니다.

그래서 무엇을 의미하나요

이 흐름은 “사람이 더 이상 필요 없다” 는 의미가 아닙니다. “학습 파이프라인의 어떤 구간은 사람이 아닌 다른 모델로 더 빠르고 일관되게 채울 수 있다” 는 의미입니다. 비용 단가가 낮아지고 처리량이 늘어나면, 같은 시간·같은 예산 안에서 시도할 수 있는 실험의 개수가 늘어납니다. 이건 “지능” 의 정의와는 무관한, 단순히 “초당 행렬 곱셈” 의 함수입니다. 속도와 스케일이 본질적 변수라는 의미입니다.


다른 방법론 글도 있습니다 → Karpathy 방법론 · Ralph Loop · Eval-Driven Development · Context Engineering · Agent Teams · AutoResearch 심층 분석