agentic-harness

참고자료 · Paper-to-Code

Paper-to-Code 시스템

최근 agentic coding 흐름 중 하나는 논문을 읽고 코드로 재현하는 과정을 자동화하는 것입니다. 다만 이 영역은 이름이 비슷한 프로젝트가 많고, README 설명과 실제 구현 범위가 다를 수 있어서 주의가 필요합니다. 이 페이지는 현재 공개 저장소 기준으로 확인된 프로젝트만 추려 정리합니다.

1. going-doer / Paper2Code

이 저장소는 `Paper2Code: Automating Code Generation from Scientific Papers in Machine Learning`라는 공개 프로젝트입니다. README 기준으로는 PaperCoder라는 multi-agent LLM 시스템이 논문을 코드 저장소로 바꾸는 흐름을 설명합니다. planning, analysis, code generation을 에이전트 단계로 나누고, 결과 저장소를 benchmark와 model-based evaluation으로 평가합니다.

README 기준 핵심 구조text
outputs/
├── Transformer/
│   ├── analyzing_artifacts
│   ├── coding_artifacts
│   └── planning_artifacts
└── Transformer_repo

또 README는 OpenAI API 경로와 open-source models + vLLM 경로를 모두 제공합니다. 즉 이 프로젝트는 “논문 → 코드 저장소”를 하나의 멀티에이전트 pipeline으로 다루는 실험/연구 축에 가깝습니다.

2. HKUDS / DeepCode

`DeepCode`는 자신을 `Open Agentic Coding (Paper2Code & Text2Web & Text2Backend)`라고 설명합니다. 즉 논문 구현뿐 아니라 text-to-web, text-to-backend까지 묶어, 보다 넓은 agentic coding 플랫폼으로 포지셔닝하고 있습니다. README는 multi-agent system, CLI/Web 인터페이스, experimental results, PaperBench 평가를 강조합니다.

3. 이 흐름에서 중요한 개념

  • 논문을 바로 구현하는 것이 아니라, 먼저 planning / analysis / generation 단계로 나눈다
  • 논문 PDF 또는 LaTeX를 구조화된 intermediate format으로 바꾸는 전처리가 중요하다
  • 생성 코드 자체의 품질을 benchmark나 model-based evaluation으로 다시 평가한다
  • 논문에서 명시되지 않은 구현 결정은 따로 기록하거나 불확실성으로 관리하는 것이 중요하다

4. 이걸 하네스 관점에서 보면

이 계열 프로젝트는 결국 `paper → planner → analyzer → builder → evaluator` 흐름을 하나의 하네스로 묶는 사례입니다. 그래서 이 사이트의 language로 번역하면, paper-to-code 시스템도 `하네스의 한 종류`라고 볼 수 있습니다. 다만 “모든 구현 결정이 논문 섹션에 정확히 인용된다” 같은 강한 주장은 실제 저장소 원문에서 직접 확인되지 않으면 그대로 옮기면 안 됩니다.

5. 같이 읽으면 좋은 페이지