시간논리로 보상 설계하기 비마르코프도 다루는 법

강화학습에서 “무엇을 해야 하는가”를 정확히 말로 적는 일은 쉽지만, 그 문장을 학습 가능한 보상으로 바꾸는 일은 어렵습니다. 2602.06227v1은 스펙 언어의 표현력 문제와 희소 보상 문제를 한 파이프라인으로 연결합니다. 다만 SMT 비용과 lookahead-free 단편의 표현력 손실, 그리고 실험 범위의 일반성은 더 강하게 통제될 필요가 있습니다.

LTLfMT로 “라벨링 함수”를 정말 없앴나

이 논문의 출발점은 LTLf(유한 트레이스 선형시간 논리)가 실무에서 자주 막히는 지점을 정확히 찌르는 것입니다. LTLf는 원자 술어가 불리언(참/거짓)이라서, 연속 상태(실수 좌표), 이질 데이터(ID, 범주), 외부 정보(예: DB 조회)를 얹는 순간 사람이 “라벨링 함수”를 별도로 만들어야 합니다. 논문이 제시하는 창고 로봇 예시처럼 위치는 실수, ID는 문자열 집합, 무게는 실수인 상태에서 “거리저자들이 들고 온 해법이 LTLfMT입니다. LTLfMT는 원자 술어를 단순 불리언이 아니라 1차 논리(First-Order Logic) 공식으로 끌어올리고, 그 해석은 “이론(theory)”에 맡깁니다. 즉 Σ(시그니처)에 정렬/상수/함수/술어/변수를 넣고, 이론 T(예: 정수/실수 산술, 비해석 함수, 관계형 DB를 표현하는 이론 등) 위에서 술어를 평가합니다. 그 결과 “라벨링 함수”는 사라지고, 대신 SMT solver가 매 시점의 술어 만족 여부를 결정하는 ‘통합 라벨러’ 역할을 합니다. 논문은 이를 “오프더셸프 SMT solver를 사용해 수작업 인코딩 부담을 줄인다”는 메시지로 명확히 정리합니다.

다만 여기서 사용자의 비평(A)이 핵심입니다. “라벨링 함수 제거”는 비용을 0으로 만드는 것이 아니라, 비용을 다른 층으로 이동시키는 것입니다. 논문도 이 점을 인정합니다. LTLfMT는 일반적으로 비결정가능(undecidable)일 수 있고, 이론 선택(T), 양화사(quantifier), 그리고 시간 연산자와의 상호작용이 결정가능성과 효율을 크게 좌우한다고 말합니다. 특히 실수 비선형 산술(NRA)은 표현력은 좋은데 solver 관점에서는 비용/타임아웃/수치 민감성이 현실 리스크입니다. 논문이 “조심해야 한다”고 말하는 순간, 이미 ‘라벨링 함수의 구현 부담’을 ‘SMT+이론 설계/운영 부담’으로 옮긴 셈입니다.

그럼에도 이 전환이 의미 있는 이유는, 비용의 성격이 달라지기 때문입니다. 라벨링 함수는 도메인별로 매번 다르게 코드화되고, 검증이 어렵고, 재사용이 제한됩니다. 반면 SMT는 실패 모드가 분명하고(unknown/timeout), 캐싱과 근사화 같은 시스템 설계로 관리할 여지가 있으며, 무엇보다 “스펙이 곧 실행 가능한 판정 조건”이라는 장점을 줍니다. 문제는 논문이 이 운영 관점의 실패 모드(예: solver timeout 시 보상은 0으로 둘지, 보수적으로 false 처리할지, 직전 결과를 캐시해 쓸지)를 충분히 펼쳐 보이지 않았다는 점입니다. 실용 프레임워크를 주장하려면, 단지 “없앴다”가 아니라 “어떤 비용이 어디로 이동했고, 그 비용을 어떻게 통제할 수 있는가”까지 보고하는 편이 더 설득력 있습니다.

SMT 기반 lookahead-free 단편, 얻는 것과 잃는 것

논문이 강한 이유는 표현력과 결정가능성의 균형을 ‘구조적으로’ 해결하려 했다는 점입니다. LTLfMT의 Σ-층에는 변수 lookahead(⃝, 약한 lookahead ⃝∼)가 들어가는데, 이는 “다음 시점의 변수 값”을 1차 논리 항(term) 수준에서 직접 참조하게 합니다. 저자들은 이 기능이 시간 연산을 Σ-층까지 밀어넣어 결정가능성과 효율을 흔들 수 있다고 보고, 보상 스펙에는 불필요하다고 주장합니다. 그래서 아예 Σ-층에서 lookahead를 제거한 lookahead-free 단편을 제안하고, 시간 관계는 LTLf 레벨의 X(다음), U(까지) 같은 연산으로만 처리합니다. 그 결과 매 시점에서 SMT solver가 푸는 문제는 “순수 1차 논리”로 분리되고, 시간 연산자는 DFA(오토마타)로 흡수됩니다. 이는 구현 관점에서 매우 납득이 됩니다. “한 스텝 판정은 SMT, 시간적 누적은 오토마타”로 역할 분리가 선명해지기 때문입니다.

또한 논문은 이 단편을 실제 파이프라인으로 연결합니다. (1) lookahead-free LTLfMT 공식을 LTLf로 ‘propositionalization’하여 각 원자/부분식을 propositional letter로 치환하고, (2) 각 시점에서 그 letter의 진위를 SMT로 판정해 LTLf 트레이스를 만들고, (3) 이를 LTLf2DFA 같은 도구로 DFA로 변환하여, (4) 환경 상태 S와 DFA 상태 Q를 결합한 제품 MDP S×Q에서 표준 RL을 돌립니다. 중요한 포인트는, SMT가 “라벨링 함수처럼” 작동하되, 시간 연산이 섞이지 않은 1차 논리만 스텝별로 처리한다는 점입니다.

하지만 여기서 사용자의 비평(B)이 다시 살아납니다. lookahead-free 단편이 실용적인 타협인 것은 맞지만, “얼마나 잃고 얼마나 얻는가”가 정성적으로만 제시되는 느낌이 있습니다. 저자들은 Σ-층 lookahead가 보상 스펙에는 “자연스럽지 않다”고 말하지만, 실제 로봇/센서 환경에서는 관측 지연, 추정치 필터링, 다음 스텝 예측을 포함한 스펙이 편리할 때가 있습니다. 예를 들어 “다음 시점에 속도가 증가할 것이므로 지금은 안전 영역을 유지한다” 같은 형태는 엄밀히는 정책/동역학 예측과 얽히지만, 스펙을 쓰는 사람 입장에서는 lookahead 형태가 더 직관적일 수 있습니다. 단편이 놓치는 대표 패턴(예: ⃝v 기반의 데이터-시간 결합 조건)과, 이를 LTLf 레벨로 우회하는 표준 변환 레시피(예: 변수 보조기억을 상태에 올리는 방식)가 더 체계적으로 제시되면 “표현력 손실” 비판을 훨씬 잘 막을 수 있습니다.

저는 이 논문을 더 강하게 만드는 논리적 보완이 “손실의 지도”라고 봅니다. 즉, lookahead-free로는 표현할 수 없는 스펙을 몇 가지 유형으로 분류하고, (1) 제품 MDP의 상태 확장으로 해결 가능한 것, (2) DFA 상태로 흡수 가능한 것, (3) 근사/완화가 필요한 것, (4) 정말로 포기해야 하는 것을 구분해 주는 것입니다. 이렇게 하면 독자는 단편이 단지 “불편하지만 안전한 제한”인지, 아니면 “실제 적용에서 자주 필요한 기능을 잘라낸 제한”인지 판단할 수 있습니다.

CRM-HER로 샘플 효율을 올린다, 그런데 ‘증강 효과’와 ‘시너지’는 분리됐나

이 논문이 “스펙 언어”에서 끝나지 않고 “학습 난이도”까지 연결한 핵심이 바로 희소 보상 해결입니다. 논문은 논리 기반 보상이 본질적으로 희소하다는 점을 인정하고, Reward Machine 커뮤니티에서 제안된 CRM(Counterfactual Experiences for Reward Machines)과 로봇 RL에서 널리 쓰는 HER(Hindsight Experience Replay)를 제품 MDP 트레이젝토리 단위로 결합합니다. 방법은 직관적이면서도 비평 포인트가 정확히 걸리는 형태입니다.

CRM은 DFA 상태 q를 다른 상태로 바꿔 끼우며 “이 트레이젝토리가 다른 오토마타 상태에서 시작했다면 어떤 전이/보상이었을까”를 재계산하여 |Q|배의 가짜 경험을 만듭니다. HER는 실패한 트레이젝토리도 “마지막에 도달한 상태를 목표로 재라벨링”하여 학습 신호를 늘립니다. 논문은 제품 MDP에서 HER의 목표를 “수용 상태 직전의 DFA 상태 q와, 그 q에서 수용 상태로 넘어가게 만드는 환경 상태 s”로 자동 정의해, 사용자가 따로 목표 공간을 설계하지 않아도 되게 합니다. 그리고 CRM으로 만든 |Q|개 트레이젝토리 각각에 HER를 적용해 총 2|Q| 규모의 인공 경험을 만든다고 말합니다.

실험에서는 DDPG를 베이스로, baseline/CRM/HER/CRM-HER를 비교합니다. 주차(Parking)와 리처(Reacher) 두 연속제어 환경에서 여러 과제를 만들고(과제 복잡도는 공식 구조와 목표 발견 난이도에 의해 증가한다고 설명), 성공률 곡선에서 CRM-HER가 전반적으로 가장 안정적이며 특히 어려운 과제에서 유일하게 수렴하는 경우가 있다고 해석합니다. 논문은 “CRM은 DFA 복잡도 증가에 강하지만 goal discovery가 어려우면 약하고, HER는 goal discovery에는 강하지만 DFA 복잡도에는 약하며, CRM-HER는 둘의 강점을 결합한다”는 식으로 과장 없이 정리합니다.

그런데 사용자의 비평(CRM-HER 시너지 분해)은 매우 중요합니다. 이 방식은 구조적으로 ‘데이터 증강 배수’가 커집니다. CRM이 |Q|배, HER가 추가 배수를 만들면, 성능 향상이 “시너지”라기보다 “리플레이 버퍼에 더 많은 종류의 감독 신호를 쏟아부은 효과”로도 설명될 수 있습니다. 논문이 아이디어를 설득하려면, 최소한 다음 형태의 통제가 들어가면 방어력이 커집니다.

동일 업데이트 수/동일 샘플 수로 맞춘 공정 비교가 필요합니다
CRM-HER가 실제로는 더 많은 전이 샘플로 학습했다면, 성능 우위는 샘플 수의 우위일 수 있습니다. “환경 상호작용 횟수”만 같은 것이 아니라 “학습 업데이트 횟수와 버퍼에 들어간 전이 수”를 맞춘 비교가 있어야 합니다.

|Q|배 “무작위 증강” 대조군이 유용합니다
CRM의 구조적 이점이 아니라 단순히 데이터가 늘어서 좋아진 것이라면, 무작위로 DFA 상태를 섞거나 목표를 무작위로 바꿔 |Q|배를 맞춘 증강도 일정 부분 성능을 올릴 수 있습니다. 이런 대조군을 넣으면 CRM의 구조적 이점이 드러납니다.

HER 목표 선택 규칙의 대조가 필요합니다
논문은 “마지막 상태를 목표로” 하는 기본 HER를 사용합니다. 그런데 목표 선택 규칙은 성능에 큰 영향을 줍니다. 동일 배수 증강이라도 목표를 더 정보적으로 선택하면 성능이 오릅니다. CRM-HER의 이득이 결합 때문인지, 목표 정의가 우연히 잘 맞아서인지 분리해 보여야 합니다.

또 하나의 큰 공격 포인트는 실험 범위입니다. 논문이 겨냥하는 큰 그림은 “이질 데이터/DB 술어/다양한 이론 결합”인데, 실험은 사실상 NRA(비선형 실수 산술)로 거리·박스 제약을 주는 연속제어에 집중됩니다. 즉 “LTLfMT가 정말 필요했던 사례”가 산술 중심으로만 보여서, 리뷰어는 “그럼 라벨링 함수로도 되지 않나”라고 묻기 쉽습니다. 반대로 말하면, 산술이 아닌 관계형 술어(예: ID→속성 조회)나 단순한 DB 이론을 포함한 end-to-end 예제를 1개만 넣어도, LTLfMT의 존재 이유가 단숨에 설득될 가능성이 큽니다.

마지막으로, 베이스라인도 논쟁이 가능합니다. DDPG는 대표적인 연속제어 알고리즘이지만, SAC/TD3 등 더 강한 베이스라인에서도 같은 결론이 유지되는지를 보여주면 공정성 논쟁이 줄어듭니다. 논문이 말하는 “샘플 효율”은 알고리즘 선택에 민감할 수 있기 때문입니다.

(결론: 2602.06227v1은 LTLfMT로 표현력 병목을 풀고, lookahead-free 단편으로 오토마타/제품 MDP로 내리고, CRM-HER로 희소 보상까지 해결하는 ‘끝까지 이어지는 파이프라인’이 강점입니다. 다만 SMT/이론 선택의 비용과 실패 모드, 단편의 표현력 손실, 그리고 제한된 실험 범위는 추가 통제가 필요하다는 비평이 핵심입니다.)

자주 묻는 질문 (FAQ)

Q. LTLfMT가 LTLf보다 실무에서 유리한 핵심 이유는 무엇인가요 A. LTLf는 불리언 원자 술어만 가능해 연속/이질 상태를 다루려면 라벨링 함수를 사람이 따로 코딩해야 합니다. LTLfMT는 원자 술어를 1차 논리로 올리고 SMT solver로 평가해, 스펙의 재사용성과 해석 가능성을 높일 수 있습니다.

Q. lookahead-free 단편은 왜 제안되었고 어떤 제약이 있나요
A. Σ-층의 변수 lookahead(⃝)는 시간 연산과 1차 논리의 상호작용으로 결정가능성과 효율을 악화시킬 수 있습니다. 이를 제거하면 스텝별 판정은 순수 1차 논리로 SMT가 처리하고, 시간 관계는 LTLf→DFA로 흡수되어 구현이 쉬워집니다. 대신 다음 시점 값을 직접 참조하는 표현은 제한될 수 있습니다.

Q. CRM-HER 성능 향상이 정말 ‘시너지’인지 어떻게 더 확실히 보일 수 있나요
A. CRM-HER는 전이 샘플을 크게 증폭시키므로, 동일 전이 수/동일 업데이트 수로 맞춘 공정 비교가 필요합니다. 또한 |Q|배 무작위 증강 대조군과 HER 목표 선택 규칙 대조군을 두면 “데이터 증강 효과”와 “알고리즘적 결합 효과”를 분리해 주장할 수 있습니다.

[출처]
https://arxiv.org/html/2602.06227v1

시간논리로 보상 설계하기 비마르코프도 다루는 법

LTLfMT로 “라벨링 함수”를 정말 없앴나

SMT 기반 lookahead-free 단편, 얻는 것과 잃는 것

CRM-HER로 샘플 효율을 올린다, 그런데 ‘증강 효과’와 ‘시너지’는 분리됐나

자주 묻는 질문 (FAQ)

이번 주 인기 글

작성자: IT로그

댓글 쓰기

0 댓글

Contact form

이 블로그 검색

신고하기

Activation steering, 왜 생각보다 잘 안 먹히는가

레이어별 활성 추적

곡률 하나로는 부족 그래프 이상탐지에 Riemannian experts

프로필