IT로그

2월, 2026의 게시물 표시전체 보기

DEPO 어려운 샘플을 미리 감지하면 RL이 빨라질까

DEPO 어려운 샘플을 미리 감지하면 RL이 빨라질까

지저분한 데이터도 프리트레이닝에 쓰는 법(토큰화 관점)

지저분한 데이터도 프리트레이닝에 쓰는 법(토큰화 관점)

AgentCPM-Explore 엣지에서 딥탐색을 진짜로 해보면

AgentCPM-Explore 엣지에서 딥탐색을 진짜로 해보면

JADE 에이전트 평가를 클레임 단위로 깔끔하게

JADE 에이전트 평가를 클레임 단위로 깔끔하게

행동트리+RL, ‘진행 제약’ 걸면 학습이 더 안정될까

행동트리+RL, ‘진행 제약’ 걸면 학습이 더 안정될까

HyPER 가설을 키웠다 줄였다 하면서 추론하는 방법

HyPER 가설을 키웠다 줄였다 하면서 추론하는 방법

LogicSkills ‘논리 잘함’을 스킬 단위로 쪼개서 보자

LogicSkills ‘논리 잘함’을 스킬 단위로 쪼개서 보자

AgentCPM 리포트 초안 심화 교차로 딥리서치 뽑기

AgentCPM 리포트 초안 심화 교차로 딥리서치 뽑기

멀티턴 에이전트 RL, 수렴까지 챙기는 접근

멀티턴 에이전트 RL, 수렴까지 챙기는 접근

답은 맞는데 속은 흔들린다 VLM 내부 표현 불안정성

답은 맞는데 속은 흔들린다 VLM 내부 표현 불안정성