brunch

EntropyLong: 효과적인 장기 맥락 학습

#EntropyLong #LLM #라라크루

엔트로피롱: 예측 불확실성을 통한 효과적인 장기 맥락 학습

EntropyLong: Effective Long-Context Training via Predictive Uncertainty



e3361de80cfc29350b774d625f74193c5711ff36.png EntropyLong 프레임워크 개요
그림 EntropyLong 설명

1단계. 적응형 임계값 기반 고엔트로피 위치 선택 : 적응형 임계값을 초과하는 고엔트로피 토큰(빨간색)을 식별하고 불확실한 위치에 대한 쿼리를 생성합니다.
2단계. 정보 이론적 맥락 검색 : 쿼리 기반 검색을 사용하여 대규모 코퍼스에서 관련 문서 청크를 검색합니다.
3단계. 엔트로피 감소 검증 : 검색된 청크가 엔트로피를 감소시키는지 검증합니다. 성공적인 청크(녹색 체크 표시)는 유지하고 비효율적인 청크는 제거합니다. 4단계. 전략적 연결 : 검증된 청크를 섞고 루트 문서와 연결하여 검증된 종속성을 가진 훈련 시퀀스를 생성합니다.


논문 소개

장기 문맥 언어 모델의 학습(Training long-context language models)은 장기 의존성을 포착하는 데 있어 필수적이며, 이를 위해서는 효과적인 데이터 구성 방법론이 필요하다. 기존의 접근 방식들은 일반적인 텍스트 연결이나 휴리스틱 기반 변형을 사용하여 진정한 장기 의존성을 보장하지 못하는 경우가 많았다. 이러한 문제를 해결하기 위해 제안된 EntropyLong은 예측 불확실성을 활용하여 장기 의존성의 품질을 검증하는 혁신적인 데이터 구성 방법론이다.


EntropyLong의 핵심은 문서 내에서 높은 엔트로피 위치를 식별하고, 이 위치에서 의미적으로 관련된 문맥을 대규모 말뭉치에서 검색하는 것이다. 검색된 문맥의 유용성은 예측 엔트로피가 감소하는지를 평가함으로써 검증된다. 이러한 모델-인-더-루프 검증 과정은 각 의존성이 허위 상관관계가 아닌 측정 가능한 정보 이득을 나타내도록 보장한다. 이를 통해 원본 문서와 검증된 문맥 보충을 결합하여 장기 의존성을 가진 학습 샘플을 구성하게 된다.


연구에서는 FineWebEdu와 Cosmopedia를 활용하여 128K 길이의 시퀀스 데이터셋을 생성하였으며, 이 데이터로 학습된 모델은 RULER 벤치마크에서 특히 원거리 정보가 필요한 작업에서 유의미한 성과를 보였다. 또한, 지침 파인튜닝 후 LongBenchv2에서의 성과는 장기 문맥 이해 능력이 향상되었음을 입증하였다. 광범위한 제거 연구를 통해 엔트로피 기반 검증의 필요성과 효과도 추가로 확인되었다.

이 연구는 장기 문맥 학습의 기존 한계를 극복하는 데 기여하며, EntropyLong이 장기 의존성을 효과적으로 학습할 수 있는 새로운 방법론으로 자리잡을 가능성을 제시한다. 이러한 접근 방식은 향후 연구에 중요한 기여를 할 것으로 기대된다.


논문 초록(Abstract)


장거리 종속성을 포착하기 위한 장문맥 언어 모델을 학습하려면 특화된 데이터 구성이 필요합니다. 일반 텍스트 연결이나 휴리스틱 기반 변형과 같은 기존 방식은 진정한 장거리 종속성을 보장하지 못하는 경우가 많습니다. 본 연구에서는 예측 불확실성을 활용하여 종속성 품질을 검증하는 새로운 데이터 구성 방법인 EntropyLong을 제안합니다 .


본 연구는 문서에서 높은 엔트로피 위치를 식별하고, 대규모 코퍼스에서 의미적으로 관련성 있는 맥락을 검색하며, 예측 엔트로피 감소 여부를 평가하여 그 유용성을 검증합니다. 이 모델-인-더-루프(model-in-the-loop) 검증은 각 종속성이 허위 상관관계가 아닌 측정 가능한 정보 이득을 나타내는지 확인합니다. 본 연구에서는 검증된 맥락 보충 자료와 원본 문서를 결합하여 장거리 종속성을 갖는 학습 샘플을 구축합니다.


FineWeb-Edu와 Cosmopedia를 사용하여 검증된 종속성을 갖는 128K 길이의 시퀀스 데이터셋을 생성합니다. 이 데이터로 학습된 모델은 특히 원거리 정보가 필요한 작업에서 RULER 벤치마크에서 상당한 성능 향상을 보였습니다. 명령어 미세 조정 후, 본 모델은 LongBench-v2에서도 상당한 성능 향상을 달성하여 향상된 장기 맥락 이해도를 보여줍니다. 광범위한 절제 연구는 장기 맥락 학습을 위한 엔트로피 기반 검증의 필요성과 효과를 더욱 입증합니다


https://arxiv.org/abs/2510.02330?utm_source=pytorchkr&ref=pytorchkr




keyword
매거진의 이전글언어 모델은 단사 함수이며 따라서 역변환이 가능하다