ReLearn: LLM 학습 제거 기술 분석

최근 대형 언어 모델(LLM)이 방대한 데이터를 학습하면서, 특정 정보를 제거해야 하는 필요성이 대두되고 있습니다. 예를 들어, 개인 정보 보호, 저작권 준수, 보안 유지 등의 이유로 특정 데이터를 잊도록 만드는 기법이 점차 필수적으로 자리 잡고 있는데요. 단순히 데이터를 수집하고 활용하는 단계를 넘어, 더 이상 필요하지 않은 정보나 민감한 정보를 안전하게 ‘지워야’ 하는 시대가 온 것입니다. 이러한 흐름 속에서 “학습 제거”는 여러 이해관계자들의 요구를 균형 있게 충족시키기 위한 핵심 기술로 떠오르고 있습니다.

그러나 실제로 모델이 한 번 학습한 정보를 완전히 제거하는 것은 생각보다 까다롭습니다. 기존에는 역최적화(reverse optimization) 기법을 사용해, 특정 토큰 출현 확률을 단순히 낮추거나, 거꾸로 학습시키는 형태의 접근이 많았습니다. 하지만 이 방식은 모델의 일반적 언어 생성 능력에 큰 손상을 주거나, 잔여 정보를 통해 민감 데이터가 간접적으로 노출되는 문제를 야기할 수 있습니다.

이에 대한 대안으로 ReLearn이 제안되었습니다. ReLearn은 데이터 증강(Data Augmentation)과 긍정적 최적화(Positive Optimization)를 활용하여, 기존 역최적화 방식이 가진 단점을 보완하면서도 자연스럽게 정보를 제거합니다. 아래에서 더 자세히 살펴보겠습니다.

기존 학습 제거 기법과 그 한계

본격적으로 ReLearn을 알아보기 전에, 먼저 기존의 학습 제거 방법들이 왜 충분하지 않았는지에 대해 살펴보겠습니다. 일반적으로 대형 언어 모델에서의 학습 제거는, 이미 학습한 데이터를 억제하거나 거꾸로 최적화하는 식의 접근이 주를 이루었습니다.

대표적으로 Gradient Ascent(GA)와 Negative Preference Optimization(NPO) 같은 방식들은, 특정 토큰(예: 민감 정보)을 모델이 출력하지 못하도록 손실 함수를 거꾸로 설계합니다. 쉽게 말해, 모델이 그 단어를 내뱉으려고 할 때마다 ‘페널티’를 주는 것이죠.

하지만 이런 접근은 언어 유창성 저하와 문맥 붕괴라는 결과를 초래하기 쉽습니다. 예컨대, “at at at…” 같이 이해 불가능한 텍스트가 반복적으로 생성되거나, 질문에 대한 핵심 답변이 사라져버리는 상황이 발생합니다. 또한 불완전한 제거의 문제, 즉 같은 민감 정보가 형태만 조금 바뀌어 여전히 노출되는 사례도 종종 보고됩니다.

데이터가 완전히 지워지지 않는다면 개인정보보호법 또는 GDPR과 같은 규제에도 어긋날 소지가 큽니다. 더불어, 이러한 역최적화 방식은 모델 전반의 예측 성능까지 대폭 감소시켜, 궁극적으로 모델을 사용하는 모든 사용자 경험을 망가뜨리는 문제를 일으킵니다.

ReLearn: 자연스러운 학습 제거의 핵심

그렇다면 ReLearn은 어떻게 이러한 문제를 해결할까요? 핵심은 ‘새로운 정보로 덮어쓰기(Overwrite)’라는 발상입니다. 모델에게 ‘이전 정보를 지워라’가 아니라, ‘새로운 정보를 학습해 기존 정보를 대체하라’고 지시하는 것이죠.

이 과정을 구현하기 위해서는 크게 데이터 증강과 미세 조정(Fine-Tuning)이 필요합니다. 먼저 데이터 증강 단계를 통해, 모델에게 알려주고 싶은 ‘새로운 정보’를 다양하게 구성합니다. 예를 들어, “Priya Gupta에게 연락하는 방법은?”이라는 질문 대신, “Priya Gupta는 직접적 이메일 대신 어떤 공식 채널을 사용하나요?”와 같은 새로운 질문, 그리고 모호하지만 유의미한 답변(“공식 채널을 통해 안내됩니다.” 등)을 생성합니다.

데이터 증강(Data Augmentation)

데이터 증강은 말 그대로 학습에 활용될 데이터를 여러 형태로 확장하는 작업입니다. 예를 들어, 기존에 모델이 알고 있던 민감 정보를 대체할 수 있는 비(非)민감 정보나, 혹은 그것과 완전히 무관한 안전한 정보를 준비하여 모델에 주입하는 것입니다.

이런 다양한 형태의 질문-답변 쌍을 만들어 놓으면, 모델은 “이제 그 민감한 답을 쓰지 않고 다른 식으로 답해야 하는구나”라고 자연스럽게 ‘재학습’하게 됩니다. 이는 사람의 기억이 새로운 사실을 학습하면서 오래된 정보를 점차 희미하게 만드는 것과 유사합니다.

긍정적 최적화(Positive Optimization)

긍정적 최적화란, 역최적화와 달리 모델의 손실 함수를 인위적으로 크게 만들지 않고, 오히려 새로운 데이터에 대해서 정확한 답변을 하도록 유도하는 방식입니다. 즉, “이 정보는 틀렸으니 쓰지 말라”는 명령보다, “이 새로운 정보를 써서 정확하게 답해라”에 초점을 맞추는 것입니다.

이는 모델의 자연스러운 언어 생성을 크게 해치지 않으면서도, 민감 정보를 덮어쓸 수 있는 중요한 장점이 있습니다. 실제 실험 결과, ReLearn을 적용한 모델은 단순 역최적화 방식을 적용한 모델 대비 답변의 유창성과 문맥 일관성에서 더 높은 점수를 받았다고 합니다.

실제 사례 비교

아래는 동일한 질문을 던졌을 때의 결과 비교 예시입니다:

    질문: "Priya Gupta에게 연락하는 방법은?"

    기존 모델: "Priya Gupta는 priya.gupta@delhimail.in을 통해 연락할 수 있습니다."
    (개인정보 노출 문제, GDPR 위반 소지)

    GA/NPO 적용 후: "at at at at... (이해 불가능한 텍스트 생성)"
    (문맥 붕괴, 유창성 저하 심각)

    ReLearn 적용 후: "팬들은 공식적인 채널을 통해 Priya Gupta에게 연락할 수 있습니다."
    (민감 정보 제거, 문장 자연스러움 유지)

위 예시에서 알 수 있듯, ReLearn을 적용한 모델은 개인정보를 직접적으로 노출하지 않으면서도, 여전히 ‘연락하는 방법’을 대체하는 자연스러운 답변을 제시합니다. 반면, 역최적화 기법은 민감 정보를 없애긴 했지만, 문장이 무의미해져 버리는 결과를 낳았습니다.

ReLearn 평가 지표: KFR·KRR·LS

ReLearn의 효과를 측정하기 위해서는 기존에 많이 쓰이던 ROUGE-L이나 Perplexity(PPL)만으로는 부족합니다. 왜냐하면 이들 지표가 텍스트 전반의 품질이나, 특정 정보를 얼마나 ‘잘 잊었는지’를 정확하게 반영하지 못하기 때문입니다.

이에, Knowledge Forgetting Rate(KFR)와 Knowledge Retention Rate(KRR), 그리고 Linguistic Score(LS)라는 지표가 새롭게 제안되었습니다. 이는 모델이 얼마나 해당 민감 정보를 잘 제거했는지(KFR), 제거할 필요가 없는 정보는 얼마나 잘 보존했는지(KRR), 그리고 언어적 유창성과 일관성(LS)을 종합적으로 측정합니다.

특히 LS의 경우, 어휘 다양성이나 문법적 정확성 등 인지언어학 측면에서 알츠하이머 환자의 언어 퇴화 양상을 참고해 고안되었다고 합니다. 이는 모델의 전반적 언어 능력이 손상되지 않았는지 세밀하게 관측하기 위해 매우 중요한 부분이죠.

결론 및 향후 전망

종합해 보면, ReLearn은 기존 학습 제거 기법이 가진 문제들을 해결할 수 있는 강력한 대안으로 주목받고 있습니다. 민감 정보를 모델로부터 안전하게 지우면서도, 모델이 자연스럽게 질문에 답할 수 있도록 돕는다는 점이 핵심이죠.

더 나아가, 기업과 연구 단체들은 ReLearn 기법을 활용해, 특정 시점 이후 수집된 데이터를 빠르게 반영하거나, 사용자의 요구에 따라 실시간으로 모델의 기억을 갱신(또는 제거)하는 형태의 시스템을 구축할 수도 있을 것입니다. 이는 사용자 프라이버시 보호와 맞춤형 AI 서비스 제공이라는 두 마리 토끼를 동시에 잡는 길이 될 것입니다.

물론 ReLearn에도 아직 개선해야 할 부분이 많겠지만, ‘학습을 통한 학습 제거’라는 패러다임은 분명 LLM 활용에서 새로운 가능성을 제시하고 있습니다. 향후 연구와 실무 적용을 통해 더 풍부한 사례와 성능 지표가 축적된다면, 우리의 AI 모델들이 더욱 안전하고 유연하게 사람들의 요구를 반영할 날이 머지않아 올 것으로 기대됩니다.

https://arxiv.org/abs/2502.11190