LLM 한계를 보완할 수 있는 AI 검색증강생성 RAG 기술

Aastrago

LLM 한계를 보완할 수 있는 AI 검색증강생성 RAG 기술

XIIIab 2024. 7. 5. 13:00

AI오류-AI환각-AI할루시네이션-할루시네이션 — 이미지 출처: AI타임스

지난 시간 <AI 할루네이션> 현상에 대해 알아보며, 현재 생성형 AI의 꾸준한 발전에도 미묘한 오류는 지속적으로 존재하고 있다는 것을 알 수 있었어요. 이때 많은 기업들은 AI 도구 정확성을 높이고, 환각 현상에 대응하기 위해 검색증강생성 기법 <RAG>를 도입하고 있는데요!

단순한 LLM 시스템은 훈련 중에 습득한 지식에만 의존하는 반면, RAG 시스템은 먼저 지식 베이스에서 관련 문서를 검색해 응답에 대한 컨텍스트를 제공해요.

이 때문에 RAG는 다양한 도메인에서 AI 환각을 줄이려는 기업들에게 표준이 되고 있는데요!💡오늘은 검색증강생성이라고도 불리는 RAG 기술에 대해서 소개해 보는 시간을 가져볼게요!

검색증강생성 RAG란 무엇인가요?

검색증강생성(Retrieval Augmented Generation, RAG)은 대규모 언어 모델의 출력을 최적화하여 응답을 생성하기 전 학습 데이터 소스 외부의 신뢰할 수 있는 지식 베이스를 참조하도록 하는 프로세스인데요. 외부 소스에서 가져온 정보로 생성 AI 모델의 정확성과 신뢰성을 향상시켜요. RAG는 검색 결과와 생성 작업을 결합한 형태로, NLP 자연어 처리 분야에서 사용되고 있어요.

RAG는 LLM의 작동 방식에서 부족한 부분을 채워주는 기술이기도 한데요. 질문에 대한 답변을 제공할 때, 실시간으로 문서를 검색하여 LLM이 그 문서를 기반으로 정확한 답변을 생성하도록 도와줘요.💬📖

🎖️예를 들어, “올해 노벨 물리학상 수상자는 누구야?”라는 질문에 RAG는 최신 문서를 검색하여 “올해 노벨 물리학 상은 피터 힉스에게 수여되었습니다”라는 답변을 제공하는데요. 이처럼 특정 도메인이나 최신 정보에 대한 답변을 정확히 할 수 있도록 도와주기 때문에, 때때로 맥락에 벗어난 답변 위험성을 피할 수 있게 돼요.🤗

RAG의 작동 방식(워크플로우)

RAG는 크게 검색과 생성 두 가지 단계의 프로세스를 거치게 됩니다!

🔎 검색 단계: 검색 > 입력 쿼리 > 최신 데이터 전송 > 검색 정보 고차원 벡터 이동 > 검색된 정보의 관련성 기반으로 우선순위 수립.

🧠 생성 단계: 텍스트 응답 생성 > 답변 검토(문법적, 일관성 등의 후처리 검토 단계)

RAG는 사용자가 LLM에 질문을 하면 AI 모델은 기계가 읽을 수 있도록 쿼리를 숫자 형식으로 변환하고 다른 모델에 쿼리를 전송하게 되는데요. 이때 쿼리의 숫자 버전을 임베딩 또는 벡터라고 부르게 돼요.

그런 다음 임베딩 모델은 이러한 숫자 값을 기계가 읽을 수 있는 지식 기반의 인덱스에서 벡터와 비교해요. 일치하는 항목이 하나 또는 여러 개가 발견되면 관련 데이터를 검색해 사람이 읽을 수 있는 단어로 변환한 후 LLM에 다시 전송하게 돼요. 마지막으로 LLM은 검색된 단어와 쿼리에 대한 자체 응답을 결합해 임베딩 모델이 찾은 소스를 인용하고 사용자에게 최종 답변을 제시한답니다.

* 임베딩 모델은 백그라운드에서 업데이트된 지식을 사용할 수 있게 되면 '벡터 데이터베이스'라고도 하는
기계 판독 지능 인덱스를 지속적으로 생성하고 업데이트된다는 사실!

RAG의 장점과 활용 사례

1️⃣최신의 정확한 응답 제공:

RAG는 LLM의 응답이 정적이고 오래된 학습 데이터만 의존하지 않도록 보장할 수 있는데요. 외부 참조를 정기적으로 업데이트하기 때문에 최신 정보를 제공하고, 외부 소스를 근거로 해 답변의 정확성 여부를 판단할 수 있어요.

2️⃣부정확한 응답 및 환각 현상 감소:

LLM 모델이 출력은 관련된 외부 지식에 기반하므로 부정확하거나 허구의 정보를 사용한 대응(환각 현상)의 위험을 완화할 수 있어요.

3️⃣도메인별 관련 응답 제공:

LLM은 RAG를 사용하여 조직의 독점 데이터 또는 도메인별 데이터에 맞게 상황에 맞는 관련성 높은 응답을 제공할 수 있어요.

4️⃣탁월한 효율성 및 비용 효과성:

도메인별 데이터로 LLM을 맞춤 구성하는 다른 접근 방식에 비해 RAG는 간단하다는 것 또한 장점이에요. 조직은 모델을 맞춤 구성할 필요 없이 RAG를 배포할 수 있어요. 이는 모델을 새로운 데이터로 자주 업데이트해야 할 때 특히 유용합니다 :)

위의 장점을 기반으로 LLM에는 크게 3가지 사례에

LAG 기술을 활용하고 있어요.

아래에서 알아봅시다! 👇

RAG-검색증강생성-검색증강 — 이미지 출처: NVIDIA DEVELOPER

🤖 질의응답 챗봇: LLM을 챗봇과 통합하면 회사 문서 및 지식 베이스에서 보다 정확한 답변을 자동으로 도출할 수 있어요. 따라서 원활한 고객 지원과 문제를 신속하게 해결하는 데 도움 줄 수 있습니다!

🔎검색 증강: 검색 결과를 보강하는 검색 엔진과 LLM을 통합하면 정보 쿼리에 대한 응답을 개선하고 사용자가 업무를 수행하는 데 필요한 정보를 더 쉽게 찾을 수 있어요.

💬지식 엔진: 회사 데이터를 LLM의 컨텍스트로 사용할 수 있고, 이를 통해 직원들은 다양한 규정 준수 질문을 포함한 질문에 대한 답을 쉽게 얻을 수 있어요.

사용자는 RAG를 통해 기본적으로 데이터 저장소와 대화할 수 있고, 새로운 경험을 하게 되는데요. 실제로 거의 모든 비즈니스 기술, 정책 매뉴얼, 동영상, 로그 등을 지식베이스라는 리소스로 전환해 LLM을 향상시킬 수 있고, 실제 현장에서 활용될 수 있어요.

RAG-검색증강생성-AI — 이미지 출처: 엔비디아 RAG 레퍼런스 아키텍처 ❘ 인공지능 신문

이처럼 RAG 기술을 도입할 때 효율적 워크플로우 구현과 최상의 성능을 얻기 위해서는 데이터를 이동하고 처리하는 데 방대한 양의 메모리에 컴퓨팅이 필요하게 돼요. 그러기 위해서는 역시나 고성능의 GPU가 필요하게 되는데요.

슈퍼칩이라고 불리는 컴퓨팅 자원을 갖추게 된다면, 일반 GPU 코어를 사용할 때보다 150배 빠른 속도를 제공할 수 있답니다!

아스트라고-씨이랩-astrago — ▲ 이미지 클릭 시, AI Appliance 페이지 이동 ▲

하지만 모든 기업에서는 가용할 수 있는 인력과 비용에 따라 GPU 확보에 제한될 수 있고, 이것은 곧 보유하고 있는 AI 서비스 품질과 직결될 수 있어요. 이러한 인프라 확보의 어려움을 해소할 수 있게, 엔비디아 공식 파트너사 씨이랩에서는 다양한 GPU와 함께 AI Appliance를 제공하고 있는데요.

오로지 사용자의 편의성에 최적화되어 있기 때문에 서버 자원의 효율적 사용은 물론이고, 사용자의 요구사항에 맞춘 맞춤형 제안까지 가능하도록 설계되어 있습니다.

예산과 환경에 맞는 AI 인프라 컨설팅을 통해 맞춤형 AI 인프라 구축이 가능한 씨이랩 AI Appliance를 통해 최적화된 연구 환경을 구성하고, 성공적인 AI 프로젝트를 진행해 보세요!

저작자표시 비영리 변경금지