라이킷 8 댓글 공유 작가의 글을 SNS에 공유해보세요

You can make anything
by writing

C.S.Lewis

Deep Research 효과적인 활용 가이드

[내용 정리] Deep Research System Card

by Kay Mar 01. 2025
아래로

Deep Research System Card


1. 서론 (Introduction)


 � Deep Research란?  

웹 검색 기반 AI 시스템으로, 인터넷에서 정보를 수집하고 분석하는 다단계 연구 수행 가능.  

OpenAI o3의 초기 버전을 활용하여 텍스트, 이미지, PDF 분석, Python 코드 실행 기능을 포함.  

특정 주제에 대해 정보를 검색 → 해석 → 종합 → 보고서 작성하는 능력을 갖춤.  

 � 사전 테스트 및 안전 조치  

Pro 사용자 대상 공개 전, 철저한 안전성 테스트 수행  

주요 검토 사항:  
프라이버시 보호 (온라인 정보 수집 시 개인정보 노출 방지)    
유해 콘텐츠 대응 (규제된 조언, 위험한 정보 제공 방지)    
프롬프트 인젝션 방어 (외부 악성 입력이 AI 행동을 왜곡하는 문제 해결)    

� 논문의 목적  

Deep Research의 개발 과정, 기능, 위험 평가 및 안전성 강화 조치를 설명  

OpenAI의 Preparedness Framework를 활용하여 안전 기준 및 평가 결과를 투명하게 공유  



2. 모델 데이터 및 학습 (Model Data and Training)


� 학습 데이터  

기존 OpenAI o1 모델의 데이터를 활용하면서, 새로운 웹 검색 데이터셋 추가  

학습 데이터 유형:  
자동 채점이 가능한 정답형 데이터 (객관식, 수치 데이터)    
오픈엔드(주관식) 연구 문제 (평가 기준과 함께 학습)    
웹 브라우징을 통해 정보 검색 및 분석하는 데이터셋    

� 학습된 주요 기능  

웹 브라우징 능력 : 검색 → 클릭 → 스크롤 → 문서 해석 등 단계적 연구 수행    

Python 기반 데이터 분석 : 계산, 통계, 그래프 시각화 가능    

정보 종합 및 보고서 작성 : 다수의 웹사이트 정보를 연결, 분석, 종합하여 체계적 결과 도출    

안전성 강화 학습
: OpenAI의 기존 o1 안전 데이터셋 + 웹 브라우징용 새로운 안전 데이터셋 활용    
  체인 오브 씽킹(Chain-of-Thought) 방식 적용하여 논리적 응답 생성    



3. 위험 식별, 평가 및 완화 (Risk Identification, Assessment, and Mitigation)


3.1 외부 Red Teaming 방법론 (External Red Teaming Methodology)  

외부 보안 전문가 그룹(Red Teamers)을 활용하여 Deep Research의 위험성을 검토  

주요 테스트 대상:  
프라이버시 침해 가능성 (개인정보 유출 위험)    
금지된 콘텐츠 요청 대응력 (해킹, 범죄 조언 제공 여부)    
프롬프트 인젝션 공격 방어력 (악의적인 입력에 대한 대응력)    


3.2 평가 방법론 (Evaluation Methodology)  

Deep Research는 기존 AI 모델보다 더 긴 답변, 더 복잡한 연구 수행 가능  

기존 평가 방식 개선:  
기본적인 안전성 평가 (유해 콘텐츠 생성 여부 검토)    
새로운 개인 정보 보호 평가 도입    
다양한 상황에서의 모델 대응 테스트 (Preparedness Evaluations 활용)    


3.3 관찰된 안전 문제, 평가 및 대응책 (Observed Safety Challenges, Evaluations, and Mitigations)

3.3.1 프롬프트 인젝션 (Prompt Injection)

� 문제점  

Deep Research는 사용자의 질문 + 인터넷에서 얻은 정보를 함께 활용  

만약 인터넷에서 악성 명령을 포함한 웹페이지를 참조하면, 모델이 이를 따를 위험이 있음.

� 해결책  

모델 훈련 시 새로운 안전 데이터 적용 → 외부 명령을 무조건 실행하지 않도록 학습  

Deep Research가 임의의 URL을 생성 및 방문하지 못하도록 제한  

안전 평가 수행 (프롬프트 인젝션 성공률 대폭 감소)  


3.3.2 금지된 콘텐츠 (Disallowed Content)

� 문제점  

Deep Research는 웹 검색을 통해 더 많은 정보를 제공 가능  

하지만, 위험한 정보(예: 무기 제작, 범죄 행위) 제공 위험 증가  

� 해결책  

금지된 요청을 자동 거부하도록 모델 재학습  

출력 필터 및 블랙리스트 적용  

GPT-4o, OpenAI o1 등과 비교하여 응답 제어력 평가 수행  
Deep Research는 GPT-4o보다 금지된 콘텐츠 제공 가능성이 더 낮음    
하지만 여전히 추가적인 평가와 조정이 필요    


3.3.3 프라이버시 보호 (Privacy)

� 문제점  

Deep Research는 인터넷에서 다양한 정보를 결합하여 제공  

특정인의 공개된 정보를 조합하여 과도한 개인정보 노출 가능성 존재  

� 해결책  

개인정보 포함 가능성이 높은 요청을 거부하도록 조정  

추가적인 필터링 및 모니터링 시스템 구축  

200개 이상의 테스트 케이스를 활용한 평가 수행  


3.4 Preparedness 프레임워크 평가 (Preparedness Framework Evaluations)

Deep Research 모델은 기존 AI 모델과 비교했을 때 웹 검색을 통한 연구 수행 능력이 강화되었기 때문에, 기존 평가 방법만으로는 충분한 안전성 검증이 어렵다. 따라서 Preparedness 평가 프레임워크를 활용하여 새로운 위험 요소를 식별하고 대응책을 마련하였다.


3.4.1 웹 브라우징 기반 평가 오염 문제 해결 (Addressing Browsing-Based Contamination)

� 문제점  

AI 모델이 인터넷 검색을 활용하여 문제를 해결할 경우, 단순히 정답을 검색하는 방식으로 평가 점수가 인위적으로 높아질 가능성이 있음.  

특히, 웹에 평가 데이터가 유출된 경우, 모델이 실제 능력 없이 답을 찾아 점수를 높일 수 있음.  

� 해결책  

인터넷에서 찾을 수 없는 비공개 평가 데이터 활용  

브라우징을 차단한 상태에서도 평가 진행하여 비교 분석  

CTF(해킹 대회) 문제 해결 능력 평가 시, 검색을 통해 답을 찾은 경우 해당 데이터는 분석에서 제외  

� 결과  

Deep Research의 검색 기능이 평가 점수에 인위적인 영향을 주지 않도록 제어되었음.  

검색을 차단한 상태에서도 모델의 문제 해결 능력이 유지됨을 확인함.  


3.4.2 Preparedness 위험 완화 (Preparedness Mitigations)

Deep Research는 고위험 모델로 발전할 가능성이 있는 요소를 포함하고 있으므로, 사전 대응 조치가 필요했다.

� 도입된 안전 조치  

훈련 데이터 사전 필터링 : 민감한 정보(생화학 무기, 해킹 기법 등)를 포함하는 데이터 제거    

Deliberative Alignment 적용 : 모델이 스스로 안전 정책을 이해하고 적용하도록 학습    

보안 모니터링 시스템 강화 : CBRN(화학, 생물학, 방사선, 핵) 및 사이버 보안 위협 감지 시스템 도입    

사용자 정책 위반 감지 : 위험한 활동 감지 및 대응을 위한 AI 기반 콘텐츠 모니터링    

� 결과  

Deep Research는 "중간 위험(Medium Risk)" 모델로 분류되었으며, 추가적인 보완 조치가 필요함을 확인


3.4.3 사이버 보안 (Cybersecurity)

� 문제점  

Deep Research는 웹 검색과 Python 코드 실행 기능을 활용하여 보안 연구 수행 가능

하지만, 이를 악용하면 해킹 기술 개발 등에 사용될 위험이 있음  

� 해결책  

웹 브라우징을 통한 직접적인 코드 실행 차단  

CTF(해킹 대회) 문제 해결 능력 평가 후, 위험 요소 분석  

외부 보안 전문가와 협력하여 AI 기반 해킹 방어 가능성 연구  

� 결과  

Deep Research는 고급 보안 문제 해결 능력을 보유하지만, 자동화된 해킹에는 활용되지 않도록 설계됨  

중간 수준의 사이버 보안 위험이 존재하며, 지속적인 모니터링이 필요함  


3.4.4 화학 및 생물학적 위협 (Chemical and Biological Threat Creation)

� 문제점  

AI 모델이 생화학 무기 개발 방법을 제공할 가능성 존재  

특히, Deep Research는 웹 검색을 통한 정보 조합 능력이 뛰어나므로 위험도가 증가할 수 있음  

� 해결책  

생물학 관련 위험 데이터 차단 및 필터링 강화  

바이오리스크 전문가와 협력하여 모델이 특정 질문을 거부하도록 훈련  

실제 연구자가 모델을 악용할 가능성 분석 및 대응책 마련  

� 결과  

Deep Research는 전문가 수준의 생물학 연구를 지원할 수 있지만, 위협적인 정보 제공 가능성은 낮음  

그러나, 고급 사용자가 조작할 가능성이 있어 추가적인 모니터링 필요  


3.4.5 방사선 및 핵 위협 (Radiological and Nuclear Threat Creation)

� 문제점  

Deep Research는 핵무기 개발 및 방사선 위험 관련 연구에 사용될 가능성이 있음  

특히, 방사성 물질의 획득 및 사용과 관련된 조언을 제공할 위험 존재  

� 해결책  

핵무기 관련 질문 차단 및 필터링 강화  

핵물리학 전문가와 협력하여 모델이 관련 내용을 거부하도록 조정  

기존 AI 모델 대비, 추가적인 보안 조치 적용  

� 결과  

Deep Research는 핵무기 개발에 직접적인 도움을 줄 가능성이 낮음  

그러나, 관련 기술적 조언을 제공할 위험이 있어 지속적인 감시 필요  


3.4.6 설득 위험 (Persuasion)

� 문제점  

AI 모델이 사용자를 설득하여 특정 행동을 유도할 가능성 존재  

특히, 정치적 선전, 여론 조작, 심리적 조작 등에 사용될 위험 있음  

� 해결책  

모델이 특정 정치적 견해를 홍보하지 않도록 학습  

설득력이 강한 답변을 생성할 때, 객관적인 근거를 제공하도록 조정  

AI 기반 여론 조작 가능성 분석 및 대응 방안 마련  

� 결과  

Deep Research는 사람을 설득하는 능력이 높지만, 악용 가능성을 줄이기 위한 조치가 적용됨  

여전히 정치적 조작 및 대규모 설득 캠페인 가능성이 존재하므로 추가 연구 필요  


3.4.7 모델 자율성 (Model Autonomy)

� 문제점  

Deep Research는 스스로 연구를 수행하고 결론을 도출할 수 있음  

그러나, 자율적인 AI가 인간의 통제를 벗어날 가능성이 존재  

� 해결책  

모델이 자체적인 AI 연구 및 자기 개선(self-improvement)을 수행하지 못하도록 차단  

자율적인 행동을 감지하고 제한하는 시스템 구축  

AI 연구 가속화 가능성 분석 및 안전 기준 마련  

� 결과  

Deep Research는 일정 수준의 자율성을 갖지만, 자기 개선을 수행할 수 없음  

그러나, 더 강력한 AI로 발전할 경우 추가적인 안전 조치 필요  



4. 결론 및 향후 계획 (Conclusion and Next Steps)  


Deep Research는 강력한 연구 도구로, 웹 검색 및 데이터 분석을 통해 복잡한 문제를 해결할 수 있음.  

다양한 위험 요소(프라이버시 침해, 해킹 악용, 생물학적 위험 등)가 존재하지만, 이를 완화하기 위한 안전 조치가 적용됨.  

모델은 "중간 위험(Medium Risk)"으로 평가되었으며, 추가적인 모니터링 및 연구가 필요.  

향후 더 안전하고 신뢰할 수 있는 AI 시스템을 만들기 위해 지속적인 개선과 정책 강화가 이루어질 예정.  





Deep Research 효과적인 활용 가이드


1️⃣ Deep Research의 핵심 기능 이해하기

Deep Research는 기존 GPT 모델보다 강화된 웹 검색 및 데이터 분석 기능을 제공하며, 정보 검색 → 분석 → 보고서 작성의 다단계 연구 수행이 가능하다. 따라서 기존 GPT와는 다른 접근 방식이 필요하다.

기존 GPT vs. Deep Research 비교기존 GPT vs. Deep Research 비교

� 결론: Deep Research는 검색, 데이터 분석, 출처 제공이 강점이므로, 이를 적극 활용하는 방식으로 접근해야 한다.


2️⃣ Deep Research 활용을 위한 핵심 전략

1. 검색 최적화 – 질문을 명확하고 구체적으로 작성하기

Deep Research는 웹 검색을 기반으로 정보 분석을 수행하므로, 정확한 검색어 입력이 중요하다.  

❌ 나쁜 예시: "AI 윤리는 왜 중요할까?" → 너무 일반적  

✅ 좋은 예시: "최근 5년간 AI 윤리와 관련된 주요 정책 변화 및 학술 연구 요약해 줘."

� 팁:  

연도, 분야, 목적을 구체적으로 지정하면 더 정확한 정보를 얻을 수 있음.  

필요한 경우 "출처 포함해서 정리해 줘"라고 요청하여 신뢰성을 높일 수 있음.  


2. 다단계 연구 활용 – 검색 → 분석 → 보고서 작성 흐름 유지

Deep Research는 단순 답변을 제공하는 것이 아니라, 웹 검색을 기반으로 여러 단계를 거쳐 연구를 수행할 수 있다.

� 예시: "전기차 배터리 기술의 최신 연구 동향 분석"
✅ 단계별 진행 방식:  

"전기차 배터리 기술의 2023년 이후 연구 논문을 찾아줘."  

"찾은 논문의 주요 실험 결과를 정리해 줘."

"이 연구들이 전기차 산업에 미치는 영향을 분석해 줘."

"모든 내용을 포함한 요약 보고서를 작성해 줘."

Deep Research는 검색 결과를 기반으로 단계별로 연구할 때 가장 효과적임!


3. 데이터 분석 기능 활용 – Python 코드 실행 가능

Deep Research는 Python 코드 실행 기능을 지원하여, 데이터 분석 및 그래프 시각화를 수행할 수 있다.

� 활용 예시:
✅ "이 CSV 파일에서 평균값, 표준편차를 계산하고 시각화해 줘."
✅ "이 데이터를 바탕으로 트렌드 분석을 수행해 줘."

Deep Research는 단순한 텍스트 기반 응답을 넘어, 실제 데이터 분석까지 가능하므로 적극 활용할 것!


4. 신뢰성 검토 – 출처 확인 및 추가 검증하기

Deep Research는 기존 GPT와 달리 출처를 포함한 검색 결과 제공이 가능하지만, 정보의 정확성을 보장하는 것은 아니다. 따라서 반드시 출처를 검토하고 교차 검증하는 것이 중요하다.

� 신뢰성 검토 방법:
✅ "이 정보의 출처를 제공해 줘." → 출처 확인
✅ "다른 연구 결과와 비교해서 신뢰성을 평가해 줘." → 교차 검증

Deep Research가 제공하는 정보가 최신 및 신뢰할 수 있는지 검토하는 습관을 가지자!


5. 보안 및 제한 사항 이해 – 민감한 데이터 입력 금지

Deep Research는 프라이버시 보호 및 악의적 사용 방지 조치를 강화했지만, 사용자 스스로도 보안에 신경 써야 한다.

� 보안 원칙:
❌ 개인정보 입력 금지 (API 키, 비밀번호, 신상 정보)
❌ 위험한 요청 자제 (예: "해킹하는 방법 알려줘.")
✅ 안전한 연구 목적으로 활용 (데이터 분석, 기술 동향 조사 등)

Deep Research는 강력한 도구지만, 윤리적이고 합법적인 방식으로 사용해야 한다!


3️⃣ Deep Research 활용 예시                              

브런치 글 이미지 2

기존 GPT와 달리, Deep Research는 웹 검색을 기반으로 다단계 분석 및 데이터 처리를 수행할 수 있음!


결론: Deep Research를 효과적으로 활용하는 5가지 원칙

✅ 1. 검색 최적화: 명확하고 구체적인 검색어를 사용하라.
✅ 2. 다단계 연구 수행: 검색 → 분석 → 보고서 작성 흐름을 활용하라.
✅ 3. 데이터 분석 기능 활용: Python 코드 실행을 적극적으로 사용하라.
✅ 4. 정보 신뢰성 검토: 출처를 확인하고 교차 검증하라.
✅ 5. 보안 원칙 준수: 개인정보 및 민감한 정보를 입력하지 말라.

Deep Research는 단순한 AI 챗봇이 아니라, "연구 도구"로 활용할 때 가장 강력한 성능을 발휘한다!



여기저기서 Deep Research에 대한 좋은 피드백들을 보며 자연스럽게 호기심이 생겼다. 단순한 검색 도구가 아니라, 웹을 탐색하고 정보를 분석하며 보고서까지 작성한다니. 기왕이면 제대로 써보고 싶다는 생각에, ‘지피지기면 백전백승’이라는 마음으로 시스템 카드를 펼쳤다. 새로운 기술을 제대로 활용하려면 먼저 원리를 알아야 하니까.

그런데 읽다 보니, 이건 연구자로서 논문을 찾아보고, 데이터를 분석하고, 결론을 도출하는 과정과 크게 다르지 않았다. 인간이 수행하는 작업을 그대로 따라 한다는 점에서 더 놀랍고, 그래서 더 무섭기도 했다. 단순한 AI 보조 도구를 넘어, 점점 더 깊은 연구 영역으로 들어오고 있다는 느낌이 들었다.

그나저나, 업무 매뉴얼도 이렇게 꼼꼼하게 읽어본 적이 없는데 어쩌다가 GPT 시스템 카드까지 정독하고 있는 모습이라니......
매거진의 이전글 AI 혁신, 구성원은 이미 하고 있다. 하지만 리더는?

브런치 로그인

브런치는 최신 브라우저에 최적화 되어있습니다. IE chrome safari