메뉴
brunch
매거진
AI비서 다가오는 미래
#챗GPT A부터 Z까지
by
글로벌연합대학교 인공지능융합소장 이현우교수
Jun 15. 2023
#챗GPT A부터 Z까지
#챗GPT A부터 Z까지 #챗GPT A부터 Z까지
1 사용자를 모으는 속도
한 달 반 1억 5천만 명의 사용자 1백만 명 유료 결제
2천만 달러/월
The AI Arms Race is Changing Everything
*군비경쟁, 학습데이터, 매개변수 1750억 개
5조 개의 문서 A100 GPU 10000장 썼다
교육
1억 달러 이상 들어갔다
2 충분히 발달한 과학 기술은 마법과 구분할 수
없다 -아서 클라크-
엔비디아 GPU V100 GPU
125 테라플롭스(TFLOPS)
1초에 125조 실수 연산
A100 GPU 텐서코어
312 테라플롭스(TFLOPS)
딥러닝 학습과 추론에서 GPU V100 대비
연산능력 20배
*GPT4 A100 만개를 사용했다
몬테카를로 알고리듬
한 변의 길이가 2m인 정사각형에 내접한 원의
넓이를 구하라
반지름의
제곱 ×원주율(π)
'고양이 사진을 가려내라'
전문가시스템 (인공지능)
사람이 일일이 특징을 넣었다
*인공지능 겨울 (변수 많이 넣으면 점수가 낮아짐)
1 역사~ 수학적 Exclusive OR 문제
2 은닉층많아지면 기울기소실 일어난다
'딥러닝
다른 점들은 니가
찾아서 점수를 매겨라
*수천만 개의 매개변수
. 대단히 잘 맞춘다
. 왜 잘 맞추는지를 모른다
.'잠재된 패턴'을
찾아낸다
. 설명할 수 있는 AI
매개변수 1000개 가중평균
1개
1000만 개 매개변수 가중평균
왜 정확하게 맞추지는 알 수 없다
사람들이 일일이 열어서 설명할 수 없다
. 잠재된 패턴이 있는 모든 곳
프로그래밍~노골적인 패턴
법률사무직
저널리즘~경기결과, 날씨
광고/마케팅
주식거래
그래픽디자인
. GPT 대화형
G Generative 생성하는 인공지능,
p pre-trained 사전학습한
. LLM(거대언어모델)
. 3천억
단어, 5조 개의 문서
. 파운데이션 모델(모든 것에 기반이 된다)
단어에 숫자를 붙인
것(토큰) 단어와 접두사
붙인다.
. T Transformer 딥러닝모델
다음 단어가
뭔지를 확률로 예측
어텐션:핵심단어를 파악
Reinforcement Learning from human Feedback
사람이 질문과 답변을
5만 개 문서를 학습시키고
AI 가 답을 말하게 답을 보고 점수를 주어서 학습
GPT 4 -미국변호사 시험 상위 10% 통과
생물학 올림피아드 상위 1%
SAT 수학 800점 만점에 700점
다국어지원 가능
멀티모럴(시각)
. 이미지를 이해한다~왜
웃기는지 이유를 설명한다
지능이 있다
. 할루시네이션(환각)
*가짜 논문 인용
미국 응급의학과 전문의 증세를 적고 진단 요청 진
단 하나 뒤 근거를 묻자 참고문헌의 정확한 출처를
요구하자 DOI(고유번호)까지
첨부, 그러나 모두
가짜!
.
모차르트의 철로협주곡 묻자 궤헬번호까지
답을 함
모차르트 철로협주곡 남은 악보가 없어
가짜
. 전체의 20%가 할루시네이션 오류/미국 벤처
(GOT IT AI)
*API(Application Programming interface)
. 프로그램 간의 약속. API로 요청을 하면 정해진
형식으로 데이터를
주거나, 정해진 행동(처리)을
한다
. chat GPT API공개
. 마이크로소프트 워드, 엑셀, 파워포인트
. 카카오톡 친구 등 메신저
. 회사 그룹웨어...
*플러그인(Third-party plug-ins)
. 챗Gpt
가 외부 프로그램을 불러와서 쓸 수 있게
하는 것
. 최
신 데이터 불러오기
. 계산하기
. 예약하기
. 개인 기업의 데이터 활용하기
GPT안에서 모든 것을 할 수 있다
그것을 위한 AI가 있어!
유명했던 애플의 광고문구
"There's An APP for That"의 비전
스탠퍼드대학 라마, 알파카 그리고 스테이블 디퓨전
페이스북에서 LLAMA(라마) 오픈소스로 발표
매개변수
70억 개 1750억 개인 GPT3,5와 같은
성능을 보인다. 암흑에서 인공지능
만개, 십만 개
콘텐츠 생성하게 되었다 블로거 10개 생성
*여러 가지 우려들
. 게리마커스의 다섯 가지 우려
. 극단주의자들 허위정보 유출 민주주의 위기
. 환각의 잘못된 의료정보 생성
. 콘텐츠 팜들이 광고 출력을 위해 사실과 상관없는 자
극적인 내용을 생성할 것이다
. 챗봇은 일부 사용자들에게 감정적인 고통을 유발할
수 있다
. 남용으로 인해 웹포럼 피어 리뷰 사이트를 붕괴시킬
수 있다
(네이버, 다음포털)
. 얀
르큔, 제프 핸륜, 스튜어트 러셀 우려를 표한다
베포 과정에서 규율이 필요하다는 의견이 나왔다
*Al가 그린 그림이 많아질수록 AI 성능은 나빠진다
. 일본 이화학연구소 하타야 튜이치로 연구팀의 대규모
생성 모델로 인한 향후 데이터 세트 손상 논문
. AI 생성 이미지를 0%,20%,40%,80% 의 섞은 데이터
세트를 만들어 AI 이미지 프로그램을 부여
. 원본 이미지로만 학습한 AI가 만든 1000개의 이미지
중 75.6%가 이전에 보지 못했던 새로운 이미지
. 이 비율은 AI가 생성한 이미지가 많이 섞일수록
낮아진다
. AI가 생성한 이미지가 20% 썩인 데이터로 학습한
AI는 74.5% 40%에서는 72.6% 80%에서는
65.3 %로 낮아짐
*표절작이 넘쳐 접수를 무기한 중단합니다
*인터넷 생태계의 황폐화
. 오리지널의 실종
무엇이 원본인가?
학습데이터의 오염
. 클릭 하이재킹
훌륭한 요약이 있는데 링크 클릭을 하지 않음
수익원을 잃은 원본 웹사이트 몰락
*자연 독점
. 2020년 12월 구글 윤리연구가 Timnit Gebru
회고 발표하지 말라는 논문 발표
. 확률적 앵무새의 위험성에 대하여
언어 모델이 너무 커도 될까
대규모 언어 모델의 네 가지 주요 위험에 대한 개요
. 환경 및 재정적 비용
대규모 AI 모델을 구축하고 유지하는 데 필요한
엄청난 자원은 부유한 조직에 도움이 되는 반면
기후 변화는 소외된 지역사회에 가장 큰 타격을
준다
. 방대한 데이터 이해하기 어려운 모델
어떤 왜곡된 내용 편견이 들어가 있을지 모른다
인터넷에 대한 접근성이
낮고, 온라인에서 언어적
영향력이 작은 국가와 민족의 언어와 규범을 포착
하지 못할 것 그 결과 AI가 생성한 언어는 가장
부유한 국가와 커뮤니티의 관행을 반영하여 동질
화될 것이다
. 연구 기회비용
대규모 언어모델의 한계를 알면서도
계속한다
*오염된 데이터
. 이미지넷
1백만 개가 넣는 데이터 대표적인 딥러닝
학습데이터
재소자, 낙오자, 실패자, 위선자, 루저, 우울증 환자
허영주머니,
정신분열증 환자, 이류 인간....
2019년 2832개 '사람' 범주중에서 1593개 를
안전하지 않음 간주하여 관련 이미지 삭제
여전히 남아있다
미시경제학자, 부교수, 조교수
젠더문제, 성차별문제~아마존의 채용시스템
유럽연합 인공지능 사람의 평가할 수 없다
* 지적재산권과 프라이버스 침해
. 누구도 OpenAI로부터 우리 개인정보를 사용해도
괜찮냐는 질의를 받은 적이 없음
. 개인정보를 리뷰할 절차가 없음
"잊힐 권리"
. 저작권 침해 사례가 실제로 발생함
. 인터넷에서 수집한 데이터에 대해 어떠한
대가도
지불하지 않음
* 리터러시에 대한 격차 확대
. 사상 유례없는 생산성 격차의 초입
. 전기 기술 아래에서 인간의 전체 비즈니스는
'배우는 것'과 '아는 것'으로 되어가고 있다
. 모든 형태의 고용이 '급료를 받아 가며 배우는
것이 되고 모든 형태의 부가 정보의 이동에서
생기게 된다 <미디어의 이해> 마틴 맥루헌
*정신에 대한 실험은?
몸에 대한 실험은 규제 정신에 대한 규제는 없다
*소셜미디어에서의 실패
2007년에서 2015년 사이 15세에서 19세 사이
자살률 2배 증가 미 질병통제예방센터(CDC)
페이스북은 알고 있었다!
수만 명에 대한 설문조사를 포함한 광범위한
연구결과에 따르면 인스타그램의 경우 심각한
문제가 있다.
인스타그램의 추천 알고리즘이 부추이는
시스템이다 내부 리포트에서 지적 WSJ특종
. 우리 후손들은 우리가 아직 잘 이해하지 못하는 어
떤 끔찍한 일을 했다는 것을
알게 될 것입니다
. 현재 세대의 AI 도구가 아직은 그렇게 무섭지
않지만 잠재적으로 무서운 도구에서 그리 멀지
않았다고 생각합니다.
. 인공지능 도구의 사회통합이 바쁘게 일어날 것이
며, 세상이 적응할 시간이 필요합니다
. 인공일반지능(AGI) 만약 고장이 나면 무엇인가
다른 조치가 필요하다 이 때문에 특정회사가 AI를
소유하는 것은 위험하다 -샘 알트먼
오픈 AI CEO
* 잘 활용하려면(prompt Engineer)
1 다양한 작업에 대한 사례를 발견 테스트 및 문서화
2 사용자가 자신의 필요에 맞는 것을 검색하는 데 도움이 되는 쉬운 가이드와 함께 다양한 작업을 할 수행하기 위해 고품질 프롬프트 또는 프롬프트 체인 라이브러리 구축
3 고객에게 신속한 엔지니어링 기술을 가르치는 튜토리얼과 대화형 도구를 구축
* prompt 잘 쓰는 법
차근차근 생각해 봅시다
먼저 논리적으로 생각해 봅시다
이 문제를 여러 단계로 나누어 해결해 봅시다
현실적으로 차근차근 생각해 봅시다
탐정처럼 차근차근 생각해 봅시다
답을 찾기 전에 생각해 봅시다
증명한 다음 답을 합시다
*prompt를 잘 쓰는 법
구체적으로
질문, 차근차근 질문할 때
앞으로 한 이야기를
일깨워준다
틀린 부분을 수정하며~ 좋은 코치(선생님)
*GPT 항상 주의할 점
. 언제 거짓말을 할지 모른다
. 링크, 관련 논문, 숫자는 반드시 출처 확인
. 저작권 이슈 점검
. 프라이버시 점검
. 내부 기밀데이터를 올리면 안 된다
* 가장 가까운 것을 알려주지 정답이 아니다
*성공사례
* 등대공장 포스코의 사례
. 세계경제포럼(World Economic Form)
포스코를
AI, 빅데이터, IOT 등을 성공적으로
적용한 '등대공장'으로 선정
. 원료 추가
투입 없이 하루 240톤의 쇳물 더 생산
.
대학, 중소기업 스타트업 등과 함께 '산학연 협력
체계
. AI 전문기업과
협업, 내부 데이터 공용
. 포항공대와 손잡고 '포스코그룹 인공지능 전문가
과정 개설
. 포항공대 교수들이 포스코 사내 인공지능 전문가
양성
*포스코데이터 공개, AI를 통해 최적화 시킴
* 시간이 걸린다
회사대표 인공지능 90% 필요하다
실행하는 대표 17% 실행, 성공 2%
* 데이터정제 작업 80% ~ 데이터노이즈를 줄어야
하는 노력이 필요하다, 활용목적과
문제를 정확하게 인식해야 AI를 활용할 수 있다
-박태웅의장 강의에서-
keyword
AI
데이터
스타트업
12
댓글
댓글
0
작성된 댓글이 없습니다.
작가에게 첫 번째 댓글을 남겨주세요!
브런치에 로그인하고 댓글을 입력해보세요!
글로벌연합대학교 인공지능융합소장 이현우교수
직업
칼럼니스트
시인,석좌교수 메타ai뉴스 논설위원 글로벌연합대학 인공지능융합연구소장 미) 버지니아대학교 부총장 전)한국열린사이버대학교 인공지능융합연구소장 문학평론가 주)메타인스 대표
팔로워
377
제안하기
팔로우
매거진의 이전글
*시니어 GPT 도우미센터
#블로그 & 첫 GPT 활용 방법
매거진의 다음글