#챗GPT A부터 Z까지


#챗GPT A부터 Z까지 #챗GPT A부터 Z까지

1 사용자를 모으는 속도

한 달 반 1억 5천만 명의 사용자 1백만 명 유료 결제

2천만 달러/월

The AI Arms Race is Changing Everything

*군비경쟁, 학습데이터, 매개변수 1750억 개

5조 개의 문서 A100 GPU 10000장 썼다

교육 1억 달러 이상 들어갔다

2 충분히 발달한 과학 기술은 마법과 구분할 수

없다 -아서 클라크-

엔비디아 GPU V100 GPU

125 테라플롭스(TFLOPS)

1초에 125조 실수 연산

A100 GPU 텐서코어

312 테라플롭스(TFLOPS)

딥러닝 학습과 추론에서 GPU V100 대비

연산능력 20배

*GPT4 A100 만개를 사용했다

몬테카를로 알고리듬

한 변의 길이가 2m인 정사각형에 내접한 원의

넓이를 구하라

반지름의 제곱 ×원주율(π)

'고양이 사진을 가려내라'

전문가시스템 (인공지능)

사람이 일일이 특징을 넣었다

*인공지능 겨울 (변수 많이 넣으면 점수가 낮아짐)

1 역사~ 수학적 Exclusive OR 문제

2 은닉층많아지면 기울기소실 일어난다

'딥러닝

다른 점들은 니가 찾아서 점수를 매겨라


*수천만 개의 매개변수

. 대단히 잘 맞춘다

. 왜 잘 맞추는지를 모른다

.'잠재된 패턴'을 찾아낸다

. 설명할 수 있는 AI

매개변수 1000개 가중평균

1개 1000만 개 매개변수 가중평균

왜 정확하게 맞추지는 알 수 없다

사람들이 일일이 열어서 설명할 수 없다

. 잠재된 패턴이 있는 모든 곳

프로그래밍~노골적인 패턴

법률사무직

저널리즘~경기결과, 날씨

광고/마케팅

주식거래

그래픽디자인


. GPT 대화형

G Generative 생성하는 인공지능,

p pre-trained 사전학습한

. LLM(거대언어모델)

. 3천억 단어, 5조 개의 문서

. 파운데이션 모델(모든 것에 기반이 된다)

단어에 숫자를 붙인 것(토큰) 단어와 접두사

붙인다.

. T Transformer 딥러닝모델

다음 단어가 뭔지를 확률로 예측

어텐션:핵심단어를 파악

Reinforcement Learning from human Feedback

사람이 질문과 답변을 5만 개 문서를 학습시키고

AI 가 답을 말하게 답을 보고 점수를 주어서 학습

GPT 4 -미국변호사 시험 상위 10% 통과

생물학 올림피아드 상위 1%

SAT 수학 800점 만점에 700점

다국어지원 가능

멀티모럴(시각)

. 이미지를 이해한다~왜 웃기는지 이유를 설명한다

지능이 있다

. 할루시네이션(환각)

*가짜 논문 인용

미국 응급의학과 전문의 증세를 적고 진단 요청 진

단 하나 뒤 근거를 묻자 참고문헌의 정확한 출처를

요구하자 DOI(고유번호)까지 첨부, 그러나 모두

가짜!

. 모차르트의 철로협주곡 묻자 궤헬번호까지

답을 함 모차르트 철로협주곡 남은 악보가 없어

가짜

. 전체의 20%가 할루시네이션 오류/미국 벤처

(GOT IT AI)

*API(Application Programming interface)

. 프로그램 간의 약속. API로 요청을 하면 정해진

형식으로 데이터를 주거나, 정해진 행동(처리)을

한다

. chat GPT API공개

. 마이크로소프트 워드, 엑셀, 파워포인트

. 카카오톡 친구 등 메신저

. 회사 그룹웨어...




*플러그인(Third-party plug-ins)

. 챗Gpt가 외부 프로그램을 불러와서 쓸 수 있게

하는 것

. 최신 데이터 불러오기

. 계산하기

. 예약하기

. 개인 기업의 데이터 활용하기


GPT안에서 모든 것을 할 수 있다

그것을 위한 AI가 있어!

유명했던 애플의 광고문구

"There's An APP for That"의 비전

스탠퍼드대학 라마, 알파카 그리고 스테이블 디퓨전

페이스북에서 LLAMA(라마) 오픈소스로 발표

매개변수 70억 개 1750억 개인 GPT3,5와 같은

성능을 보인다. 암흑에서 인공지능 만개, 십만 개

콘텐츠 생성하게 되었다 블로거 10개 생성


*여러 가지 우려들

. 게리마커스의 다섯 가지 우려

. 극단주의자들 허위정보 유출 민주주의 위기

. 환각의 잘못된 의료정보 생성

. 콘텐츠 팜들이 광고 출력을 위해 사실과 상관없는 자

극적인 내용을 생성할 것이다

. 챗봇은 일부 사용자들에게 감정적인 고통을 유발할

수 있다

. 남용으로 인해 웹포럼 피어 리뷰 사이트를 붕괴시킬

수 있다 (네이버, 다음포털)

. 얀 르큔, 제프 핸륜, 스튜어트 러셀 우려를 표한다

베포 과정에서 규율이 필요하다는 의견이 나왔다


*Al가 그린 그림이 많아질수록 AI 성능은 나빠진다

. 일본 이화학연구소 하타야 튜이치로 연구팀의 대규모

생성 모델로 인한 향후 데이터 세트 손상 논문

. AI 생성 이미지를 0%,20%,40%,80% 의 섞은 데이터

세트를 만들어 AI 이미지 프로그램을 부여

. 원본 이미지로만 학습한 AI가 만든 1000개의 이미지

중 75.6%가 이전에 보지 못했던 새로운 이미지

. 이 비율은 AI가 생성한 이미지가 많이 섞일수록

낮아진다

. AI가 생성한 이미지가 20% 썩인 데이터로 학습한

AI는 74.5% 40%에서는 72.6% 80%에서는

65.3 %로 낮아짐


*표절작이 넘쳐 접수를 무기한 중단합니다

*인터넷 생태계의 황폐화

. 오리지널의 실종

무엇이 원본인가?

학습데이터의 오염

. 클릭 하이재킹

훌륭한 요약이 있는데 링크 클릭을 하지 않음

수익원을 잃은 원본 웹사이트 몰락


*자연 독점

. 2020년 12월 구글 윤리연구가 Timnit Gebru

회고 발표하지 말라는 논문 발표

. 확률적 앵무새의 위험성에 대하여

언어 모델이 너무 커도 될까

대규모 언어 모델의 네 가지 주요 위험에 대한 개요

. 환경 및 재정적 비용

대규모 AI 모델을 구축하고 유지하는 데 필요한

엄청난 자원은 부유한 조직에 도움이 되는 반면

기후 변화는 소외된 지역사회에 가장 큰 타격을

준다

. 방대한 데이터 이해하기 어려운 모델

어떤 왜곡된 내용 편견이 들어가 있을지 모른다

인터넷에 대한 접근성이 낮고, 온라인에서 언어적

영향력이 작은 국가와 민족의 언어와 규범을 포착

하지 못할 것 그 결과 AI가 생성한 언어는 가장

부유한 국가와 커뮤니티의 관행을 반영하여 동질

화될 것이다


. 연구 기회비용

대규모 언어모델의 한계를 알면서도 계속한다


*오염된 데이터

. 이미지넷

1백만 개가 넣는 데이터 대표적인 딥러닝

학습데이터

재소자, 낙오자, 실패자, 위선자, 루저, 우울증 환자

허영주머니, 정신분열증 환자, 이류 인간....

2019년 2832개 '사람' 범주중에서 1593개 를

안전하지 않음 간주하여 관련 이미지 삭제

여전히 남아있다 미시경제학자, 부교수, 조교수

젠더문제, 성차별문제~아마존의 채용시스템

유럽연합 인공지능 사람의 평가할 수 없다


* 지적재산권과 프라이버스 침해

. 누구도 OpenAI로부터 우리 개인정보를 사용해도

괜찮냐는 질의를 받은 적이 없음

. 개인정보를 리뷰할 절차가 없음 "잊힐 권리"

. 저작권 침해 사례가 실제로 발생함

. 인터넷에서 수집한 데이터에 대해 어떠한 대가도

지불하지 않음



* 리터러시에 대한 격차 확대

. 사상 유례없는 생산성 격차의 초입

. 전기 기술 아래에서 인간의 전체 비즈니스는

'배우는 것'과 '아는 것'으로 되어가고 있다

. 모든 형태의 고용이 '급료를 받아 가며 배우는

것이 되고 모든 형태의 부가 정보의 이동에서

생기게 된다 <미디어의 이해> 마틴 맥루헌


*정신에 대한 실험은?

몸에 대한 실험은 규제 정신에 대한 규제는 없다

*소셜미디어에서의 실패

2007년에서 2015년 사이 15세에서 19세 사이

자살률 2배 증가 미 질병통제예방센터(CDC)

페이스북은 알고 있었다!

수만 명에 대한 설문조사를 포함한 광범위한

연구결과에 따르면 인스타그램의 경우 심각한

문제가 있다.

인스타그램의 추천 알고리즘이 부추이는

시스템이다 내부 리포트에서 지적 WSJ특종

. 우리 후손들은 우리가 아직 잘 이해하지 못하는 어

떤 끔찍한 일을 했다는 것을 알게 될 것입니다

. 현재 세대의 AI 도구가 아직은 그렇게 무섭지

않지만 잠재적으로 무서운 도구에서 그리 멀지

않았다고 생각합니다.

. 인공지능 도구의 사회통합이 바쁘게 일어날 것이

며, 세상이 적응할 시간이 필요합니다


. 인공일반지능(AGI) 만약 고장이 나면 무엇인가

다른 조치가 필요하다 이 때문에 특정회사가 AI를

소유하는 것은 위험하다 -샘 알트먼 오픈 AI CEO


* 잘 활용하려면(prompt Engineer)

1 다양한 작업에 대한 사례를 발견 테스트 및 문서화

2 사용자가 자신의 필요에 맞는 것을 검색하는 데 도움이 되는 쉬운 가이드와 함께 다양한 작업을 할 수행하기 위해 고품질 프롬프트 또는 프롬프트 체인 라이브러리 구축

3 고객에게 신속한 엔지니어링 기술을 가르치는 튜토리얼과 대화형 도구를 구축


* prompt 잘 쓰는 법

차근차근 생각해 봅시다

먼저 논리적으로 생각해 봅시다

이 문제를 여러 단계로 나누어 해결해 봅시다

현실적으로 차근차근 생각해 봅시다

탐정처럼 차근차근 생각해 봅시다

답을 찾기 전에 생각해 봅시다

증명한 다음 답을 합시다

*prompt를 잘 쓰는 법

구체적으로 질문, 차근차근 질문할 때

앞으로 한 이야기를 일깨워준다

틀린 부분을 수정하며~ 좋은 코치(선생님)


*GPT 항상 주의할 점

. 언제 거짓말을 할지 모른다

. 링크, 관련 논문, 숫자는 반드시 출처 확인

. 저작권 이슈 점검

. 프라이버시 점검

. 내부 기밀데이터를 올리면 안 된다

* 가장 가까운 것을 알려주지 정답이 아니다


*성공사례

* 등대공장 포스코의 사례

. 세계경제포럼(World Economic Form)

포스코를 AI, 빅데이터, IOT 등을 성공적으로

적용한 '등대공장'으로 선정

. 원료 추가 투입 없이 하루 240톤의 쇳물 더 생산

. 대학, 중소기업 스타트업 등과 함께 '산학연 협력

체계

. AI 전문기업과 협업, 내부 데이터 공용

. 포항공대와 손잡고 '포스코그룹 인공지능 전문가

과정 개설

. 포항공대 교수들이 포스코 사내 인공지능 전문가

양성

*포스코데이터 공개, AI를 통해 최적화 시킴


* 시간이 걸린다

회사대표 인공지능 90% 필요하다

실행하는 대표 17% 실행, 성공 2%

* 데이터정제 작업 80% ~ 데이터노이즈를 줄어야

하는 노력이 필요하다, 활용목적과

문제를 정확하게 인식해야 AI를 활용할 수 있다


-박태웅의장 강의에서-

keyword
매거진의 이전글*시니어 GPT 도우미센터