AI 서비스 기획 공부
1. 모두를 위한 AI
AI 프로젝트를 선택하는 방법
AI 프로젝트 전 보통 실사를 수행함.
실사 : 바라는 것이 진짜인지 시간을 들여 확인하는 의미
좋은 AI 프로젝트 = 실현 가능한 프로젝트 = AI가 할 수 있는 작업과 사업에 대한 가치의 교차점.
확인하기 위해서는?
1. 기술적 실사 = 실제로 실현 가능한지 확인
전문가에 의뢰, 관련 내용 찾아보기
원하는 수준의 성능을 위해 얼마나 많은 데이터가 필요한지, 어떻게 구할 것인지
엔지니어링 타임라인으로 얼마나 걸리는지, 얼마나 많은 사람이 필요한지
2. 기업 실사 = 사업성 있는지 확인
많은 인공지능 프로젝트들은 비용 절감을 통해 가치 창출
EX. 업무 자동화 또는 시스템 효율성 극대화
또는 수익 증가 기여
EX. 결제 유도, 새 제품이나 새 사업라인 위한 AI 시스템 구축
=> 목표 달성에 도움을 주는지 보는 것.
3. + 윤리적 실사 => 더 나은 사회를 만들 수 있는지
직접 구축할 것인가, 구매할 것인가 (인하우스 혹은 아웃소싱 가능)
머신러닝과 달리 데이터과학 프로젝트는 대부분 인하우스 진행 (비즈니스와 긴밀히 연결되어 있기에)
*** 산업 분야 표준 제품을 구축하는 것을 피하라
특수화 되어 있는 것은 직접 구축하거나 만들 수 있다.
하지만 산업 표준 제품은 다른 회사(스타트업, 빅테크, 오픈소스 등 업계 표준 해결책을 구축하는 회사)가 만듦. "기차 앞에서 뛰지 마라"
AI 팀과 협력
어떻게 할 수 있는가?
1. AI 팀이 프로젝트에 대한 승인 기준을 지정하게 됨.
정확도(세트)를 측정한 데이터 세트를 제공해야 한다. (평가 세트, Test set)
테스트셋이 너무 클 필요는 없음.
승인 기준 지정 시 승인 기준을 구체화 시켜야 함.
AI 팀이 데이터를 바라보는 시각
1) 학습 데이터 셋
A 에서 B로의 일부 맵핑을 사용하여
입력 값 A를 사용할 수 있는 소프트웨어로
대응하는 출력 값 B가 무엇인지 알아내기 위해 필요
학습 세트는 기계 학습에 대한 입력으로
A에서 B까지의 매핑이
무엇인지 알 수 있게 함
2) 테스트 데이터 셋
정확도를 측정하기 위한 데이터 셋이고,
1세트가 아니라 테스트의 종류에 따라 2~3..세트 가 될 수도 있음.
+ AI 소프트웨어가 100% 정확할 것이라고 기대하지 말자
1. 오늘날 머신러닝 기술을 매우 강력함에도 한계가 있음
2. 데이터 부족"훈련데이터" 없는 경우 정확도 높아질 수 없음
3. 데이터 엉망이거나 잘못 표기, 모호할 수 있음.
=> 엔지니어들과 합리적인 정확도 찾는 것을 춴.
AI 팀을 위한 기술 도구
오픈소스 프레임워크
=> 머신러닝 프레임워크
- PyTorch
- TensorFlow
- Hugging Face
- PaddlePaddle
- Scikit-learn
- R
=> Research publications (ai 기술의 혁신 무료로 게시됨.)
- Arxiv
=> Open source repositories
- GitHub
-> 적절한 라이선스가 부여된 오픈소스 소프트웨어 사용하면 훨 빠르게 작업 진행 가능
CPU GPU TPU
CPU => Computer processor (Central Processing Unit)
GPU => Graphics Processing Unit
그래픽 처리 위해 만들어짐. 하드웨어 맹 강력, 초대형 신경망 또는 초대형 딥러닝 알고리즘 구축 시 사용 됨.
TPU => Tensor Processing Unit
데이터 분석 및 딥러닝용 하드웨어
클라우드 vs 온프레미스
클라우드 배포 => 다른 사람 서비스 사용하여 계산 수행하기 위해 aws, euro, gcp.. 컴퓨팅 서버 임대하는 경우
온프레미스 배포 => 자체 컴퓨팅 서비스를 구입하여 회사에서 로컬로 서비스를 실행하는 것
장단점이 있음
엣지 배포
엣지 배포라는 놈이 헷갈렸는데
디바이스마다 장착된 게 엣지임.
온프레미스는 결국 기업의 서버에 저장되는거고.
이해 완~!~