- Big Data
- Parallel Computing Power
- Pre-Training
- Artificial Neural Network
파이프라인(pipeline) 또는 데이터 파이프라인(data pipeline)
한 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조를 가리킨다. 이렇게 연결된 데이터 처리 단계는 한 여러 단계가 서로 동시에, 또는 병렬적으로 수행될 수 있어 효율성의 향상을 꾀할 수 있다. 각 단계 사이의 입출력을 중계하기 위해 버퍼가 사용될 수 있다.
End-to-End Deep Learning
- 딥러닝은 '종단간 기계학습(end-to-end deep learning)' 이라고도 불린다.
- 여기서 '종단간' 은 처음부터 끝까지라는 의미로,
- 입력에서 출력까지 '파이프라인 네트워크' 없이 한 번에 처리한다는 뜻이다.
- 파이프라인 네트워크 : 전체 네트워크를 이루는 부분적인 네트워크
- 신경망에 너무 많은 계층의 노드가 있거나, 메모리가 부족할 경우 사용할 수 없다.
- 또한, 문제가 복잡할 수록, '전체 네트워크' 를 '파이프라인 네트워크' 로 나눠서 해결하는 것이 더 효율적일 때도 있다.
- 데이터의 정보가 나눠진 각각의 파이프라인에 더 적합하게 사용될 수 있기 때문이다.
모듈(module)
= 프로그램을 구성하는 구성 요소로, 관련된 데이터와 함수를 하나로 묶은 단위
데이터 전처리(Pre-processing)
= 데이터 분석을 위해 수집한 데이터를 분석에 적합한 형태로 가공하는 과정
- 불필요한 데이터 제거한다.
- 결측치나 이상치를 처리하여 데이터 질을 향상한다.
- 가공된 데이터는 분석 모델을 구축하고 결과를 도출하는 데에 더욱 유용하게 활용될 수 있다.
스탠드 얼론(Stand Alone)
= 자립, 다른 무언가의 특별한 도움 없이도 스스로 할 수 있다는 뜻
- 웹고트/웹울프 서버를 구동하기 위해서는 도커 방식과 스탠드 얼론 방식을 이용할 수 있다.
- 스탠드 얼론 방식은 서버 파일 자체로 완전하게 구동한다는 개념(군더더기 없이도 충분히 구색을 갖추었다는 의미)
- 도커 방식은 도커라는 가상화 소프트웨어의 도움을 받아 구동한다는 차이가 있습니다.
AI Pipeline
Raw Data > Data Pre-processing > Prepated Data > Apply Algorithms(Iterate until data is ready) >
Apply Algorithms > Candidate Model(Iterate for best model) > Chosen Model > Service
데이터 레이블링(데이터 라벨링)
- 데이터 레이블링 또는 데이터 어노테이션은 머신 러닝(ML) 모델을 개발할 때 수행하는 전처리 단계의 일부
- 데이터 레이블링을 하려면 원시 데이터(즉, 이미지, 텍스트 파일, 비디오)를 식별한 다음 해당 데이터에 하나 이상의 레이블을 추가하여 모델을 위한 컨텍스트를 지정
- 이를 통해 머신 러닝 모델은 정확한 예측을 수행할 수 있다.
- 데이터 레이블링은 컴퓨터 비전과 자연어 처리(NLP)를 포함한 다양한 머신 러닝 및 딥 러닝 적용사례를 뒷받침
Digital Transformation
- “새로운 고객 경험을 창출하기 위해 사업 모델, 제품과 서비스, 프로세스(운영 방식), 정책∙제도∙문화(경영 방식) 등 사업 체계 전반을 디지털 기술을 활용해 바꾸는 것”
- 디지털 전환이란 ‘전통적 기업이 디지털 기업으로 전환하는 것’, 그 전환의 과정이다.
정형데이터(Structured Data/Refining Data)
- 정형 데이터는 미리 정해 놓은 형식과 구조에 따라 저장되도록 구성하여 고정된 필드에 저장된 데이터입니다. 지정된 행과 열에 데이터가 구별되어 입력되어 있으며 관계형 데이터 베이스(RDMS)의 테이블 형태로 저장됩니다. 정해진 형식과 저장 구조를 바탕으로 손쉽게 데이터에 대한 부분 검색 및 선택, 갱신, 삭제 등의 연산을 수행할 수 있어 주로 정형화된 업무 또는 서비스에 사용합니다.
비정형데이터(UnStructured Data)
- 비정형 데이터는 정의된 구조가 없는 동영상 파일, 오디오 파일, 사진, 보고서, 메일 본문 등과 같이 정형화되지 않은 데이터입니다. 정형 데이터와 반대로 형태가 없고 연산할 수 없는 데이터입니다.
- 비정형 데이터는 데이터 구조가 없어 내용에 대한 질의 처리를 할 수 없으므로 데이터 특징을 추출하여 반정형, 또는 정형 데이터로 변환하는 전처리 과정이 필요합니다.
- 페이스북, 트위터 등 웹에서 폭발적으로 생성되고 있는 비정형 데이터는 그 내용을 통해 비즈니스 미래를 예측할 수 있다는 점에서 빅데이터 시대의 주목을 받고 있습니다.
반정형데이터(Semi-Structured Data)
- 반정형 데이터는 데이터의 구조 정보를 데이터와 함께 제공하는 파일 형식의 데이터로, 데이터의 형식과 구조가 변경될 수 있는 데이터입니다.
- 정형 데이터와 같이 테이블의 행과 열로 구조화되어 있지는 않으나 스키마 및 메타데이터 특성을 가지고 있으며, 주로 XML, HTML, JSON 등의 파일 형태로 저장됩니다.
Deep learning 프로젝트 제약조건?
- 데이터가 있는가?
- 문제를 해결할 수 있는 내용의 데이터 확보
- GPU병렬 연산 장비가 있는가?
- Notebook GPU < Game GPU < WorkStation GPU < Parallel Computing GPU
- Model이 있는가?
- 문제 해결에 적합한 모델 산정(근거 기반을 통한 전문가와 협의)
- Training, Performance and Evaluation
- 인간수준 근접(오류 3~5%) → 인공지능 연구 기준
- 모든 저널의 성능이 그럼
AI가 쓸수 있는 데이터인가 아닌가?
→ AI 과학자에게 의견을 요청한다
- 데이터 가공 필요 여부 확인
- AI 모델 특성에 맞도록 정제 필요할 수도 있음
- 바로 사용할 수 있는 형태 일 수도 있음
A/B 테스트의 정의분할 테스트 또는 버킷 테스트라고도 하는 A/B 테스트
- 두 가지 콘텐츠를 비교하여 방문자/뷰어가 더 높은 관심을 보이는 버전을 확인
- 주요 측정지표를 기반으로 가장 성공적인 버전을 측정하기 위해 변형(B) 버전과 비교하여 컨트롤(A) 버전을 검증
FGI(Focus Group Interview)
= 특정한 경험을 공유한 사람들이 함께 모여 인터뷰를 진행하는 조사 방법
Conceptualization
- 전문가의 의견으로 서비스 만들기
- AB테스트를 통해 FGI 의견 수렴/분석하여 서비스 만들기
- 고객 데이터 기반으로 서비스 만들기
- 개인 데이터 기반으로 개인 맞춤 서비스 만들기
Design Thinking
- 공감(Empathize)
- 디자인 리서치 설계를 해나가야 하는 과정
- 기술, 정치, 경제, 문화 등 다양한 분야에 대한 깊이있는 호기심이 중요한 단계
- 정의(Define)
- 고객의 문제를 정의하는 과정
- 고객이 느끼는 Pain Point를 발굴
- 아이디어(Ideate)
- 현실 가능성을 고려하지 않고 자유롭게 고객에게 적합한 해결방안을 제시하는 단계(BrainStorming)
- Pain Point 중심으로 여러 사람들이 아이디어를 제시하고 발전시키는 과정
- 프로토타입(Prototype)
- 새로운 아이디어를 프로토타입으로 만들어 보거나 서비스에 대한 시나리오를 만들어보는 단계
- 새로운 제품, 서비스 아이디어 구체화
- 테스트(Test)
- 1차적으로 완성된 프로토타입에 대한 고객의 피드백을 바탕으로 프로토타입을 개선해보는 단계
- 반복적인 소비자 사용성 테스트를 통해 제품의 문제점을 개선 및 완성도 향상
'천재교육' 카테고리의 다른 글
에듀테크 PM 프로덕트 매니저(9) (0) | 2024.02.22 |
---|---|
에듀테크 PM 프로덕트 매니저(8) (0) | 2024.02.21 |
에듀테크 PM 프로덕트 매니저(6) (1) | 2024.01.25 |
에듀테크 PM 프로덕트 매니저(5) (0) | 2024.01.03 |
에듀테크 PM 프로덕트 매니저(4) (0) | 2024.01.02 |
- Big Data
- Parallel Computing Power
- Pre-Training
- Artificial Neural Network
파이프라인(pipeline) 또는 데이터 파이프라인(data pipeline)
한 데이터 처리 단계의 출력이 다음 단계의 입력으로 이어지는 형태로 연결된 구조를 가리킨다. 이렇게 연결된 데이터 처리 단계는 한 여러 단계가 서로 동시에, 또는 병렬적으로 수행될 수 있어 효율성의 향상을 꾀할 수 있다. 각 단계 사이의 입출력을 중계하기 위해 버퍼가 사용될 수 있다.
End-to-End Deep Learning
- 딥러닝은 '종단간 기계학습(end-to-end deep learning)' 이라고도 불린다.
- 여기서 '종단간' 은 처음부터 끝까지라는 의미로,
- 입력에서 출력까지 '파이프라인 네트워크' 없이 한 번에 처리한다는 뜻이다.
- 파이프라인 네트워크 : 전체 네트워크를 이루는 부분적인 네트워크
- 신경망에 너무 많은 계층의 노드가 있거나, 메모리가 부족할 경우 사용할 수 없다.
- 또한, 문제가 복잡할 수록, '전체 네트워크' 를 '파이프라인 네트워크' 로 나눠서 해결하는 것이 더 효율적일 때도 있다.
- 데이터의 정보가 나눠진 각각의 파이프라인에 더 적합하게 사용될 수 있기 때문이다.
모듈(module)
= 프로그램을 구성하는 구성 요소로, 관련된 데이터와 함수를 하나로 묶은 단위
데이터 전처리(Pre-processing)
= 데이터 분석을 위해 수집한 데이터를 분석에 적합한 형태로 가공하는 과정
- 불필요한 데이터 제거한다.
- 결측치나 이상치를 처리하여 데이터 질을 향상한다.
- 가공된 데이터는 분석 모델을 구축하고 결과를 도출하는 데에 더욱 유용하게 활용될 수 있다.
스탠드 얼론(Stand Alone)
= 자립, 다른 무언가의 특별한 도움 없이도 스스로 할 수 있다는 뜻
- 웹고트/웹울프 서버를 구동하기 위해서는 도커 방식과 스탠드 얼론 방식을 이용할 수 있다.
- 스탠드 얼론 방식은 서버 파일 자체로 완전하게 구동한다는 개념(군더더기 없이도 충분히 구색을 갖추었다는 의미)
- 도커 방식은 도커라는 가상화 소프트웨어의 도움을 받아 구동한다는 차이가 있습니다.
AI Pipeline
Raw Data > Data Pre-processing > Prepated Data > Apply Algorithms(Iterate until data is ready) >
Apply Algorithms > Candidate Model(Iterate for best model) > Chosen Model > Service
데이터 레이블링(데이터 라벨링)
- 데이터 레이블링 또는 데이터 어노테이션은 머신 러닝(ML) 모델을 개발할 때 수행하는 전처리 단계의 일부
- 데이터 레이블링을 하려면 원시 데이터(즉, 이미지, 텍스트 파일, 비디오)를 식별한 다음 해당 데이터에 하나 이상의 레이블을 추가하여 모델을 위한 컨텍스트를 지정
- 이를 통해 머신 러닝 모델은 정확한 예측을 수행할 수 있다.
- 데이터 레이블링은 컴퓨터 비전과 자연어 처리(NLP)를 포함한 다양한 머신 러닝 및 딥 러닝 적용사례를 뒷받침
Digital Transformation
- “새로운 고객 경험을 창출하기 위해 사업 모델, 제품과 서비스, 프로세스(운영 방식), 정책∙제도∙문화(경영 방식) 등 사업 체계 전반을 디지털 기술을 활용해 바꾸는 것”
- 디지털 전환이란 ‘전통적 기업이 디지털 기업으로 전환하는 것’, 그 전환의 과정이다.
정형데이터(Structured Data/Refining Data)
- 정형 데이터는 미리 정해 놓은 형식과 구조에 따라 저장되도록 구성하여 고정된 필드에 저장된 데이터입니다. 지정된 행과 열에 데이터가 구별되어 입력되어 있으며 관계형 데이터 베이스(RDMS)의 테이블 형태로 저장됩니다. 정해진 형식과 저장 구조를 바탕으로 손쉽게 데이터에 대한 부분 검색 및 선택, 갱신, 삭제 등의 연산을 수행할 수 있어 주로 정형화된 업무 또는 서비스에 사용합니다.
비정형데이터(UnStructured Data)
- 비정형 데이터는 정의된 구조가 없는 동영상 파일, 오디오 파일, 사진, 보고서, 메일 본문 등과 같이 정형화되지 않은 데이터입니다. 정형 데이터와 반대로 형태가 없고 연산할 수 없는 데이터입니다.
- 비정형 데이터는 데이터 구조가 없어 내용에 대한 질의 처리를 할 수 없으므로 데이터 특징을 추출하여 반정형, 또는 정형 데이터로 변환하는 전처리 과정이 필요합니다.
- 페이스북, 트위터 등 웹에서 폭발적으로 생성되고 있는 비정형 데이터는 그 내용을 통해 비즈니스 미래를 예측할 수 있다는 점에서 빅데이터 시대의 주목을 받고 있습니다.
반정형데이터(Semi-Structured Data)
- 반정형 데이터는 데이터의 구조 정보를 데이터와 함께 제공하는 파일 형식의 데이터로, 데이터의 형식과 구조가 변경될 수 있는 데이터입니다.
- 정형 데이터와 같이 테이블의 행과 열로 구조화되어 있지는 않으나 스키마 및 메타데이터 특성을 가지고 있으며, 주로 XML, HTML, JSON 등의 파일 형태로 저장됩니다.
Deep learning 프로젝트 제약조건?
- 데이터가 있는가?
- 문제를 해결할 수 있는 내용의 데이터 확보
- GPU병렬 연산 장비가 있는가?
- Notebook GPU < Game GPU < WorkStation GPU < Parallel Computing GPU
- Model이 있는가?
- 문제 해결에 적합한 모델 산정(근거 기반을 통한 전문가와 협의)
- Training, Performance and Evaluation
- 인간수준 근접(오류 3~5%) → 인공지능 연구 기준
- 모든 저널의 성능이 그럼
AI가 쓸수 있는 데이터인가 아닌가?
→ AI 과학자에게 의견을 요청한다
- 데이터 가공 필요 여부 확인
- AI 모델 특성에 맞도록 정제 필요할 수도 있음
- 바로 사용할 수 있는 형태 일 수도 있음
A/B 테스트의 정의분할 테스트 또는 버킷 테스트라고도 하는 A/B 테스트
- 두 가지 콘텐츠를 비교하여 방문자/뷰어가 더 높은 관심을 보이는 버전을 확인
- 주요 측정지표를 기반으로 가장 성공적인 버전을 측정하기 위해 변형(B) 버전과 비교하여 컨트롤(A) 버전을 검증
FGI(Focus Group Interview)
= 특정한 경험을 공유한 사람들이 함께 모여 인터뷰를 진행하는 조사 방법
Conceptualization
- 전문가의 의견으로 서비스 만들기
- AB테스트를 통해 FGI 의견 수렴/분석하여 서비스 만들기
- 고객 데이터 기반으로 서비스 만들기
- 개인 데이터 기반으로 개인 맞춤 서비스 만들기
Design Thinking
- 공감(Empathize)
- 디자인 리서치 설계를 해나가야 하는 과정
- 기술, 정치, 경제, 문화 등 다양한 분야에 대한 깊이있는 호기심이 중요한 단계
- 정의(Define)
- 고객의 문제를 정의하는 과정
- 고객이 느끼는 Pain Point를 발굴
- 아이디어(Ideate)
- 현실 가능성을 고려하지 않고 자유롭게 고객에게 적합한 해결방안을 제시하는 단계(BrainStorming)
- Pain Point 중심으로 여러 사람들이 아이디어를 제시하고 발전시키는 과정
- 프로토타입(Prototype)
- 새로운 아이디어를 프로토타입으로 만들어 보거나 서비스에 대한 시나리오를 만들어보는 단계
- 새로운 제품, 서비스 아이디어 구체화
- 테스트(Test)
- 1차적으로 완성된 프로토타입에 대한 고객의 피드백을 바탕으로 프로토타입을 개선해보는 단계
- 반복적인 소비자 사용성 테스트를 통해 제품의 문제점을 개선 및 완성도 향상
'천재교육' 카테고리의 다른 글
에듀테크 PM 프로덕트 매니저(9) (0) | 2024.02.22 |
---|---|
에듀테크 PM 프로덕트 매니저(8) (0) | 2024.02.21 |
에듀테크 PM 프로덕트 매니저(6) (1) | 2024.01.25 |
에듀테크 PM 프로덕트 매니저(5) (0) | 2024.01.03 |
에듀테크 PM 프로덕트 매니저(4) (0) | 2024.01.02 |