Introduction to Artificial Intelligence

🤖 Computer Science/Artificial Intelligence

Introduction to Artificial Intelligence

yesolz 2024. 5. 1. 18:24

728x90

1. Basic

인공지능 > 기계학습 > 딥러닝 > 트랜스포머
Machine Learning
- Supervised Learning (Data-label)
  - classification: 특정 클래스 예측
  - regression: 수치 예측
- Unsupervised Learning (unlabled data)
  - clustering - 특징 고려해서 묶음
- Reinforcement Learning: 두 가지 선택
  - Exploration: 새로운 행동
  - Exploitation: 기존 행동 중 가장 만족도 높은 것 선택

2. Machine Learning(개념)과 Data(종류, 모양)

Dataset
- training data
- validation data
- test data
Target
Prediction
model parameter
model hyperparameter

Machine Learning Process
1. Problem Identification
2. Data Collection
3. Data Pre-processing (filtering, transformation, integration)
4. Model Selection, Hyper-parameter Configuration
5. Model Training: Hyper-parameter tuning
6. Evaluation

정형vs비정형 데이터
- 정형 데이터 (structured data): 구조 O. ex) 표, json
- 비정형 data (unstructured data): 구조 X. ex) 문서, page, 사진, 영상, 소리
Data 형태
- 1차원 데이터: 문자열, 단일 음성
- 2차원 데이터: 다채널 음성 (Left/Right)
- 3차원 데이터: 이미지 (RGB)
Data cleaning (정제):
- 결측치 (missing data)
- 틀린 값 (invalid data)
- 이상치 (outlier)
Data transformation
- 범주형으로
- 일반 정규화(normalization): data 범위 같게 변환 ex) 10점 만점, 50점 만점 통일
- z-score 정규화: 평균 0, 표준편차 1 되도록. z = x-평균/표준편차
- log 변환: 값이 너무 큰 경우 / 증가를 곱셈으로 처리하는 게 더 편할 때
EDA(Exploratory Data Analysis)
Data 탐색 - visualization(가시화), 통계적 요소
Discrete vs Continuous
expectation(기댓값), variance(분산), standard Deviation(표준편차)
Kurtosis(첨도) - outlier 정도 판단
Skewness(왜도) - 분포의 비대칭 정도 판단
Data reduction (축소)
Sampling - 분석에 필요한 data만 취함
Feature selection - 유용하게 사용될 특징만 선택

3. Naive Bayes Classifier (나이브 베이즈 분류기)

Machine Learning Model 평가 지표 (binary classification)
- Accuracy : 올바른 / 전체 데이터
- Recall : TruePositive / TruePosi + FalseNega
- Precision: TruePosi /TruePosi + FlasePosi
- F1 score: 2 * recall * precision / (recall + precision)
조건부 확률 (conditional probability)
조건부 확률의 연쇄법칙 (chain rule of conditional probability)
통계적 추론 (추론 통계학)
- 빈도주의 추론(Frequentist inference)
- 베이즈 추론 (Bayesian inference)
Bayes Theorem : P(A|B)를 알 때 P(B|A)를 알 수 있다
- P(H|E) = P(E|H) * P(H) / P(E)
Naive Bayes Classifier
- 장점: 간단, 빠름. 독립적이라 가정 -> 이해 해석 쉬움, 다중 클래스 분류 가능
- 단점: 독립적 -> 비현실적. 범주형 데이터 아닌 연속적 데이터. 클래스 불균형
(자연어처리) Tokenization
- 단어 기반 토큰화 (word-based Tokenization) -> 단점: Dog vs Dogs 다르게 인식
- 문자 기반 토큰화 (character-based Tokenization) -> 단점: 연산량 많아짐
- 하위 단어 토큰화 (Subword Tokenization) -> 적게 쓰는 건 분할! ex) token/ization

4. Decision Tree, Tree search Algorithms

중요 개념 : decision tree, state space, game tree(max-min원리), A* algorithm(goal state 고려 heuristic 적용, Monte-Carlo Tree Search algorithm(MCTS)

Decision Tree
- Regression tree
- Classification tree - feature뽑아서 분류
Tree Search algorithm - DFS, min-max tree, MCTS
State space: set of all possible configurations of a system.
Search problem: state, state space, starting state, goal state, actions, solution, cost function(모든 액션에 cost value 할당 -> cost-optimal solution)

Types of search
- uninformed search (brute force): DFS, BFS, uniformed cost search
- informed search: greedy search, A* search. graph search
- Adversarial search: game tree, minimax algorithm, alpha-beta pruning
Minimax Search algorithm
- max node: child node의 evaluation 값 중 가장 큰 값(alpha)로 이동
- min node: child node의 evaluation 값 중 가장 작은 값(beta)로 이동
A* algorithm - 3개의 파라미터
- g: 시작~현재노드 실제 비용
- h: 휴리스틱 값. 현재~목표노드 추정 경로 비용. (h(n) <= 실제 경로 비용)
- f: g+h. 현재 노드의 전체 예상 비용 -> A* 알고리즘은 f 값이 작은 노드 우선 탐색
Monte Carlo Tree Search (MCTS): 가능한 모든 행동을 탐색하고, 각 행동의 성능을 평가하여 가장 유망한 행동을 선택
- AlphaGo Zero: MCTS + 신경망(강화학습). 인간데이터x, 더 뛰어난 성능
- 4단계 : selection -> expansion -> simulation -> backpropagation

5. Nearest Neighbors

중요 개념 : Data distance, K-nearest neighbors, Collaborative filtering

Instance-based learning : 모델 학습 없이 가까운 데이터 이용해 분류/예측 cf. Model-vased learning
Data distance
- Euclidean distance : 직선거리
- Manhattan distance : 직각 거리
- Jaccard distance : 두 집합 사이 유사도
- Hamming distance : XOR 해서 얻은 1의 개수 (다른 개수)
- Cosine similarity : -1~1의 값, 1에 가까울수록 유사

K-NN (K-Nearest Neighbors): supervised learning - classification.
- K개의 이웃이 가진 값 참고 -> target value 설정.
- learning 시간 x, answering.
- 몇명의 이웃으로 판단해야하는지의 문제
Weighted nearest classifier (K-NN의 변형, 가중치 부여)
- 거리 기반으로 weight 부여.
- k개 nearest neighbor들의 class 별 weight sum이 가장 큰 class로 결정
Collaborative filtering - 추천시스템 : 나와 성향이 비슷한 사람들이 사용한 아이템 추천
- -> Cosine similarity 사용! - (경향성을 비교하기 위해서는 Cosine similarity를 사용한다.)

6. Clustering

clustering - unsupervised learning

중요 개념: k-means algorithm, association analysis(apriori algorithm)

k-means algorithm
1. k개의 중심점 (centroid) 배치
2. 각 data들 가까운 centroid에 할당 (cluster 형성)
3. cluster 안 data 기반으로 centroid 변경
4. centroid 변경 없을 때까지 2, 3 반복
k-means algorithm 문제점: 1에서 한번에 k개 centroid random 선택 -> k-means++
k-means ++ : 초기 중심 설정 방법!
1. 무작위 1개 선택 - 첫번째 centroid
2. 나머지 data와 centroid 거리 계산
3. 2에서 계산한 거리 비례하여 새로운 중심 선택 (멀리 떨어진 거 선택)
4. k개 고를 때까지 2, 3 반복
k 값 선택하기
- Elbow 방법: 제곱오차합 그래프 -> 기울기 급격히 감소하는 지점
- Silhouette analysis: 실루엣 계수의 평균값
Association analysis : 데이터 집합 아이템들 간 관계 - Apriori algorithm
Apriori algorithm
- Frequent item 선정 (빈도 minimum support 이상)
- Frequent item set 확장 (이전 선택 아이템 집합 -> 큰 아이템 집합)
- 더 이상 새로운 frequent item set 생성할 수 없을 때까지 2.
Apriori algorithm 관련 개념
- confidence(신뢰도)
- lift(향상도): 두 아이템 집합 간 관련성 측정. 1을 기준으로 1보다 크면 긍정/ 같으면 영향x/ 작으면 부정영향으로 판단

7. Perceptron

perceptron -> supervised learning

중요 개념: Artificial neural network model, Perceptron, Multilayer perceptron, CNN, RNN

자주 쓰는 Activation function
- Sigmoid: 기울기 줄어듦. output scale 제한
- ReLU
- tanh

Multi-layer perceptron
- input layer - hidden layer - output layer
Softmax Function: 다중 클래스 분류 - 출력 층의 활성화 함수
- 모든 클래스의 확률의 합이 1이 되도록 만든다
- Prediction Error: 얼마나 잘 예측했는지 측정
Error backpropagation

epoch(에포크): 신경망이 전체 학습 데이터셋 한번 통과
batch: 전체 데이터셋을 일정 크기로 나눔
- iteration: 각 배치에 대해 학습과정 한번 통과
- backpropagation은 각 배치에 대해 수행
Gradient Decent algorithm
ANN(artificial neural network) learning process
- ANN 내의 weight 갱신
- 각 batch 마친 시점에 진행
- 하나의 epoch - batch 개수만큼 weight update
- 후 새로운 batch feedforward
CNN(Convolutional Neural Network)
RNN (Recurrent Neural Network)

Word embedding: 단어를 vector space의 vector로 매핑
- One hot encoding: 이진 벡터. 어떤 단어 있는 위치에만 1, 나머지 0
- Customized encoding: 사용자가 유사성 고려해 직접 단어 매핑
- Word2Vec: 단어를 고정 길이 실수로 매핑

8. Deep Learning

중요 개념:인공신경망/Deep Learning, Application - Object Detection/Image Generation, GAN(Generative Adversarial Networks), CycleGAN

Alexnet: 딥러닝 핫하게 만든! GPU 이용, 여러층
Gradient Vanishing Problem (깊은 층으로 갈수록 그래디언트 소실, 가중치 업데이트 잘 X)
- -> 해결 위해, AlexNet은 ReLU 이용! ReLU: max(0, x)
Dropout: 랜덤으로 drop시킴. -> training data의 overfitting 방지
응용 - Computer Vision - Object Detection: 원래는 위치, 분류 두단계. -> 'YOLO' 모델은 한 과정으로 수행

Generative Adversarial Network(GAN): 생성모델 성능 올림
- Generative Models: 실제 데이터 학습 -> 가짜 데이터 생성
- Generator 와 Discriminator 존재, Adversarial Traning(적대적학습). 둘이 경쟁!
- Backpropagation 시, Discrimator 업데이트 안 하고 Generator 만 업데이트 하는 식으로 수렴 속도 맞춤
응용) Image Generation
- Pix2Pix
Imate-to-Image Translation
- dataset: {Edge, Photo}
- Edge이미지 -> Generator -> 생성
- L1 Loss: 실제 이미지와 생성 이미지 Pixel 차 -> Error
Cycle GAN
- paired dataset 구축 한계, unpaired dataset 따로 구축하는 게 더 편함
- Unpaired Image-to-Image Translation
- 2개의 generator 이용 -> Cycle-consistency -> Adversarial Training

'인공지능입문' 수업 학습 내용을 스스로 정리하였습니다.

728x90

저작자표시 비영리 변경금지