본문 바로가기

모아 읽은 보따리/cs224n9

L5: Language Modeling, RNN Neural net + 지난 렉쳐에 이어 보충, ** regularization ** 모든 neural network는 특정 training set에 대해 overfit될 위험을 가진다. 여기서 overfit은 해당 training set에만 잘 작동하고, general한 feature학습을 하지못해 외부 다른 test set에는 작동이 잘 안되는 경우를 말한다. (쉽게 말해) 따라서 loss function에 regularization term을 넣는데, 이를 통해 general한 모델을 학습하도록 한다. (조금 뜯어보면, 모든 parameter들의 제곱합을 loss에 넣기에 역전파시 모든 parameter는 그 절대적 값(2\lambda\theta)에 따라 조정되게 되어, 최종적으로 parameter.. 2023. 2. 2.
L4: Dependency Parsing 이번 lecture에선 주로 문장 내 단어 간의 dependency의 정의 및 이를 parsing하는 방법/방법론에 대해 알아본다. Linguistic Structures 문장 구조는 크게 두 가지로 분류할 수 있다. 하나는 phrase(절)기반 분류로, 각기 다르게 합쳐진 요소들의 집합으로써 문장을 분류한다. 단어에서 짧은 절, 긴 절로 점차 커지며 합쳐지는 것이다. 이는 이후 lecture에서 더 자세히 다루기에 넘어가고, 다른 하나는 dependecy기반 분류로, 각기 단어가 어떤 단어들에 depend on, 의존하는지에 따라 문장을 분류하는 방법이다. 즉 어떤 단어에 의해 modify되거나, 어떤 단어의 argument가 되거나 등의 의존성을 구조화하여 해석하는 것이라 이해하면 될 것 같다. 이러.. 2023. 2. 1.
L3: Neural Nets 이번 lecture는 인공 신경망에 대해 다룬다. (조금 부분부분 기록할 예정) Neural net 일정 threshold를 넘으면 신호가 전달하는 뉴런의 특성 이용, 단순 linear한 모델의 경우 표현할 수 있는 정보의 경계 (분류 문제 예시)가 단순/한정되어 표현이 어려우나, non-linear하게 만들 경우 만들 수 있는 경계가 무한해지고, 정보의 분류가 다양하게 가능해진다. 이런 non-linearity의 구현 : sigmoid => tanh => ReLU => Swish,Leaky ReLU, GELU 등... (activation function) *여전히 sigmoid, tanh는 쓰일 수 있으며, sigmoid는 probability 도출에 주로 사용. 가장 기본적으론 ReLU를 주로 사용.. 2023. 1. 31.
L2: Word Vectors / Word Senses / NER L1에 이어 word vector를 마무리하고, word sense, NER를 간단히 알아본다. Word Vector L1에서, Word2Vec 및 그 학습 방법을 알아보았다. 학습된 Word2Vec의 parameter들은 각 단어당 outside vector u, center vector v pair로 이루어진다. 실제 predict에는, 예측하고자 하는 중심 단어 *apple(데이터셋 중 4번째 단어라 생각)의 center vector v_4와 다른 데이터셋의 outside vector들의 matrix U와의 dot product를 사용하여, softmax를 적용해 가장 높은 확률값을 가진 단어들을 추려내어 apple과 가깝게 위치할 확률이 높은 단어들을 찾는다. 특히 이렇게 주어진 중심 단어에 대해.. 2023. 1. 18.