데이터 전처리
- 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
- 불용어 제거
- 불용어(stopword) : I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없는 경우
- 등장 빈도가 적은 단어 제거
- 길이가 짧은 단어 제거
- 노이즈 데이터(noise data)는 자연어가 아니면서 아무 의미도 갖지 않는 글자들(특수 문자 등)을 의미하기도 하지만, 분석하고자 하는 목적에 맞지 않는 불필요 단어들을 노이즈 데이터라고 하기도 합니다.
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.
- 표기가 다른 단어들을 통합하는 방법인 어간 추출(stemming)과 표제어 추출(lemmatizaiton)
- 대, 소문자 통합
- 어간 추출 알고리즘 중 하나인 포터 알고리즘(Porter Algorithm)의 상세 규칙은 마틴 포터의 홈페이지에서 확인할 수 있다.
- 어간 추출 속도는 표제어 추출보다 일반적으로 빠른데, 포터 어간 추출기는 정밀하게 설계되어 정확도가 높으므로 영어 자연어 처리에서 어간 추출을 하고자 한다면 가장 준수한 선택입니다.
- NLTK에서는 포터 알고리즘 외에도 랭커스터 스태머(Lancaster Stemmer) 알고리즘을 지원합니다.
- 사이킷런은 학습용 테스트와 테스트용 데이터를 쉽게 분리할 수 있게 해주는 train_test_split()를 지원합니다.
'3-2기 스터디 > NLP 입문' 카테고리의 다른 글
[6주차] NLP Chapter 7. RNN을 사용한 문장 생성 - 8. 어텐션 (0) | 2022.05.30 |
---|---|
[9주차] 딥러닝을 이용한 자연어처리 입문 Chap.17 BERT (0) | 2022.05.30 |
[5주차] NLP Chapter 5.2 RNN이란 ~ 6. 게이트가 추가된 RNN (0) | 2022.05.02 |
[4주차] NLP Chapter 4. word2vec 속도 개선 ~ 5.2 RNN이란 (0) | 2022.05.02 |
[3주차] NLP Chapter3. word2vec (0) | 2022.04.22 |
댓글