본문 바로가기
  • GDG on campus Ewha Tech Blog

분류 전체보기316

[6주차] NLP Chapter 7. RNN을 사용한 문장 생성 - 8. 어텐션 이 포스트는 "밑바닥부터 시작하는 딥러닝2 - 파이썬으로 직접 구현하며 배우는 순환 신경망과 자연어 처리 (한빛미디어, 사이토 고키 지음)" 책을 기반으로 공부해서 정리한 내용이다. Chapter7: RNN을 사용한 문장 생성 7.1 언어 모델을 사용한 문장 생성 언어 모델: 지금까지 주어진 단어들에서 다음에 출현하는 단어의 확률분포를 출력 다음 단어를 생성하기 위해서는? - 결정적 방법: 확률이 가장 높은 단어를 선택 - 확률적 방법: 각 후보 단어의 확률에 맞게 선택 -> 매번 선택되는 단어가 달라질 수 있음 이렇게 학습된 단어의 정렬 패턴을 이용해(학습이 끝난 가중치를 통해) 새로운 문장을 생성하는 것이 가능 더 좋은 언어 모델로 더 자연스러운 문장을 생성 7.2 seq2seq 시계열 데이터 ex).. 2022. 5. 30.
[9주차] 딥러닝을 이용한 자연어처리 입문 Chap.17 BERT BERT 트랜스포머는 단어의 위치 정보를 얻기 위해서 각 단어의 임베딩 벡터에 위치 정보들을 더하여 모델의 입력으로 사용하는데, 이를 포지셔널 인코딩(positional encoding)이라고 합니다. 마스크드 언어 모델은 입력 텍스트의 단어 집합의 15%의 단어를 랜덤으로 마스킹(Masking)합니다. 그리고 인공 신경망에게 이렇게 마스킹 된 단어들을(Masked words) 예측하도록 합니다. 80%의 단어들은 [MASK]로 변경한다.Ex) The man went to the store → The man went to the [MASK] 10%의 단어들은 랜덤으로 단어가 변경된다.Ex) The man went to the store → The man went to the dog 10%의 단어들은 동일.. 2022. 5. 30.
[7주차] 딥러닝을 이용한 자연어처리 입문 Chap.2 텍스트 전처리 데이터 전처리 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다. 불용어 제거 불용어(stopword) : I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없는 경우 등장 빈도가 적은 단어 제거 길이가 짧은 단어 제거 노이즈 데이터(noise data)는 자연어가 아니면서 아무 의미도 갖지 않는 글자들(특수 문자 등)을 의미하기도 하지만, 분석하고자 하는 목적에 맞지 않는 불필요 단어들을 노이즈 데이터라고 하기도 합니다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 표기가 다른 단어들을 통합하는 방법인 어간 추출(stemming)과 표제어 추.. 2022. 5. 30.
[인공지능 논문 읽기] 5주차 5월 16일 ~ 5월 22일 동안 각 스터디원이 연구하고 있거나 관심 있는 분야의 논문을 읽고, 5월 22일 자정까지 핵심을 위주로 요약하여 깃허브 레포에 issue로 남겼습니다. 장서진님은 You Only Look Once: Unified, Real-Time Object Detection을 읽고 요약하셨습니다. 김시정님은 Attention Is All You Need을 읽고 요약하셨습니다. 하수민님은 Text Detection and Recognition in the Wild: A Review을 읽고 요약하셨습니다. 문수인님은 Seq2SQL : Generating structured queries from natural language using reinforcement learning을 읽고 요약하셨.. 2022. 5. 30.
[인공지능 논문 읽기] 6주차 5월 23일 ~ 5월 29일 동안 각 터디원이 연구하고 있거나 관심있는 분야의 논문을 읽고, 5월 30일 자정까지 핵심을 위주로 요약하여 깃허브 레포에 issue로 남겼습니다. 이은빈님은 Generative Models for Effective ML on Private, Decentralized Datasets 를 읽고 요약하셨습니다. 김시정님은 Zero-Shot Learning Through Cross-Modal Transfer 를 읽고 요약하셨습니다. 장서진님은 DETR : End-to-End Object Detection with Transformers 를 읽고 요약하셨습니다. 문수인님은 BERT : Pre-training of Deep Bidirectional Transformers for Lan.. 2022. 5. 29.
[7주차] 17장 정리 [17장] 냄새와 휴리스틱 🚩 나쁜 코드 정리하기 주석 부적절한 정보 다른 시스템에 저장할 정보는 주석으로 적절하지 않다 작성자, 최종 수정일, SPR 번호 쓸모없는 주석 오래된 주석, 엉뚱한 주석, 잘못된 주석 쓸모없는 주석은 빠르게 삭제하는 것이 좋다 중복된 주석 주석은 코드만으로 다하지 못하는 설명을 부언한다 성의없는 주석 간결하고 명료하게 가치 있는 주석을 작성한다 주석 처리된 코드 주석으로 처리된 코드를 발견하면 즉각 삭제한다 환경 여러 단계로 빌드해야 한다 한 명령으로 전체 를 체크아웃해서 한 명령으로 빌드할 수 있어야 한다 여러 단계로 테스트해야 한다 모든 단위 테스트는 한 명령으로 돌려야 한다 모든 테스트를 한번에 실행하는 능력은 아주 근본적이고 아주 중요하다 함수 너무 많은 인수 함수에서.. 2022. 5. 28.