메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술대회자료
저자정보
이준호 (중앙대학교) 송상민 (중앙대학교) 최주환 (중앙대학교) 박주형 (중앙대학교) 진교훈 (중앙대학교) 김영빈 (중앙대학교)
저널정보
한국HCI학회 한국HCI학회 학술대회 PROCEEDINGS OF HCI KOREA 2023 학술대회 발표 논문집
발행연도
2023.2
수록면
154 - 159 (6page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
최근 자연어 처리 모델은 대용량 데이터를 기반으로 사전학습(pretrain) 후 미세조정(fine tuning)을 하는 방식을 통해서 좋은 성과를 보이고 있다. 미세조정 과정에서 사용되는 데이터 수가 부족할 때 학습 데이터에 지나치게 의존하는 과적합 문제를 데이터 증강을 통해서 완화 할 수 있다. 하지만 기존의 데이터 분포와 크게 벗어나지 않는 증강은 모델이 높은 확신을 가지고 잘못된 예측을 하는 문제를 발생시킬 수 있다. 본 논문에서는 과잉확신 문제를 해결하기 위해 기존 데이터세트와 유사도가 적은 다른 데이터세트을 추가로 활용하는 데이터 증강 기법을 제안한다. Sentence BERT(SBERT)를 활용하여 한글 딥러닝 데이터 세트간의 유사도를 측정하는 방식을 통하여 낯선 데이터 세트를 규정한다. 제안된 기법은 다른 데이터 증강 기법들에 비해 과잉확신 완화에 효과가 있음을 확인할 수 있었다. 해당 기법을 통해 Korean hate speech 분류 작업에서 기준치 대비 3.98%P 향상되었으며 기존 기법과 비교해 2.39%p 의 성능 향상을 확인할 수 있었다.

목차

요약문
1. 서론
2. 낯선 데이터 세트 증강 제안
3. 실험
4. 결론
참고문헌

참고문헌 (0)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0