메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술대회자료
저자정보
이석현 (중앙대학교) 박진우 (중앙대학교) 김정은 (중앙대학교) 오창준 (중앙대학교) 김준영 (중앙대학교)
저널정보
대한전자공학회 대한전자공학회 학술대회 2024년도 대한전자공학회 하계학술대회 논문집
발행연도
2024.6
수록면
2,784 - 2,787 (4page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
The scene search and highlight detection for recent videos have become increasingly important topics. When performing text-based search in videos, the most crucial aspect is the cross-modal interaction between text and video. Previous studies have simply concatenated videos and text to conduct self-attention or used cross-attention for training. However, a problem arises during cross-attention where unrelated video clips might also receive attention, leading to information mixing. To address this, a solution using dummy tokens has been proposed. This paper aims to resolve the issues with cross attention using dummy tokens. First, generating dummy tokens using self-attention can lead to excessive attention between tokens, which can be problematic. To overcome this, we generate dummy tokens using cross-attention. Second, creating the same number of tokens for all input texts may not provide fair attention weights, so we generate tokens based on the length of the input text. Third, previous papers only used dummy tokens as keys and not as values, potentially leading to information loss. Therefore, we use k% of tokens as values as well. Finally, by adjusting the additional token count based on the similarity between tokens and input sentences, we enable a more accurate cross-modal interaction.

목차

Abstract
Ⅰ. 서론
Ⅱ. 관련 연구
Ⅲ. 본론
Ⅳ. 실험 및 결과
Ⅴ. 결론 및 향후 연구 방향
참고문헌

참고문헌 (0)

참고문헌 신청

함께 읽어보면 좋을 논문

논문 유사도에 따라 DBpia 가 추천하는 논문입니다. 함께 보면 좋을 연관 논문을 확인해보세요!

최근 본 자료

전체보기

댓글(0)

0