메뉴 건너뛰기
.. 내서재 .. 알림
소속 기관/학교 인증
인증하면 논문, 학술자료 등을  무료로 열람할 수 있어요.
한국대학교, 누리자동차, 시립도서관 등 나의 기관을 확인해보세요
(국내 대학 90% 이상 구독 중)
로그인 회원가입 고객센터 ENG
주제분류

추천
검색
질문

논문 기본 정보

자료유형
학술대회자료
저자정보
김진영 (국민대학교) 이동혁 (서울대학교) 주다영 (국민대학교)
저널정보
한국HCI학회 한국HCI학회 학술대회 PROCEEDINGS OF HCI KOREA 2024 학술대회 발표 논문집
발행연도
2024.1
수록면
1,246 - 1,249 (4page)

이용수

표지
📌
연구주제
📖
연구배경
🔬
연구방법
🏆
연구결과
AI에게 요청하기
추천
검색
질문

초록· 키워드

오류제보하기
본 작업에서는 개인적, 사회적 시선에서 “버려진 것들”이라 칭할 수 있는 다양한 문제들의 이미지와 인공지능 기술을 활용하여 생성한 사운드를 관람객에게 동시에 전달함으로써 각 사안에 대한 관람객의 인식 재고를 유도하고자 하였다. 최근 CLIP[1]을 기반으로 한 달리(DALL-E)와 같이 여러 형태의 데이터를 동시에 다루는 멀티모달(Multi-Modality)이 일반화 되어, 텍스트에서 이미지를 쉽게 생성할 수 있게 되었다. 그러나 사운드 생성은 이미지에 나타난 시각적 복잡성과 맥락에 대한 이해를 전제로 하기 때문에 인간이 아닌 기기의 해석이 쉽지 않다. 또한 기술적으로도 라벨링(labeling)되어 있는 사운드 데이터가 충분하지 않으며, 현재 대부분의 연구도 일반적인 소리가 아닌 사람의 말, 즉 스피치(speech)에 집중되어 있다는 것도 또 하나의 제약이다. 이러한 한계를 극복하고자, 이미지에서 텍스트 형태의 캡션을 생성하는 이미지 캡셔닝(Image Captioning) 적용 후, 텍스트 기반의 사운드 변환 모델인 AudioLDM[2]를 적용하는 방법으로 이미지로부터 사운드를 생성하였다. 실제 로 촬영한 이미지와 인공지능으로 생성한 가상의 이미지들은 표현의 정도나 구체성에 따라 다양한 캡션과 흥미로운 사운드를 생성하였다. 추후 일반적인 소리에 대한 데이터 라벨링과 연구가 누적되어 구체적 혹은 추상적 사운드 생성이 가능하다면 예술적 표현 방법으로서 생성형 사운드 활용 범위도 커질 것으로 예상된다.

목차

요약문
1. 작업 개요
2. 작업 내용
3. 결론
4. 참고 문헌

참고문헌 (0)

참고문헌 신청

이 논문의 저자 정보

이 논문과 함께 이용한 논문

최근 본 자료

전체보기

댓글(0)

0

UCI(KEPA) : I410-151-24-02-089387668