최근 코로나 19로 인하여 사회적 거리 두기 권장에 따라 원격, 재택근무로 인하여 VoIP(Voice Over Internet Protocol)를 이용한 음성 및 화상 회의가 일상 생활화되어 가고 있다. 그러나 공중 회선 교환망(PSTN, Public Switched Telephone Network)에 비해 더 저렴한 인터넷전화를 사용하지 않는 이유는 VoIP가 공중 회선 교환망과 같은 수준의 음성 서비스 품질을 보장하지 않기 때문이다. 일상생활뿐만 아니라 군의 음성 통신망도 PSTN용 주요 장비의 내구 연수가 도래하였고, 기존 장비의 단종으로 유지 보수에 어려움이 있어 VoIP 기반으로 전환 되고 있다. 특히 군 특성상 작전 상황, 전술 정보를 신속하게 전달해야 하지만 군 통신체계의 자체 연구가 부족하고 핵심 장비를 선진국으로부터 구입 또는 기술을 도입 하고 있는 실정이다. 이러한 실시간 VoIP 서비스의 핵심은 데이터의 전송 시간을 최소화하여 오디오 서비스 품질(QoS, Quality of Service)을 보장해야 한다. 오디오 서비스 품질은 코덱 지연(Codec Delay), 에코(Echo), 패킷 손실(Packet Loss), 패킷지연(Packet Delay), 지터(Jitter), 도착순서의 변경 등에 의하여 영향을 받는다. 이중 패킷 전송 시간 지연 및 손실은 QoS에 큰 영향을 미친다. 실시간 다자간 오디오 서비스는 음성 데이터를 네트워크 기반에서 실시간으로 전송하여여러 사용자가 음성 대화 서비스를 제공받는다. 이때 중요한 음성처리 모듈은 합성기와 변환기이다. 기존 오디오 합성기와 변환기는 프로세서 기반으로 구현되므로 순차적 수행과정으로 인해 처리 속도에는 한계가 있다. VoIP에서 오디오 서비스 품질은 다양한 환경에 의하여 영향받는데, 특히 오디오 패킷을 변환하고 합성하는 처리시간이 길어지면 오디오 서비스 품질을 보장할 수 없다. 다자간 실시간 회의나 군 통신망에서 데이터가 통신 도중 제삼자에게 유출 또는 침입으로 인한 송수신 데이터의 도청, 변조 및 위조에 대한 대책이 요구되고 있다. 본 논문에서는 위와 같은 문제점들을 해결하기 위한 두 가지 방법을 제안하였다. 첫 번째로 QoS를 보장 하기위한 방법으로 오디오 변환 모듈과 합성기 모듈을 고속의 병렬 처리가 가능한 FPGA 하드웨어로 설계하고, 오디오 신호 합성 및 패킷 구성을 고속 병렬 처리 방식으로 코딩하여 종단 간 처리 지연 최소화를 통한 오디오 서비스 품질 개선 방안을 제안하였다. 두 번째로 데이터 송・수신 시 AES -128 알고리즘을 적용한 암호화/복호화 기능 추가하여 보안 문제를 해결하는 방안을 제안하였다. 제안된 시스템을 적용하여 암호화/복호화 기능이 내장된 VoIP 다자간 오디오 시스템의 합성기와 음성 변환기 모듈을 구현하였으며, 기능 및 성능 평가를 수행하였다. 제안된 방안으로 설계한 시스템을 검증한 결과 패킷을 구성하는데 소요되는 시간은 RFC3551(Request for Comments) 규격에서 제안된 20ms보다 훨씬 낮은 1.024ms 내에서 최대 256명의 참가자에 대한 오디오 신호를 합성하고 패킷을 구성할 수 있음을 확인하였다.
Recently, due to the COVID-19 outbreak, voice and video conferencingusing VoIP (Voice Over Internet Protocol) is becoming a daily life due to remote and telecommuting according to the recommendation of social distancing. However, the reason why they do not use cheaper Internet phones compared to the Public Switched Telephone Network (PSTN) is that VoIP does not guarantee the same level of service quality as the Public Switched Telephone Network. In addition to daily life, the military''s voice communication network is being converted to a VoIP base due to the durability of major equipment for the existing PSTN(Public Switched Telephone Network), and it is difficult to maintain due to the discontinuation of existing equipment. In particular, due to the nature of the military, operational situation and tactical information must be delivered quickly, but in-house research on military communication systems is lacking and key equipment is purchased from advanced countries or technology is being introduced.The main point of such a real-time VoIP service is to minimize data transmission time to ensure audio quality of service. Audio service quality is affected by codec delay, echo, packet loss, packet delay, jitter, and change of arrival order. Among them, packet transmission time delay and loss have a great impact on QoS. The real-time multi-party audio service transmits voice data in real time on a network basis so that multiple users are provided with a voice conversation service. At this time, the important voice processing modules are mixers and converters. Existing audio mixers and converters are implemented on a processor basis, the processing speed is limited due to the sequential execution process. The audio service quality of VoIP is influenced by various environments, especially when the processing time for converting and mixing audio packets is long, the audio service quality cannot be guaranteed. In a multi-party real-time conference or military communication network, valuable information is leaked to a third party during communication, or measures are required against eavesdropping and falsification caused by illegal intrusion. In this thesis, two methods were proposed to solve the above problems. First, as a way to ensure QoS, the audio conversion module and mixer module are designed with FPGA hardware capable of high-speed parallel processing, and A method for improving audio service quality by minimizing end-to-end processing delay by coding audio signal mixing and packet composition in a high-speed parallel processing method was proposed. Second, it is proposed to solve the security problem by adding the encryption/decryption function applying the AES-128 algorithm when transmitting/receiving data. By applying the proposed system, a mixer and voice converter module of a VoIP multi-party audio system with built-in encryption/decryption functions were implemented, and function and performance evaluation were performed. As a result of verifying the system with the proposed method, it is confirmed that the time required time for mixing audio signals and configuring the packet is within 1.024ms for up to 256 participants, which is much lower than 20 ms proposed by the RFC 3551 specification.
제 1 장 서 론 11.1 연구 배경 11.2 연구 목적 41.3 연구 범위 4제 2 장 관련 연구 62.1 VoIP 개요 62.1.1 VoIP 구성 요소 82.1.2 VoIP 주요 프로토콜 92.2 VoIP 오디오 품질 요소 152.2.1 오디오 품질의 명확성(Clarity) 152.2.2 지연 (Delay) 172.2.3 반향 (Echo) 212.3 VoIP 서비스에서 음성품질 평가 222.3.1 MOS(Mean Opinion Score) 222.3.2 PESQ (Perceptual Speech Quality Measurement) 232.3.3 E-Model 232.4 VoIP 기반 다자간 오디오 시스템 282.4.1 다자간 연결을 위한 미디어 구조의 종류 282.4.2 일반적인 다자간 오디오 시스템 312.4.3 다자간 실시간 음성 시스템의 처리 지연 개선 방안 332.5 암호화 시스템 개요 362.5.1 대칭키(비밀키) 암호 시스템 382.5.2 비대칭키(공개키) 암호 시스템 42제 3 장 오디오 합성 시스템의 설계 및 구현 453.1 시스템 개요 453.2 오디오 합성기(Audio Mixer) 모듈 설계 463.2.1 보드 설계 463.2.2 합성기 모듈 설계 483.3 오디오 변환기(Audio Converter) 모듈 설계 493.3.1 보드 설계 493.3.2 변환기 모듈 설계 513.4 암호화 알고리즘 설계 523.4.1 AES 암호화 알고리즘 523.4.2 AES 암호화 알고리즘 연산 553.5 시스템 구현 633.5.1 하드웨어 보드 구현 643.5.2 오디오 합성기 모듈 구현 663.5.3 오디오 변환기 모듈 구현 713.5.4 암호화/복호화 모듈 구현 73제 4 장 오디오 합성 시스템 검증 754.1 모듈 시험 및 검증 방법 754.1.1 오디오 합성 시스템 시험 치구 754.1.2 시스템 검증 방법 764.2 모듈별 시험 및 검증 794.2.1 오디오 합성기 시험 및 성능 794.2.2 오디오 변환기 시험 및 성능 904.2.3 암호화 모듈의 기능 시험 및 분석 984.3 제안한 시스템의 성능 분석 103제 5 장 결 론 105[참고문헌] 107