Compound Word Transformer: Learning to Compose Full-Song Music over Dynamic Directed Hypergraphs

Wen-Yi Hsiao, Jen-Yu Liu, Yin-Cheng Yeh, Yi-Hsuan Yang (Yating Team, Academia Sinica)

논문 리딩 계기: GCT731 페이퍼 리딩 과제!

리딩 후 느낀 점: 3/8(수) 리딩 완료 예정.

Abstract

Transformer와 같은 신경망 시퀀스 모델에서 음악 생성 태스크를 수행하려면, 이미 정의된 유한한 단어 집합에서 토큰 시퀀스를 제작하는 방식으로 곡을 표현해야 함. 이러한 단어 집합을 표현하는 방식은 다양하게 존재할 수 있음. 예를 들어, 음표를 하나 표현하기 위해서는 음의 높낮이(Pitch), 지속 시간(Duration), 강약(MIDI Velocity, onset/offset 타이밍 등을 나타내기 위해 각각 구분된 토큰들이 필요함.

이처럼 아예 표현하고자 하는 성격이 다른 토큰들은 다르게 처리를 해주는게 바람직하지만, 현재 음악 생성모델들은 이들을 그저 자연어의 경우처럼 서로 동일한 토큰의 성격으로 바라보고 있다는 점이 문제임. 본 페이퍼에서는 이러한 각각의 토큰을 explicitly 다르게 여겨주는 새로운 생성 모델 방법을 제시함. (개선된 Feed-Forward 헤드들을 사용한 새로운 Transformer 디코더 아키텍쳐를 제시함. 또한, 확장-압축 트릭을 통해 곡을 합성어의 시퀀스처럼 여겨서 이웃한 토큰끼리 그룹핑을 함으로써 토큰 시퀀스의 길이를 크게 줄임.)

제시된 모델은 동적 방향 하이퍼그래프(Dynamic directed hypergraphs)에 대한 학습자로 볼 수 있으며, 이를 사용하여 Full-song length의 expressive한 POP 피아노 음악을 작곡하도록 훈련시킴. (각 곡의 길이는 약 1만개의 토큰이며, 조건을 넣는 것과 안 넣는 것을 동시에 진행해봄) 실제로 SOTA 모델들과 비교했을 때, 훈련 속도는 5~10배 빨라졌으며 (예시로, 11GB 메모리의 단일 GPU만을 사용해도 하루만에 훈련이 가능했음) 생성된 음악의 퀄리티는 뒤쳐지지 않았음.