Music_translate
论文名称:High-resolution Piano Transcription with Pedals by Regressing Onsets and Offsets Times
作者: Qiuqiang Kong, Bochen Li, Xuchen Song, Yuan Wan, Yuxuan Wang
前言
自动音乐转谱
(Automatic music transcription)是将音频转化为符号表示的任务,例如 Piano Rolls, guitar fretboard chart 和 Music Instrument Digital Interface(MIDI),AMT 之于人工智能音乐就如同词嵌入之于自然语言处理一般不可或缺,其发展将会使下游任务受益匪浅。
钢琴转谱 AMT 中的一个具有较高挑战性的任务,它包含音高(pitch)、起音(onset)、偏移(offset)和速度(velocity,实际上指得是击键的速度,也就是音符的力度)(等音乐事件,其难点主要在于钢琴的复音(多个键同时被按下)
在之前的工作中,提出了用于多基音估计的概率谱平滑原理;频域和时域相结合的钢琴转录方法;非负矩阵分解 (NMF) 用于将频谱分解为复音音符,等等等等
这些转谱系统都需要先将音频分为帧(frames),每帧中储存着其音高、起音、偏移等信息,然而这存在一些问题:
-
钢琴音符的起音可以持续几帧而不是一帧
-
这些系统对标签和音频的错位很敏感,例如某个起始点错位了几帧,整个训练将会受到影响
-
为起音和偏移事件分配标签时存在歧义,例如由于混响和淡出效果,音符的偏移并不明显
-
系统的精度取决于跳帧的长度
-
缺乏对延音踏板的研究
针对上述问题,提出了一个高分辨率的踏板预测钢琴转谱系统,它将音符视作一个个连续的量,分为起音、衰减、延音和释音,并且能实现任意分辨率的转谱