KAIST 문화기술대학원의 GCT634 수업 자료로 공부한 내용입니다. 수업을 직접 들은 것은 아니라 혼자 자료로만 공부한거라 틀린 부분이 있을 수 있음!

Music and Computer

  • 이제 컴퓨터는 음악 활동에 필수적이다.
    • Music listening: download music tracks as compressed audio files and uncompress them into waveforms
    • 음악 청취: 음악 트랙을 압축 오디오 파일로 다운받아 waveform으로 압축 해제
    • 음악 공연: 음악 악기, 노래방 기계 등등
    • 작곡과 프로덕션: 녹음, MIDI, 프로세싱, 믹싱

Data and Processing

  • 컴퓨터의 역할은 음악 데이터를 디지털 형태로 표현하고 target task에 따라 처리하는 것이다.
    • 데이터: 오디오, MIDI, 텍스트(메타데이터)…
    • 처리: 오디오 압축(해제), 사운드 합성, 녹음, 디지털 오디오 효과, 편집, 믹싱…
  • 이런 음악 시스템에서 각 처리 단계는 디지털 신호처리, 음향 및 음악 이론과 같은 도메인 지식을 기반으로 인간이 직접 설계하고 프로그래밍 한다.

Machine Learning for Music?

  • ML은 데이터를 사용해 정확한 예측을 하는 방법을 컴퓨터에 가르치는 방법. ML 기반 시스템에서 각 처리 단계는 학습 알고리즘을 통해 데이터에서 학습된다.
  • 음악에 ML이 왜 필요할까?

Music Listening

  • 규모가 커짐
    • 스포티파이: 6천 만 개의 트랙, 매일 4만 개의 트락 추가, 플레이리스트 40만 개
    • 사운드클라우드; 트랙 2억 개
    • 유튜브: 분 당 500분의 비디오 업로드됨
  • 컨텐츠 구성, 검색 및 추천이 중요해짐
    • 메타데이터로는 음악의 “컨텐츠”를 설명하기에 충분치 않다.
    • 좀 더 풍부한 묘사가 필요해짐
  • Pandora’s Music Genome Project (1999)
    • 약 450개의 음악 속성으로 트랙에 주석을 닮 (장르, 악기, 음색 등등)
    • 음악 속성 벡터의 유사성을 사용해 재생 목록 생성
    • 문제점: 주석을 다는데 시간이 오래 걸림 (전문가가 수작업으로 직접 함). 음악 속성 딕셔너리의 사이즈가 fix되어 있음
  • 인간처럼 음악을 자연어로 묘사하는 법을 가르칠 필요가 있음
    • 음악을 음악 전문용어(장르, 악기, 음색 등)뿐만 아니라 청취 맥락(기분, 시각, 장소 등)과도 연관시키자

Music Perfomance

  • 모바일 앱이 음악 교육 및 엔터 분야에서 인기를 끌고 있음
    • 악보, 카라오케, 악기 학습 게임 등등
  • 스마트 기능의 출현
    • 성능 평가
    • 악보 따라가기, 페이지 튜닝
    • 자동 보조장치
  • 오디오에서 악보 정보 추출
  • 열악한 음향 조건에서 음원 식별 및 구분: 마이크, 반향, 간섭원
  • 피아노, 기타 등 다성음반 악기에서 다성음 감지
  • 컴퓨터에게 개별 소스를 분리하고 복잡한 청각 장면에서 음악 정보를 추출하는 방법을 가르쳐야 함
    • mixed audio에서 소스 분리
    • polyphonic 음악을 악보나 미디로 변환

Music Composition

  • 자동 음악 작곡 시도들
    • Illiac Suite (1957)
    • Experiments in Musical Intelligence (EMI) (1980s)
    • Numerous approaches in “algorithmic composition”
  • ML의 최근 발점
  • high-dimensional long-term sequential 데이터의 분포를 학습하고 인간이 부여한 조건에서 음악을 생성하는 방법을 컴퓨터에 가르쳐야 함
    • 시맨틱, 아티스트, 가사, 점수, 오디오 또는 선호도 등
    • 새로운 작품 제작 가능(인간과 결합)?

Machine Learning for Music

  • 음악을 듣고, 연주하고, 작곡하는 방법을 컴퓨터에 가르치는 강력한 수단
  • 최근 AI기술의 핵심요소는 주로 컴퓨터 비전, 음성 처리, NLP 분야에서 발달
    • 각각 이미지, 오디오, 텍스트 데이터 처리
    • 데이터 중십 접근법의 특성으로 이해 이미지, 오디오, 텍스트를 입력 또는 출력 데이터 형태로 사용하는 다양한 도메인에 딥러닝 기술이 적용됨
    • 음악 또한 많은 혜택을 받는 영역임!
  • 딥러닝은 representation learning임
    • 데이터의 타입을 보다 의미 있는 벡터 공간(즉, 형상 공간)으로 변환
    • 데이터 양식이 다른 벡터 공간은 대응에 의해 서로 연관됨
  • Modality-agnostic representation learning

공부할 것!

  • 선형 대수학
  • 확통
  • ML/DL 기초 이해
  • DSP : 디지털 필터, DFT 및 스펙트럼 분석
  • 파이썬
  • audio processing 라이브러리: librosa
  • scikit-learn, python