KAIST 문화기술대학원의 GCT634 수업 자료로 공부한 내용입니다. 수업을 직접 들은 것은 아니라 혼자 자료로만 공부한거라 틀린 부분이 있을 수 있음!
Music and Computer
- 이제 컴퓨터는 음악 활동에 필수적이다.
- Music listening: download music tracks as compressed audio files and uncompress them into waveforms
- 음악 청취: 음악 트랙을 압축 오디오 파일로 다운받아 waveform으로 압축 해제
- 음악 공연: 음악 악기, 노래방 기계 등등
- 작곡과 프로덕션: 녹음, MIDI, 프로세싱, 믹싱
Data and Processing
- 컴퓨터의 역할은 음악 데이터를 디지털 형태로 표현하고 target task에 따라 처리하는 것이다.
- 데이터: 오디오, MIDI, 텍스트(메타데이터)…
- 처리: 오디오 압축(해제), 사운드 합성, 녹음, 디지털 오디오 효과, 편집, 믹싱…
- 이런 음악 시스템에서 각 처리 단계는 디지털 신호처리, 음향 및 음악 이론과 같은 도메인 지식을 기반으로 인간이 직접 설계하고 프로그래밍 한다.
Machine Learning for Music?
- ML은 데이터를 사용해 정확한 예측을 하는 방법을 컴퓨터에 가르치는 방법. ML 기반 시스템에서 각 처리 단계는 학습 알고리즘을 통해 데이터에서 학습된다.
- 음악에 ML이 왜 필요할까?
Music Listening
- 규모가 커짐
- 스포티파이: 6천 만 개의 트랙, 매일 4만 개의 트락 추가, 플레이리스트 40만 개
- 사운드클라우드; 트랙 2억 개
- 유튜브: 분 당 500분의 비디오 업로드됨
- 컨텐츠 구성, 검색 및 추천이 중요해짐
- 메타데이터로는 음악의 “컨텐츠”를 설명하기에 충분치 않다.
- 좀 더 풍부한 묘사가 필요해짐
- Pandora’s Music Genome Project (1999)
- 약 450개의 음악 속성으로 트랙에 주석을 닮 (장르, 악기, 음색 등등)
- 음악 속성 벡터의 유사성을 사용해 재생 목록 생성
- 문제점: 주석을 다는데 시간이 오래 걸림 (전문가가 수작업으로 직접 함). 음악 속성 딕셔너리의 사이즈가 fix되어 있음
- 인간처럼 음악을 자연어로 묘사하는 법을 가르칠 필요가 있음
- 음악을 음악 전문용어(장르, 악기, 음색 등)뿐만 아니라 청취 맥락(기분, 시각, 장소 등)과도 연관시키자
Music Perfomance
- 모바일 앱이 음악 교육 및 엔터 분야에서 인기를 끌고 있음
- 악보, 카라오케, 악기 학습 게임 등등
- 스마트 기능의 출현
- 성능 평가
- 악보 따라가기, 페이지 튜닝
- 자동 보조장치
- 오디오에서 악보 정보 추출
- 열악한 음향 조건에서 음원 식별 및 구분: 마이크, 반향, 간섭원
- 피아노, 기타 등 다성음반 악기에서 다성음 감지
- 컴퓨터에게 개별 소스를 분리하고 복잡한 청각 장면에서 음악 정보를 추출하는 방법을 가르쳐야 함
- mixed audio에서 소스 분리
- polyphonic 음악을 악보나 미디로 변환
Music Composition
- 자동 음악 작곡 시도들
- Illiac Suite (1957)
- Experiments in Musical Intelligence (EMI) (1980s)
- Numerous approaches in “algorithmic composition”
- ML의 최근 발점
- 높은 데이터 중심 방식으로 음악 데이터의 순차적 순서를 학습
- MIDI or audio generation
- high-dimensional long-term sequential 데이터의 분포를 학습하고 인간이 부여한 조건에서 음악을 생성하는 방법을 컴퓨터에 가르쳐야 함
- 시맨틱, 아티스트, 가사, 점수, 오디오 또는 선호도 등
- 새로운 작품 제작 가능(인간과 결합)?
Machine Learning for Music
- 음악을 듣고, 연주하고, 작곡하는 방법을 컴퓨터에 가르치는 강력한 수단
- 최근 AI기술의 핵심요소는 주로 컴퓨터 비전, 음성 처리, NLP 분야에서 발달
- 각각 이미지, 오디오, 텍스트 데이터 처리
- 데이터 중십 접근법의 특성으로 이해 이미지, 오디오, 텍스트를 입력 또는 출력 데이터 형태로 사용하는 다양한 도메인에 딥러닝 기술이 적용됨
- 음악 또한 많은 혜택을 받는 영역임!
- 딥러닝은 representation learning임
- 데이터의 타입을 보다 의미 있는 벡터 공간(즉, 형상 공간)으로 변환
- 데이터 양식이 다른 벡터 공간은 대응에 의해 서로 연관됨
- Modality-agnostic representation learning
공부할 것!
- 선형 대수학
- 확통
- ML/DL 기초 이해
- DSP : 디지털 필터, DFT 및 스펙트럼 분석
- 파이썬
- audio processing 라이브러리: librosa
- scikit-learn, python