728x90

분류 전체보기 25

[환경설정] NVIDIA 드라이버 설치 (in Ubuntu 16.04)

Ubuntu 16.04에 NVIDIA 드라이버 설치 1. NVIDIA Driver 다운로드 [NVIDIA 홈페이지]에서 제품의 사양에 맞게 검색 후 버전 선택하여 설치한다. 이 PC의 경우 아래 그림과 같이 설정되어 있다. 제품 유형 및 운영체제를 선택하여 검색하면 아래와 같이 버전 리스트가 나오고 원하는 버전을 다운로드하면 된다. 2. 기존 드라이버 제거 or Nobeau 드라이버 제거 Ubuntu에는 default로 드라이버가 설치되어있다. 이 드라이버를 삭제하지 않으면 NVIDIA 드라이버와 출동이 발생하는 경우가 있어서 깔끔하게 삭제를 한 뒤에 설치를 진행하자. (이전버전의 NVIDIA 드라이버가 설치되어있으면 이거 또한 삭제해준다.) 기존 설치된 NVIDIA 드라이버 내용 삭제 $ sudo ap..

Setting 2021.11.24

[음성인식] 화자분리 (x-vector 클러스터링 기반의 Speaker Diarization)

x-vector 클러스터링 기반의 Speaker Diarization SAD(Speech Activity Detection) : 음성(Speech)과 비음성(Non-speech) 구간 검출 (VAD와 유사) x-vector extraction : x-vector 특징 추출 PLDA scoring : 확률적 선형 판별 분석 점수 계산 AHC(Agglomerative Hierarchical Clustering) 작은 단위로부터 클러스터링을 시작하여 모든 데이터를 묶을 때까지 반복하는 Bottom-Up 방식으로 클러스터링을 진행 가장 근접한 데이터끼리 클러스터링을 진행 -> 클러스터와 가장 근접한 데이터를 클러스터링 -> 하나의 클러스터링이 될때까지 반복 진행 참고 Recipe : kaldi/egs/libri..

[음성인식] 화자분리(Speaker Diarization)

화자분리(Speaker Diarization) 대화, 상담, 회의 등과 같은 2명 이상의 화자가 발언하는 음성 샘플로부터 화자가 누구인지, 언제 어떤 말을 했는지 확인하는 기술 "Who spoke when?" 아래 예시 처럼 하나의 음성 샘플에서 A화자와 B화자로 분리해 주는 기술이다. 접근 방법 Bottom-Up Approach : 클러스터 수를 연속적으로 병합하여 줄여 각 화자에 대응하는 하나의 클러스터 혹은 모델이 남을 때 까지 반복 학습하는 것을 목표 Top-Down Approach : 단일 화자 모델로 전체 음성 샘플을 모델링 한 후 전체 화자 수가 계산될 때까지 새로운 모델을 연속적으로 추가하는 방식. Bottom-Up 방식에 비하여 성능은 떨어지지만, 계싼 효율이 좋고 클러스터 정제를 통해 ..

[음성인식] 음성인식의 개념

음성인식(Speech Recognition) 음성의 데이터를 문자 데이터로 전환하는 처리. STT(Speech-to-Text) 미리 기록해 둔 음성 패턴과 비교해 개인 인증 등의 용도로 사용하기도 하는데 이를 "화자인식"이라고 한다. 화자 인식(Speaker Recognition) 화자가 누구인지 식별하는 기술 기능에 따라 화자 식별(Speaker Identification) 화자 검증(Speaker Verification)으로 구분이 가능하다. 특정 문장의 사용에서의 인식에 따라 문장 독립 방식(Text-Independent)과 문장 종속 방식(Text-Dependent)으로 구분이 가능하다. 문장 독립 방식 : 화자 인식을 위해 발언하는 문장의 형식이나 종류에 제한이 없는 방식 문장 종속 방식 : 화..

[음성합성] 음성합성의 개념

음성합성(Speech Synthesis) 말소리의 음파를 기계가 자동으로 만들어 내는 기술 한 사람의 말소리를 녹음하여 필요한 음성 단위만 사용하여 인위적으로 음성을 만들어내는 기술. TTS(Text-to-Speech) TTS(Text-to-Speech) 입력된 텍스트를 텍스트 분석 단계에서 각 언어에 맞게 처리한 후 임베딩 과정을 거친다. 임베딩 과정에서 처리된 특정 벡터들은 인코더-디코더 (Encoder-Decoder)를 거쳐 멜-스펙트로그램(Mel-spectrogram)으로 변환된다. 생성된 멜-스펙트로그램은 보코더를 통해 음성으로 출력된다. 보편적으로 사용되고 있는 음성 합성 기술 : 연결합성(Concatenative Synthesis)과 SPSS(Statistical Parametric Spee..

728x90