728x90
데이터 전처리 시 유의사항
음성인식 또는 음성합성에 사용되는 데이터를 전처리 하는 과정에 있어서 windows에서 작업한 파일을 Linux에서 열 경우 간혹 개행문자 (^M
) 가 입력되어 있을 때가 있다.
Linux에서 개행문자 (^M)
는 ctrl + v + M
로 입력하면 된다.
아래 예시와 같이 되어있을때 여러가지 방법으로 수정이 가능하다.
$ cat -v test.txt
test number1 ^M
test number2 ^M
test number3 ^M
1. VI 편집기에서 수정
# 한줄만 변경
:%s/^M//
# 모든 줄 변경
:%s/^M//g
2. sed 명령어로 수정
sed -i 's/^M//g' test.txt
3. awk 명령어로 수정
# test1.txt 파일로 저장
awk 'sub(^M/,"");1' test.txt > test1.txt
4. perl 명령어로 수정
perl -pi -e 's/^M//g' test.txt
728x90