Programming

[Linux] 데이터 전처리 시 유의 사항 (개행문자 제거)

1code 2021. 12. 16. 20:00
728x90

데이터 전처리 시 유의사항

음성인식 또는 음성합성에 사용되는 데이터를 전처리 하는 과정에 있어서 windows에서 작업한 파일을 Linux에서 열 경우 간혹 개행문자 (^M) 가 입력되어 있을 때가 있다.

Linux에서 개행문자 (^M)ctrl + v + M 로 입력하면 된다.

 

아래 예시와 같이 되어있을때 여러가지 방법으로 수정이 가능하다.

$ cat -v test.txt
test number1 ^M
test number2 ^M
test number3 ^M

 

1. VI 편집기에서 수정

# 한줄만 변경
:%s/^M//
# 모든 줄 변경
:%s/^M//g

 

2. sed 명령어로 수정

sed -i 's/^M//g' test.txt

 

3. awk 명령어로 수정

# test1.txt 파일로 저장
awk 'sub(^M/,"");1' test.txt > test1.txt

 

4. perl 명령어로 수정

perl -pi -e 's/^M//g' test.txt
728x90