Pandas๊ฐ ํ์ผ์์ ๋ฐ์ดํฐ๋ฅผ ์ฝ์ ๋ ์ฌ๋ฌ ์ฃผ์ ๋ฌธ์๋ฅผ ์ง์ํ๋ค๋ฉด ๋งค์ฐ ๊ธฐ์ ๊ฒ์ ๋๋ค. ์ ๋ฐ๋ฅด๋ฉด:
import pandas as pd
df = pd.read_table("data.dat", comment=("#","@"), delim_whitespace=True)
์ด๊ฒ์ด ์ฌ์ํ ๋๋ ์ฃผ์ ๊ตฌํ ๋ ธ๋ ฅ์ด ํ์ํ์ง ๋ชจ๋ฅด๊ฒ ์ต๋๋ค.
์ต์์,
์๋ฆญ
์ด๊ฒ์ ์ฝ๊ฐ์ ๋ ธ๋ ฅ์ด ๋ ๊ฒ์ ๋๋ค. ํ๋ ๊ธฐ๋ ๊ธฐ๋ณธ์ ์ผ๋ก ๋ฐ์ดํธ ๋จ์์ ๋๋ค(์ผ๋ถ ์ญ์ฐธ์กฐ ๊ธฐ๋ฅ ํฌํจ). ๋ฐ๋ผ์ ์ฑ๋ฅ์ ์ธ ๋ฐฉ์์ผ๋ก ์ฃผ์ ๋ฌธ์์ ๋ฒํผ๋ฅผ ๋ค์ ํ์ธํด์ผ ํฉ๋๋ค(์ง๊ธ์ ๋จ์ผ ๋ฌธ์์ ๋ํด ํ์ธํ์ง๋ง NULL์ด ์๋ ๊ฒฝ์ฐ์๋ง). ํ ์ ์์ต๋๋ค.
๊ด๋ จ๋:
์ฃผ์ ๋ฌธ์๊ฐ ์ค์ ๋ก ๋ ๋ฌธ์(์: "##")์ผ ์ ์๋ค๋ฉด ์ข์ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, VCF ํ์ผ์์ ์ผ๋ถ ๋ฉํ ๋ฐ์ดํฐ๋ ์ค์ ํ ์ด๋ธ์ด ์์๋๊ธฐ ์ ์ ํ์ผ ์์ ๋ถ๋ถ์ "##"์ด ์ง์ ๋ฉ๋๋ค.
http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
์ข ์ข ์ฌ๋๋ค์ ์ด๊ฒ๋ค์ ๋ฌด์ํ๊ณ ์ถ์ดํ์ง๋ง:
df = pd.read_csv("data.vcf", comment="##")
์๋ํ์ง ์์ต๋๋ค. VCF์ ๊ฒฝ์ฐ ํค๋ ํ์ด ์ค์ ๋ก ๋จ์ผ "#"์ผ๋ก ์์ํ๊ธฐ ๋๋ฌธ์ comment="#"
๋ง ์ฌ์ฉํ๋ ๊ฒ์ ์๋ํ์ง ์์ต๋๋ค.
์ด๊ฒ์ ์ด๋ ค์ธ ๊ฒ์ ๋๋ค. ๋๋ ์ง๊ธ ์ด๊ฒ์ ๋ซ๋๋ค
๊ฐ์ฅ ์ ์ฉํ ๋๊ธ
๊ด๋ จ๋:
์ฃผ์ ๋ฌธ์๊ฐ ์ค์ ๋ก ๋ ๋ฌธ์(์: "##")์ผ ์ ์๋ค๋ฉด ์ข์ ๊ฒ์ ๋๋ค. ์๋ฅผ ๋ค์ด, VCF ํ์ผ์์ ์ผ๋ถ ๋ฉํ ๋ฐ์ดํฐ๋ ์ค์ ํ ์ด๋ธ์ด ์์๋๊ธฐ ์ ์ ํ์ผ ์์ ๋ถ๋ถ์ "##"์ด ์ง์ ๋ฉ๋๋ค.
http://www.internationalgenome.org/wiki/Analysis/vcf4.0/
์ข ์ข ์ฌ๋๋ค์ ์ด๊ฒ๋ค์ ๋ฌด์ํ๊ณ ์ถ์ดํ์ง๋ง:
์๋ํ์ง ์์ต๋๋ค. VCF์ ๊ฒฝ์ฐ ํค๋ ํ์ด ์ค์ ๋ก ๋จ์ผ "#"์ผ๋ก ์์ํ๊ธฐ ๋๋ฌธ์
comment="#"
๋ง ์ฌ์ฉํ๋ ๊ฒ์ ์๋ํ์ง ์์ต๋๋ค.