생명과학 :BLAST + /서열분석도구

by icebolt

참고블로그는 다음과 같다.

http://www.ibric.org/myboard/read.php?Board=news&id=256043&BackLink=L215Ym9hcmQvbGlzdC5waHA/Qm9hcmQ9bmV3cyZQQVJBMz0xMA==


이 블로그는 위 블로그 내용에 따라 직접 실습한 내용을 적어놓은 학습노트입니다. 고주온박사님께 감사드립니다.



설치

1) 윈도우 설치용 파일 (32비트-윈도우: ncbi-blast-2.2.30+-win32.exe 또는 64비트-윈도우: ncbi-blast-2.2.30+-win64.exe)

ftp://ftp.ncbi.nih.gov/blast/executables/blast+/LATEST



위 링크를 클릭하면 다음처럼 나온다. 혹 32비트 사용자라면 해당 파일명이 없어서 당황할 수 있다. 왼쪽 위 상위디렉토리를 클릭하면 32비트용 마지막 버전이 나온다.

990F0B365AA1E3C32C3A8D



32비트 마지막 버전이다. 3번째 실행용파일은 다운받으면 된다.

99D40C365AA1E3C202E0CF



tnftp로 초파리 (Drosophila melanogaster)의 단백질 (drosoph.aa)과 DNA (drosoph.nt) 서열 데이터를 다운받아 자체 BLAST+ 데이터베이스를 만들고 분석해 본다.



1. which blastp #도구들이 설치 된 위치확인

2. apt-cyg install tnftp #apt-cyg패키지를 사용하여 tnftp내려받기

99F2C13A5AA1E5D7011C63



3. type -a tnftp #다운받은 tnftp도구 위치확인

4. mkdir -p BLAST/blastdb #디렉토리를 만든다.

5. cd BLAST/blastdb

6. tnftp ftp.ncbi.nih.gov #NCBI FTP 사이트에 접속한다.

7. 로그인은 anonymous #익명으로 접속한다. 주의할 점은 30초내에 입력을 마쳐야 한다. 아니면 다시 접속을 해야한다. 접속한후도 마찬가지로 30초에서 60초까지 입력을 마치도록 되어 있으므로 타자를 빨리치는 것이 좋다.^^

8.비밀번호는 이메일을 입력 #아무리 타자를 쳐도 키가 입력이 않되니다. 헉! 이메일을 복붙했더니 접속이 된다. 암호라서 드러나지 않도록 만든것 같다.

99F2FB3A5AA1E5D8018ABA




9. cd/blast/db/FASTA #원하는 자료가 있는 디렉토리로 이동

10. ls drosoph.* #다운받고자 하는 자료 검색

11. mget drosoph.* #mget명령으로 다운로드한다.

12. a #여러파일을 받을지 묻는질문에 all의 약자인 a를 입력

13. ? # ?는 ftp에서 사용하는 명령어 확인용

14. ls #확인

15. quit #접속종료

9985933A5AA1E5D82AAD0B




쉘 프롬프트에서 다음을 확인한다.

1. md5sum drosoph.aa.gz #md5sum으로 무결점성 확인

2. cat drosoph.aa.gz.md5 # cat으로 무결정성확인 . 1과2는 출력하여 확인하는 방법

3. md5sum -c drosoph.aa.gz.md5 #출력이 아니라 프로그램상에서 확인하는 방법

4. gunzip drosoph.aa.gz #gzip으로 파일압축을 풀기

5. gunzip drosoph.nt.gz

6. ls

9958B83A5AA1E5D909CF3A




7. head drosoph.aa # head 명령으로 파일 앞부분확인

8. less drosoph.aa # less 명령으로 내용을 출력해본다.

9. q # 출력을 중지하고자 할때 사용한다.

993B553A5AA1E5D93807C4


keyword
매거진의 이전글생명과학: Cygwin_패키지설치