참고블로그는 다음과 같다.
이 블로그는 위 블로그 내용에 따라 직접 실습한 내용을 적어놓은 학습노트입니다. 고주온박사님께 감사드립니다.
> 표시 바로 다음의 gi는 NCBI에서 매기는 서열 식별자 숫자이며, | 표시 다음의 숫자가 gi number이다. 계속 | 표시로 구분되면서 나오는 gb는 GenBank 식별자를 의미하며, gb 식별자에 . 표시 다음의 숫자는 gb식별자의 판 번호 (버전; version)를 의미한다.
BLAST+ 데이터베이스 생성 명령문
drosoph.aa에 대한 BLAST 데이터베이스를 생성하고 결과를 확인한다.이것으로 FASTA형식의 drosoph.aa 파일의 BLAST 데이터베이스가 만들어 졌다.
$ makeblastdb -in drosoph.aa -dbtype prot -parse_seqids -hash_index -out drosoph .aa -title "D.melanogaster NCBI protein DB"user@user-PC ~/BLAST/blastdb # -in 옵션 뒤에는 데이터베이스화할 데이터 파일의 이름을 입력
$ ls drosoph.aa* # 파일 확인
NCBI+ 데이터베이스를 만드는 위의 명령문에서
makeblastdb -in drosoph.aa -dbtype prot -parse_seqids -hash_index -out drosoph .aa -title "D.melanogaster NCBI protein DB"
FASTA 파일이 없다면, NCBI단백질 검색웹사이트 (http://www.ncbi.nlm.nih.gov/protein)
에서 필요한 단백질 (OR83b의 경우, Q9VNB5)을 검색 FASTA 형식으로 (결과 화면의 윗 부분에서, Identical Proteins와 Graphics 사이에 있는 FASTA를 클릭하여 나오는 화면의 > 표시부터 맨 아랫 줄까지 copy & paste하여 편집기에서 해당 디렉터리에 filename.faa로 저장) 받아 올 수 있다.
user@user-PC ~/BLAST/blastdb
$ vi or83b_Dmel.faa #vi편집창에서 i를 입력하여 복붙하면 FASTA내용을 입력할 수 있다. 나올때는 Esc >> :wq 이다.
파일을 확인해보면 다음과 같다.
user@user-PC ~/BLAST/blastdb
$ ls
drosoph.aa drosoph.aa.phr* drosoph.aa.pog* drosoph.nt
drosoph.aa.gz.md5 drosoph.aa.pin* drosoph.aa.psd* drosoph.nt.gz.md5
drosoph.aa.phd* drosoph.aa.pnd* drosoph.aa.psi* or83b_Dmel.faa
drosoph.aa.phi* drosoph.aa.pni* drosoph.aa.psq*
분석 대상 FASTA 파일을 자신의 BLAST/blastdb 디렉터리에 옮기고 다음과 같이 실행해 보자.
user@user-PC ~/BLAST/blastdb
$ blastp -query or83b_Dmel.faa -db drosoph.aa -out or83b_blp.out #화면상에는 아무런 변화가 없다. 그래서 잘못된건 아닌가 해서 다시 입력하지 않도록 하자^^
$ more or83b_blp.out #결과파일을 출력한다.
출력되는 내용을 보면 앞의 참고 문헌 아래의 Database: 옆에 D. melanogaster NCBI protein DB 라고 되어 있는 부분이 보일 것이다.