InterProScan软件使用
BioNote 2023-03-29
Gene Anno
# 介绍
InterProScan 是个基因注释工具,可以同时得到多种数据库的注释结果,描述蛋白属于的家族,及其包含的结构域和作用位点。
# 软件安装及测试
# 环境配置
软件需求
- 64位linux
- Perl5
- python3
- JDK 11
# 使用centos8的镜像
更新yum源:
wget -O /etc/yum.repos.d/CentOS-Base.repo https://repo.huaweicloud.com/repository/conf/CentOS-8-reg.repo
yum makecache
1
2
2
# 安装python3和perl
yum install python3 perl -y
1
# 安装JDK11
确认环境中无java, 有的话清除原有java
- rpm -qa | grep java
- 依次卸载包:rpm -e --nodeps "package_name"
cd /opt/
wget https://repo.huaweicloud.com/openjdk/11.0.1/openjdk-11.0.1_linux-x64_bin.tar.gz
tar -zxf openjdk-11.0.1_linux-x64_bin.tar.gz
rm -f openjdk-11.0.1_linux-x64_bin.tar.gz
1
2
3
4
2
3
4
配置JAVA环境 在 /etc/profile中加入:
export JAVA_HOME=/opt/jdk-11.0.1
export CLASSPATH=$:CLASSPATH:$JAVA_HOME/lib/
export PATH=$PATH:$JAVA_HOME/bin
1
2
3
4
5
2
3
4
5
# 其它的可能问题
loading shared libraries: libgomp.so.1: cannot open shared object file: No such file or directory
安装如下依赖并配置共享库
yum install libnsl.x86_64 libgomp
ldconfig
1
2
2
# 安装方法
# 下载软件
mkdir my_interproscan
cd my_interproscan
wget https://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.61-93.0/interproscan-5.61-93.0-64-bit.tar.gz
wget https://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.61-93.0/interproscan-5.61-93.0-64-bit.tar.gz.md5
1
2
3
4
5
2
3
4
5
md5校验通过后解压
tar -pxvzf interproscan-5.61-93.0-*-bit.tar.gz
1
# 对hmm模型建索引
python3 setup.py -f interproscan.properties
1
以前版本的 InterProScan 需要单独安装 Panther 数据。从 InterProScan 5.47-82.0 开始,Panther 数据与软件数据捆绑在一起。
# 使用Local Pre-calculated Match Lookup Service (Optional)
预先计算的匹配查找 Web 服务能够为超过 5 亿个蛋白质序列提供匹配,包括 UniProtKB 中的所有序列。
默认情况下,InterProScan 配置(在 interproscan.properties 文件中)使用托管在 EBI 的网络服务。服务器需要具有对http://www.ebi.ac.uk 的外部访问权限才能使用它。
InterProScan 使用此服务来检索预先计算的匹配项,从而减少对服务器计算的需求并加快响应时间。
关闭该服务: 分析时添加 -dp 参数或编辑interproscan.properties并注释掉对应行
precalculated.match.lookup.service.url=http://www.ebi.ac.uk/interpro/match-lookup
1
# 测试
软件提供了一个测试用蛋白质文件test_all_appl.fasta
分别测试与ebi联网和不联网时候的计算用时和结果
./interproscan.sh -i test_all_appl.fasta -f tsv -dp
./interproscan.sh -i test_all_appl.fasta -f tsv
1
2
2
无 db 参数(联网) | 有 db 参数(不联网) | |
---|---|---|
real | 0m54.901s | 2m13.112s |
user | 1m54.784s | 5m46.940s |
sys | 0m11.747s | 0m43.612s |
测试用数据得到的注释结果无区别