Shell脚本自动化Trimmomatic数据清理，科研人必备技能！

创作时间:

作者:

@小白创作中心

Shell脚本自动化Trimmomatic数据清理，科研人必备技能！

引用

github

等

来源

https://github.com/lynn-sanford/RNASeq_processing_scripts/blob/master/03_trimming/trimmomatic.sbatch

https://www.biostars.org/p/378843/

https://www.biostars.org/p/379185/

https://www.biostars.org/p/364305/

https://www.biostars.org/p/294842/

https://www.biostars.org/p/364292/

https://www.seqanswers.com/forum/bioinformatics/bioinformatics-aa/61144-using-trimmomatic-on-multiple-paired-end-read-files

https://angus.readthedocs.io/en/2019/bash_automation.html

在生物信息学数据分析中，Trimmomatic是一个常用的读段修剪工具，主要用于去除测序数据中的接头序列和低质量碱基。当处理大量样本时，手动执行Trimmomatic命令会变得非常繁琐。因此，使用Shell脚本自动化这一过程，不仅能提高效率，还能减少人为错误。

为什么需要自动化处理？

假设你有几十个甚至上百个样本需要处理，每个样本都有正向和反向测序文件。如果手动执行Trimmomatic命令，你将需要重复输入类似的命令多次，这不仅耗时，还容易出错。而通过Shell脚本，你可以一次性处理所有样本，让计算机自动完成这些重复性工作。

Shell脚本基础结构

一个完整的Shell脚本通常包含以下几个部分：

Shebang行：指定脚本解释器，通常是#!/bin/bash
变量定义：存储常用的路径或参数
函数定义：封装可重用的代码块
主程序逻辑：脚本的核心执行部分
错误处理：确保脚本在遇到问题时能够优雅退出

完整示例脚本

下面是一个自动化处理Trimmomatic的Shell脚本示例，它能够批量处理所有指定目录下的双端测序数据：

#!/bin/bash

# 定义工具路径
TRIMMOMATIC="/path/to/trimmomatic.jar"
ADAPTERS="/path/to/adapters/TruSeq3-PE.fa"

# 定义输入输出目录
INPUT_DIR="/path/to/input"
OUTPUT_DIR="/path/to/output"

# 检查所需工具是否可用
TOOLS=("java" "trimmomatic")
check_tool() {
  if ! command -v $1 &> /dev/null; then
    echo "Error: $1 is not installed or not in PATH"
    exit 1
  fi
}
for tool in "${TOOLS[@]}"; do
  check_tool $tool
done

# 获取所有输入文件
for R1 in $INPUT_DIR/*_R1.fastq.gz; do
  R2="${R1/_R1/_R2}"
  base=$(basename $R1 _R1.fastq.gz)

  # 定义输出文件路径
  OUT1="$OUTPUT_DIR/${base}_paired_R1.fastq.gz"
  OUT2="$OUTPUT_DIR/${base}_paired_R2.fastq.gz"
  UNPAIRED1="$OUTPUT_DIR/${base}_unpaired_R1.fastq.gz"
  UNPAIRED2="$OUTPUT_DIR/${base}_unpaired_R2.fastq.gz"

  # 执行Trimmomatic命令
  java -jar $TRIMMOMATIC PE \
    -threads 4 \
    -phred33 \
    $R1 $R2 \
    $OUT1 $UNPAIRED1 $OUT2 $UNPAIRED2 \
    ILLUMINACLIP:$ADAPTERS:2:30:10 \
    LEADING:3 \
    TRAILING:3 \
    SLIDINGWINDOW:4:15 \
    MINLEN:36
done

脚本解析

Shebang行：#!/bin/bash 指定使用Bash shell解释器。
变量定义：
- TRIMMOMATIC 和 ADAPTERS 存储Trimmomatic JAR包和适配器文件的路径。
- INPUT_DIR 和 OUTPUT_DIR 分别存储输入和输出文件的目录。
工具检查函数：
- check_tool 函数检查指定工具是否可用，如果不可用则输出错误信息并退出脚本。
- 使用 command -v 命令检测工具是否在PATH中。
主程序逻辑：
- 使用 for 循环遍历所有正向读段文件（以 _R1.fastq.gz 结尾）。
- 通过字符串替换获取对应的反向读段文件名。
- 定义输出文件的路径。
- 执行Trimmomatic命令，使用PE模式处理双端测序数据。