فرمت های ژنومیکس
🧬 1. FASTQ
مرحله: خروجی خام دستگاه سکوئنسینگ
کاربرد: ذخیرهی توالی خواندهها (reads) و کیفیت هر باز
ساختار:
هر Read چهار خط دارد:
- شناسه (ID) – نام خوانده
- توالی نوکلئوتیدی (A, T, G, C, N)
- خط جداکننده (+)
- امتیازات کیفیت (Quality scores) که با حروف ASCII نمایش داده میشن (مثلاً Phred score)
هر فایل FASTQ معمولاً بسیار بزرگ است و شامل میلیونها read است.
گاهی هر نمونه دو فایل دارد (paired-end) → R1.fastq, R2.fastq.
🔁 2. SAM (Sequence Alignment/Map)
مرحله: بعد از همترازی (mapping/alignment)
کاربرد: نشان میدهد هر read به چه موقعیتی از ژنوم مرجع همتراز شده.
ویژگیها:
- فایل متنی (text-based)
- اطلاعات کامل در مورد هر read و محل و جهت همترازی آن دارد.
اجزای اصلی هر خط:
| ستون | معنی |
|---|---|
| QNAME | نام read |
| FLAG | اطلاعات دودویی (مثلاً paired, reverse strand, mapped, unmapped) |
| RNAME | نام کروموزوم مرجع |
| POS | محل شروع همترازی |
| MAPQ | کیفیت همترازی |
| CIGAR | نحوهی همخوانی بازها (match, insertion, deletion) |
| SEQ | توالی خوانده |
| QUAL | کیفیتها |
📘 نمونه خط SAM:
Read001 99 chr7 117232 60 76M = 117389 233 AGTCCGAATC... IIIII...💾 3. BAM (Binary Alignment/Map)
مرحله: نسخه فشردهشده و بهینهشده از فایل SAM
کاربرد: برای ذخیرهسازی، پردازش و تحلیل سریعتر دادههای همترازشده
ویژگیها:
- فرمت باینری (غیرمتنی) → خوانده نمیشود ولی بسیار کوچکتر و سریعتر قابل پردازش است.
- بیشتر ابزارهای NGS (مثل
samtools,bcftools,GATK) باBAMکار میکنند. - معمولاً فایل همراه با اندیس است →
sample.bam+sample.bai
CRAM یکی از فرمتهای نسبتاً جدید و پیشرفتهتر از BAM در نگهداری دادههای توالییابی (NGS) است.
💾 CRAM (Compressed Reference-based Alignment Map)
هدف: کاهش حجم فایلهای همتراز شده (alignment) بدون از دست دادن اطلاعات.
یعنی تصور کن همان فایل BAM را داری، فقط بهصورت فشردهتر و هوشمندتر ذخیره شده.
🔍 ویژگیهای اصلی:
| ویژگی | توضیح |
|---|---|
| نوع فرمت | باینری، مانند BAM |
| مبنای فشردهسازی | به جای ذخیرهٔ توالی کامل خواندهها، تفاوت هر read با ژنوم مرجع را ذخیره میکند |
| ارجاع به مرجع | برای بازسازی کامل دادهها (توالی اصلی)، باید ژنوم مرجع در دسترس باشد |
| سازگاری نرمافزاری | بیشتر ابزارهای NGS مثل samtools, bcftools, Picard, GATK با نسخههای جدیدش پشتیبانیش میکنن |
| مزیت فنی | حجم فایل تا حدود 40–70٪ کمتر از BAM میتونه بشه، بدون افت اطلاعات |
| پسوند فایل | .cram |
🔄 زنجیرهٔ دادهها در آنالیز
content_copy textFASTQ → alignment (SAM) → BAM → CRAM
🧠 مقایسه سریع BAM و CRAM
| ویژگی | BAM | CRAM |
|---|---|---|
| نوع فشردهسازی | فشردهسازی کلی داده | فشردهسازی مبتنی بر ژنوم مرجع |
| نیاز به مرجع هنگام خواندن | اختیاری | الزامی |
| حجم فایل | بیشتر | کمتر |
| سازگاری با ابزارهای قدیمی | کامل | نیاز به نسخههای جدیدتر |
| سرعت فشردهسازی/بازخوانی | نسبتاً سریعتر | کمی پیچیدهتر |
🔧 نمونه دستور با samtools
samtools view -C -T reference.fasta -o sample.cram sample.bam
# مشاهده محتوا
samtools view sample.cram | head
درباره Dr.Arash Poursheikhani-metabiome
گروه آموزشی متابیوم ارائه دهنده دوره های آموزش کارشناسی ارشد و دکتری و برگزار کننده کارگاه های حوضه ژنتیک و بیوانفورماتیک می باشد. با ما بهترین باش. ;)
نوشتههای بیشتر از Dr.Arash Poursheikhani-metabiome
دیدگاهتان را بنویسید