本研習會以「癌症基因體與大數據資料處理分析」為主題,藉由簡明互動的授課方式,讓學員經由實機操作熟悉相關軟體、資料庫及數據處理的方法。期望此研習會能提供相關領域之研究學者及學生在實驗數據分析上之助益,本課程還有一個月的觀看影片重播時間,可自行在個人電腦環境中進行演練,歡迎對生物資訊分析有興趣的師生踴躍參加。課程簡介如下:
課程主題:癌症基因體與大數據資料處理分析
高通量定序技術為生物醫學領域挹注了龐大的生物大數據,有別以往定序技術侷限於單基因研究,透過高通量定序產生的大數據,除了能提供單基因致病的快速定位外,更蘊含著探討多基因、多位點變異等複雜疾病的寶貴資訊。這些資訊透過生物資訊分析,可發現與疾病相關的致病候選基因與突變位點,再經由實驗驗證與確效後,將有機會應用於臨床診斷與藥物開發。
本次課程內容安排豐富實用,第一天的內容以癌症基因體高通量數據分析為主,介紹癌症基因體資料庫與數據分析工具。此外,龐大的生物數據若無法有效歸類並加以分析與整合,會落入空有資料卻毫無價值的窘境,有鑑於此,我們特別從"生物大數據視覺化實作"的角度,引導學員實機操作生物醫學數據處理與圖表製作,學習自動化資料處理與分析的方法,產出高可靠性與高再現性的分析結果。舉例來說,維恩圖(Venn diagram)是廣泛使用的集合視覺化分析工具,常用於不同集合間的交集、差集與聯集運算,藉此挑選共同元素。
第二天的課程將介紹如何利用網頁與R語言套件快速繪製2-7個集合的維恩圖。R 語言是公認處理大數據的超強工具,語法簡單直覺,而且還支援許多功能強大的延伸套件,R 也是繪製維恩圖的首選,提供了多個可繪製維恩圖的套件,當面臨更多數據集合需要分析時,手邊除了基本的Excel技巧外,是否有更合適的繪圖工具或方法,也將於本課程中帶領學員一同探討。
第三天的課程將藉由Python Orange3視覺化程式設計工具,介紹GSEA(Gene Set Enrichment Analysis)、 KEGG Pathways和Single Cell Analysis。Orange3是簡單易上手的資料視覺化工具,輕鬆操作即可進行資料分析及開發基礎模型,提供使用者以圖像化、視覺化的方式,更有系統地展現資料數據,除了可以學習到資料探勘(Data Mining)與機器學習(Machine Learning)方法,同時也可以了解到程式語言在生醫方面的支援與應用。
第四天的課程以流病資料的分析與應用實作為主,使用Python為分析工具,Python歷經了大數據及人工智慧的發展,已成為目前最普及的程式語言,此次將與生物大數據資料結合,非常歡迎無程式設計經驗,但是卻想一窺Python這個熱門語言且又能簡單應用的學員參加。學員將會發現,除了Excel外, Python也是絕佳的數據分析與圖表展現工具。
第五天的課程會介紹Kaggle數據資料庫平台的應用,學員能從Kaggle資料庫下載到許多的數據供學習、研究使用。舉例來說,本課程將會介紹一個Kaggle的細胞計數AI模型,藉由1200張從Kaggle下載的影像資料,讓學員實作開發一套AI細胞計數分析工具,除了細胞計數之外,也可以應用在其它的影像分析,像是腫瘤細胞計數、群眾運動人數計數等。
議程:
2022年8月1日(一) 主題:癌症基因體資料庫與高通量數據分析(實作)
09:30 ~ 11:00 | 癌症基因體資料庫:介紹美國TCGA癌症基因體圖譜資料庫與ICGC國際癌症基因體資料庫 黃柏榕 老師 |
11:00 ~ 12:30 | 癌症基因體高通量數據分析(實作)- 癌症基因體分析軟體VAReporter, maftools R package 黃柏榕 老師 |
2022年8月2日(二) 主題:維恩圖-集合視覺化分析工具實作
09:30 ~ 12:30 | 維恩圖(Venn diagram)- 集合視覺化分析工具實作 黃柏榕 老師 |
2022年8月3日(三) 主題:Orange視覺化資料分析工具實作
09:30 ~ 12:30 | Orange視覺化資料分析工具實作 葉元鳴 老師 |
2022年8月4日(四) 主題:Python在流病資料的分析與應用實作
09:00 ~ 12:00 | Python在流病資料的分析與應用實作 劉儼毅 老師 |
2022年8月5日(五) 主題:Kaggle database and Cell segmentation
09:30 ~ 12:30 | Kaggle database and Cell segmentation 李季青 老師 |