Tin sinh học là lĩnh vực khoa học mới có tính ứng dụng cao trong cuộc sống, đặc biệt là trong lĩnh vực công nghệ sinh học, nông nghiệp và y dược. Tin sinh học là lĩnh vực khoa học liên ngành, trong đó sinh học và tin học đóng vai trò chủ đạo. Về cơ bản, tin sinh học tập trung vào nghiên cứu, phát triển và áp dụng các phương pháp và công cụ tin học để giải quyết các bài toán trong sinh học.
Giáo trình này được thiết kế cho sinh viên ngành công nghệ thông tin và là tài liệu tham khảo cho sinh viên công nghệ sinh học. Giáo trình yêu cầu người đọc có những kiến thức và hiểu biết cơ bản về tin học. Để làm được việc đó, giáo trình tập trung vào giới thiệu các khái niệm, các bài toán cũng như các phương pháp cơ bản trong sinh học phân tử và tin sinh học. Các phương pháp được trình bày chi tiết kèm theo các ví dụ minh họa để người đọc có thể dễ dàng hiểu được mà không yêu cầu kiến thức chuyên sâu về sinh học phân tử hay tin học. Giáo trình cũng tập trung giới thiệu những phương pháp và phần mềm hiện đại nhất để giải quyết các bài toán đã nêu, qua đó giúp người đọc có khả năng sử dụng các phương pháp cũng như các phần mềm một cách hiệu quả nhất.
Giáo trình được chia thành 11 chương với nội dung từ cơ bản đến nâng cao. Kiến thức của các chương trước sẽ là nền tảng để hiểu và phát triển nội dung các chương sau.
Giáo trình được tổ chức cụ thể như sau:
Chương 1 giới thiệu về tin sinh học và sinh học phân tử, các ứng dụng của tin sinh học, và các khái niệm cơ bản trong sinh học phân tử như nuclêôtít, axít amin, nhiễm sắc thể, hệ gien v.v. Chương này sẽ giúp cho người đọc, đặc biệt là sinh viên công nghệ thông tin, làm quen với sinh học phân tử và tin sinh học một cách đơn giản và nhanh chóng.
Chương 2 giới thiệu với người đọc các hệ thống dữ liệu sinh học phân tử cũng như các công cụ tin học phân tích dữ liệu được sử dụng phổ biến trên thế giới. Chương này đặc biệt tập trung vào giới thiệu hệ thống thông tin về công nghệ sinh học của Hoa Kỳ (NCBI), qua đó giúp người đọc có khả năng khai thác dữ liệu và các công cụ tính toán từ NCBI một cách hiệu quả nhất.
Chương 3 trình bày bài toán cơ bản và quan trọng trong sinh học phân tử và tin sinh học là sắp hàng hai trình tự. Thuật toán quy hoạch động để giải quyết bài toán trên được trình bày chi tiết cùng với các ví dụ minh họa sẽ giúp người đọc hiểu bài toán và phương pháp giải quyết một cách nhanh chóng và chính xác. Người đọc có thể tham khảo thêm tài liệu [1] liên quan đến các cấu trúc dữ liệu và giải thuật; tài liệu liên quan đến lập trình cơ bản với C++.
Chương 4 trình bày bài toán tìm kiếm các trình tự giống nhau trong cơ sở dữ liệu. Thuật toán (chương trình phần mềm) phổ biến nhất, BLAST, sẽ được trình bày và hướng dẫn sử dụng để người đọc có thể hiểu và thực hành một cách nhanh chóng việc tìm kiếm các trình tự giống nhau trong cơ sở dữ liệu.
Chương 5 trình bày bài toán sắp hàng đa trình tự. Các thuật toán cơ bản để giải quyết bài toán trên được trình bày chi tiết ở phần đầu của chương. Phần cuối của chương giới thiệu cho người đọc các thuật toán và chương trình phần mềm (hướng dẫn sử dụng) tốt nhất hiện nay để giải quyết bài toán này.
Chương 6 trình bày bài toán xây dựng cây phân loài. Đây là bài toán quan trọng giúp chúng ta hiểu về mối quan hệ cũng như quá trình tiến hóa của các loài sinh vật. Chương này cũng trình bày cho người đọc tiêu chuẩn cực tiểu số lượng đột biến để chọn cây phân loài tốt nhất. Các thuật toán cơ bản cùng với các ví dụ minh họa sẽ được trình bày chi tiết. Phần cuối của chương sẽ giới thiệu cho người đọc phần mềm phổ biến, PHYLIP, để xây dựng cây phân loài theo tiêu chuẩn cực tiểu số lượng đột biến.
Chương 7 trình bày các phương pháp xây dựng cây phân loài dựa vào ma trận khoảng cách giữa các loài sinh vật. Phương pháp phổ biến nhất, Neighbor-Joining, sẽ được trình bày và minh họa chi tiết trong chương này.
Chương 8 trình bày mô hình thay thế nuclêôtít sử dụng chuỗi Markov. Các mô hình thay thế nuclêôtít khác nhau sẽ được giới thiệu để người đọc hiểu và có thể sử dụng các mô hình này vào phân tích dữ liệu nuclêôtít một cách hợp lý nhất.
Chương 9 trình bày mô hình thay thế axít amin. Chương này trình bày các phương pháp ước lượng mô hình thay thế axít amin từ các tập dữ liệu axít amin đầu vào. Các mô hình thay thế axít amin quan trọng sẽ được giới thiệu để người đọc hiểu và có thể sử dụng các mô hình này vào phân tích dữ liệu axít amin một cách hợp lý nhất. Đây là chương nâng cao dành cho người đọc quan tâm và muốn tìm hiểu sâu về phân tích dữ liệu prôtêin.
Chương 10 trình bày phương pháp xây dựng cây phân loài theo tiêu chuẩn hợp lý nhất. Phần đầu của chương sẽ trình bày cách tính giá trị hợp lý của cây phân loài đối với một đa trình tự. Phần cuối của chương sẽ giới thiệu cho người đọc các thuật toán và phần mềm đang được sử dụng phổ biến để xây dựng cây phân loài theo tiêu chuẩn hợp lý nhất. Đây là chương nâng cao dành cho người đọc quan tâm và muốn tìm hiểu sâu về bài toán xây dựng cây phân loài.
Chương 11 cũng là chương cuối của giáo trình sẽ trình bày về prôtêin và cấu trúc của prôtêin. Bài toán dự đoán cấu trúc bậc hai của prôtêin, cũng như các phương pháp cơ bản để giải quyết bài toán này được trình bày chi tiết. Phần cuối của chương sẽ giới thiệu các thuật toán và phần mềm đang được sử dụng phổ biến để giải quyết bài toán này.
Giáo trình sẽ trang bị cho người đọc các kiến thức và kĩ năng cơ bản sau đây:
Các kiến thức cơ bản về sinh học phân tử và tin sinh học.
Các bài toán cơ bản và quan trọng trong tin sinh học như tìm kiếm trình tự giống nhau, sắp hàng đa trình tự, xây dựng cây phân loài v.v.
Biết và khai thác được dữ liệu từ các cơ sở dữ liệu công nghệ sinh học dùng chung trên thế giới, đặc biệt là các cơ sở dữ liệu của NCBI.
Hiểu và có khả năng minh họa bằng ví dụ (hoặc lập trình) các thuật toán cơ bản để giải quyết các bài toán quan trọng trong tin sinh học được nêu trong giáo trình.
Biết và sử dụng được các phần mềm hiện đại nhất để giải quyết các bài toán quan trọng như là tìm kiếm các trình tự từ CSDL, sắp hàng đa trình tự, xây dựng cây phân loài,...
Tác giả hy vọng rằng, giáo trình này sẽ giúp một phần vào việc phát triển lĩnh vực tin sinh học ở Việt Nam; cũng như trang bị những kiến thức cơ bản và quan trọng về tin sinh học cho những người đang làm việc trong lĩnh vực công nghệ sinh học.