Giáo trình gồm 10 chương, nội dung sơ bộ như sau:
Chương 1 – Một số nội dung cơ bản về khai phủ dữ liệu cung cấp các kiến thức cơ bản nhất về lĩnh vực khai phá dữ liệu và phát hiện tri thức trong các CSDL, nhằm giúp độc giả nắm bắt được ban chất của các khái niệm cơ bản trong khai phá dữ liệu, phản biệt các khái niệm này với một số khái niệm liên quan và một số bài toán cơ bản nhất và xu hướng phát triển của khai phá dữ liệu, phát hiện tri thức trong các CSDL
Chương 2 – Tổng quan về khai phá Web cung cấp các kiến thức cơ bản nhất về khai phá Text và khai phá Web, nhằm giúp độc gia nắm bắt được các nội dung cơ bản của khai phá Text và khai phá Web. Chương này cũng trinh bày cơ bản về khai phá cấu trúc Web và khai phá sử dụng Web.
Chương 3 – Một số kiến thức toán học cho khai phủ dữ liệu Web nhằm mục tiêu cung cấp một số kiến thức nền tảng về toán học cho khai phá dữ liệu Web. Ly thuyết đồ thị và lý thuyết xác suất thảm nhập sâu rộng vào khai phá dữ liệu Web theo các góc độ mô hình, giải pháp và kỹ thuật có nguồn gốc từ bản chất tự nhiên và xã hội của Web.
Chương 4. Một số vấn đề về xử lý ngôn ngữ tiếng Việt cho khai phủ văn ban cung cấp một số kiến thức nền tảng về xử lý ngôn ngữ tự nhiên nổi chung và xử lý tiếng Việt nói riêng, cho phép nâng cao hiệu quả của các giai pháp khai phá Web tiếng Việt.
Chương 5 – Các phương pháp biểu diễn văn bản trình bày bài toán các khuôn dạng biểu diễn dữ liệu cho các thuật toán khai phá dữ liệu.
Chương 6 – Hệ thống tim kiểm
Chương 7" – Phân cụm văn bản
Chương 8 Phần lớp Web.
Chương 9 – Trích chọn thông tin trên Web trinh bay về bốn bài toán chủ yếu của khai phá dữ liệu Web. Các khái niệm liên quan. các mô hình biểu diễn. các thuật toàn. các kỹ thuật và các phương pháp đánh giá hiệu quả được giới thiệu và phân tích
Chương 10 – Web ngữ nghĩa trình bày về Web ngữ nghĩa, thế hệ mới của Web gồm khái niệm, kiến trúc, các ngôn ngữ và quá trình tiệm cận tới Web ngữ nghĩa.