Há»c máy
Bách khoa toà n thư mở Wikipedia
Há»c máy (tiếng Anh: machine learning, tiếng Việt có tà i liệu gá»i là Máy há»c) là má»™t lÄ©nh vá»±c của trà tuệ nhân tạo liên quan đến việc phát triển các kÄ© thuáºt cho phép các máy tÃnh có thể "há»c". Cụ thể hÆ¡n, há»c máy là má»™t phÆ°Æ¡ng pháp để tạo ra các chÆ°Æ¡ng trình máy tÃnh bằng việc phân tÃch các táºp dữ liệu. Há»c máy có liên quan lá»›n đến thống kê, vì cả hai lÄ©nh vá»±c Ä‘á»u nghiên cứu việc phân tÃch dữ liệu, nhÆ°ng khác vá»›i thống kê, há»c máy táºp trung và o sá»± phức tạp của các giải thuáºt trong việc thá»±c thi tÃnh toán. Nhiá»u bà i toán suy luáºn được xếp và o loại bà i toán NP-khó, vì thế má»™t phần của há»c máy là nghiên cứu sá»± phát triển các giải thuáºt suy luáºn xấp xỉ mà có thể xá» là được.
Há»c máy có tÃnh ứng dụng rất cao bao gồm máy truy tìm dữ liệu, chẩn Ä‘oán y khoa, phát hiện thẻ tÃn dụng giả, phân tÃch thị trÆ°á»ng chứng khoán, phân loại các chuá»—i DNA, nháºn dạng tiếng nói và chữ viết, chÆ¡i trò chÆ¡i và cá» Ä‘á»™ng rô-bốt (robot locomotion).
Mục lục[giấu] |
[sá»a] TÆ°Æ¡ng tác vá»›i con ngÆ°á»i
Má»™t số hệ thống há»c máy ná»— lá»±c loại bá» nhu cầu trá»±c giác của con ngÆ°á»i trong việc phân tÃch dữ liệu, trong khi các hệ thống khác hÆ°á»›ng đến việc tăng sá»± cá»™ng tác giữa ngÆ°á»i và máy. Không thể loại bá» hoà n toà n tác Ä‘á»™ng của con ngÆ°á»i vì các nhà thiết kế hệ thống phải chỉ định cách biểu diá»…n của dữ liệu và những cÆ¡ chế nà o sẽ được dùng để tìm kiếm các đặc tÃnh của dữ liệu. Há»c máy có thể được xem là má»™t ná»— lá»±c để tá»± Ä‘á»™ng hóa má»™t số phần của phÆ°Æ¡ng pháp khoa há»c. Má»™t số nhà nghiên cứu há»c máy tạo ra các phÆ°Æ¡ng pháp bên trong các framework của thống kê Bayes (Bayesian statistics).
[sá»a] Các loại giải thuáºt
Các thuáºt toán há»c máy được phân loại theo kết quả mong muốn của thuáºt toán. Các loại thuáºt toán thÆ°á»ng dùng bao gồm:
- Há»c có giám sát (supervised learning) --- trong đó, thuáºt toán tạo ra má»™t hà m ánh xạ dữ liệu và o tá»›i kết quả mong muốn. Má»™t phát biểu chuẩn vá» má»™t việc há»c có giám sát là bà i toán phân loại: chÆ°Æ¡ng trình cần há»c (cách xấp xỉ biểu hiện của) má»™t hà m ánh xạ má»™t vector tá»›i má»™t và i lá»›p (class) bằng cách xem xét má»™t số và dụ mẫu dữ_liệu- kết_quả của hà m đó.
- Há»c không giám sát (unsupervised learning) --- mô hình hóa má»™t táºp dữ liệu, không có sẵn các và dụ đã được gắn nhãn.
- Há»c ná»a giám sát (semi-supervised learning) --- kết hợp các và dụ có gắn nhãn và không gắn nhãn để sinh má»™t hà m hoặc má»™t bá»™ phân loại thÃch hợp.
- Há»c tăng cÆ°á»ng (reinforcement learning) --- trong đó, thuáºt toán há»c má»™t chÃnh sách hà nh Ä‘á»™ng tùy theo các quan sát vá» thế giá»›i. Má»—i hà nh Ä‘á»™ng Ä‘á»u có tác Ä‘á»™ng tá»›i môi trÆ°á»ng, và môi trÆ°á»ng cung cấp thông tin phản hồi, các thông tin nà y hÆ°á»›ng dẫn thuáºt toán há»c.
- transduction --- tÆ°Æ¡ng tá»± há»c có giám sát nhÆ°ng không xây dá»±ng hà m. Thay và o đó, cố gắng Ä‘oán kết quả má»›i dá»±a và o dữ liệu huấn luyện, kết quả huấn luyện, và dữ liệu má»›i.
- Há»c cách há»c (learning to learn) --- trong đó thuáºt toán há»c thiên kiến quy nạp (inductive bias) của chÃnh mình, dá»±a theo các kinh nghiệm đã gặp.
Phân tÃch hiệu quả các thuáºt toán há»c máy là má»™t nhánh của ngà nh thống kê, được biết vá»›i tên lý thuyết há»c tÃnh toán (computational learning theory).
[sá»a] Các chủ Ä‘á» vá» há»c máy
Danh sách các chủ Ä‘á» của má»™t môn Há»c máy Ä‘iển hình.
- Mô hình hóa các hà m máºt Ä‘á»™ xác suất Ä‘iá»u kiện (conditional probability density functions): hồi quy và phân loại
- Mạng nơ-ron
- Cây quyết định
- Gene expression programming
- Láºp trình di truyá»n
- Gaussian process regression
- Linear discriminant analysis
- k láng giá»ng gần nhất
- Minimum message length
- Perceptron
- Radial basis functions
- Support vector machines
- Mô hình hóa các hà m máºt Ä‘á»™ xác suất qua các generative model:
- Thuáºt toán trông đợi cá»±c đại (Expectation-maximization algorithm)
- Các mô hình đồ há»a gồm mạng Bayes và mạng Markov (Markov Random Fields)
- Generative Topographic Mapping
- Các kỹ thuáºt suy diá»…n xấp xỉ (Appromixate inference techniques):
- Chuỗi Markov phương pháp Monte Carlo
- Variational methods
- Tối Æ°u hóa: hầu hết các phÆ°Æ¡ng pháp trên Ä‘á»u sá» dụng tối Æ°u hóa hoặc là các thể hiện của các thuáºt toán tối Æ°u hóa.
[sá»a] Xem thêm
- Trà tuệ nhân tạo
- Trà tuệ tÃnh toán (Computational intelligence)
- Khai phá dữ liệu
- Nháºn dạng mẫu
- Các ẩn bản quan trá»ng trong há»c máy (khoa há»c máy tÃnh)
- Các ấn bản quan trá»ng trong há»c máy (thống kê)
- Rô-bốt tự hà nh
- Láºp trình suy diá»…n lô-gic
[sá»a] Tham khảo
- Bishop, C. M. (1995). Neural Networks for Pattern Recognition, Oxford University Press. ISBN 0198538642
- Richard O. Duda, Peter E. Hart, David G. Stork (2001) Pattern classification (2nd edition), Wiley, New York, ISBN 0471056693.
- MacKay, D. J. C. (2003). Information Theory, Inference, and Learning Algorithms, Cambridge University Press. ISBN 0521642981
- Mitchell, T. (1997). Machine Learning, McGraw Hill. ISBN 0070428077
- Sholom Weiss and Casimir Kulikowski (1991). Computer Systems That Learn, Morgan Kaufmann. ISBN 1-55860-065-5
[sá»a] Liên kết bên ngoà i
[sá»a] Tà i nguyên chung
- UCI description
- MLnet Mailing List
- Kmining List of machine learning, data mining and KDD scientific conferences
- Book "Intelligent Systems and their Societies" by Walter Fritz
- Links from Open Directory Project
- Eruditionhome Great directory site for machine learning.
- MLpedia – wiki dedicated to machine learning.
[sá»a] Tạp chà và Há»™i thảo
- Journal of Machine Learning Research
- Machine Learning Journal
- Machine Learning papers @ CiteSeer
- NIPS: Neural Information Processing Systems
- ICML: International Conference on Machine Learning
[sá»a] Nhóm nghiên cứu
- Machine Learning @ The Hebrew University
- Machine Learning and Natural Language Processing @ University of Freiburg
- Machine Learning and Data Mining in Bioinformatics Group @ TU München
- Machine Learning and Biological Computation Group @ University of Bristol
- Machine Learning and Applied Statistics @ Microsoft Research
- Department of Knowledge Technologies @ Jozef Stefan Institute
- Statistical Multimedia Learning Group @ University of British Columbia
- Machine Learning Systems Group @ the Jet Propulsion Laboratory, California Institute of Technology
- Department of Empirical Inference @ Max Planck Institute for Biological Cybernetics, Tübingen
- Machine Learning Group @ University of Toronto
- Intelligent Data Analysis Group @ Fraunhofer FIRST, Berlin
- Machine Learning Group @ Université Libre de Bruxelles
[sá»a] Phần má»m
- SPIDER SPIDER là má»™t há»™p công cụ há»c máy hoà n chỉnh cho Matlab.
- PRTools PRTools là má»™t gói phần má»m hoà n chỉnh khác tÆ°Æ¡ng tá»± SPIDER và được cà i trong Matlab. SPIDER có vẻ có nhiá»u há»— trợ mức thấp, nhÆ°ng các công cụ của PRTools có phần Ä‘a dạng hÆ¡n. PRTools có sách và tà i liệu tốt. Cả SPIDER và PRTools được cung cấp miá»…n phà trên mạng cho các ứng dụng phi thÆ°Æ¡ng mại.
- Orange, bá»™ chÆ°Æ¡ng trình há»c máy vá»›i các script viết bằng Python và giao diện láºp trình đồ há»a
- YALE là má»™t công cụ mạnh miá»…n phà cho Há»c máy và Khai phá dữ liệu
- Weka Machine Learning Software
- Matlab MATLAB có há»— trợ há»™p công cụ cho nhiá»u công cụ há»c máy. Hiện giá» há»™ công cụ Tin sinh há»c đã có Support Vector Machines và các bá»™ phân loại KNN (k láng giá»ng gần nhất). Há»™p công cụ thống kê thá»±c hiện biệt thức tuyến tÃnh và phân loại bằng cây quyết định. Há»™p công cụ mạng nÆ¡-ron là má»™t bá»™ công cụ hoà n chỉnh để cà i đặt mạng nÆ¡-ron. Trong thá»i gian gần đây, các phÆ°Æ¡ng pháp má»›i để đánh giá hiệu quả của các bá»™ phân loại và để thẩm định chéo đã là m Matlab trở nên hấp dẫn hÆ¡n đối vá»›i há»c máy.
- MLC++ là thÆ° viện lá»›p C++ dà nh cho há»c có giám sát
- MDR là má»™t gói phần má»m nguồn mở dà nh cho việc phát hiện các tÆ°Æ¡ng tác thuá»™c tÃnh bằng phÆ°Æ¡ng pháp multifactor dimensionality reduction (MDR).