Máy học là gì?(Marchine Learning- Week1)

Theo wikipedia:

Học máy, có tài liệu gọi là Máy học, (tiếng Anh: machine learning) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc phát triển các kĩ thuật cho phép các máy tính có thể “học”. Cụ thể hơn, học máy là một phương pháp để tạo ra các chương trình máy tính bằng việc phân tích các tập dữ liệu. Học máy có liên quan lớn đến thống kê, vì cả hai lĩnh vực đều nghiên cứu việc phân tích dữ liệu, nhưng khác với thống kê, học máy tập trung vào sự phức tạp của các giải thuật trong việc thực thi tính toán. Nhiều bài toán suy luận được xếp vào loại bài toán NP-khó, vì thế một phần của học máy là nghiên cứu sự phát triển các giải thuật suy luận xấp xỉ mà có thể xử lí được.

Học máy có tính ứng dụng rất cao bao gồm máy truy tìm dữ liệu, chẩn đoán y khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại các chuỗi DNA, nhận dạng tiếng nóichữ viết, dịch tự động, chơi trò chơicử động rô-bốt (robot locomotion).

 

Theo như  gợiý của bác Hà Dương Tuấn về cách viết Tiếng Việt, tôi viết là Máyhọc cho nó ngắn gọn.

theo Athur Samuel(1959): Machine learning: field of study that give computers the ability to learn without being explicitly programmed.

Theo Athur Samuael(1959): Máyhọc là lĩnh vực nghiên cứu về khả năng học của máy tính mà không cần phải lập trình tường minh ngay từ đầu.

Tom mitchel:   A computer program is said to learn from experience E with respect to some class of tasks T and performance measure P, if its performance at tasks in T, as measured by P, improves with experience E.

Ví dụ: Chơi cờ
E = Kinh nghiệm chơi các rất nhiều ván cờ khác nhau

T = Công việc chơi cờ

P = Xác xuất chương trình sẽ thắng trong ván cờ tiếp theo.

Học có giám sát(Supervised learning)

In supervised learning, we are given a data set and already know what our correct output should look like, having the idea that there is a relationship between the input and the output.

Trong học có giám sát, ta cho trước một tập các dữ liệu đầu vào và các kết quả đầu ra tương ứng. Ta phải xây dựng ánh xạ(idea) về mối quan hệ giữa dữ liệu đầu vào và dữ liệu đầu ra.

Supervised learning problems are categorized into “regression” and “classification” problems. In a regression problem, we are trying to predict results within a continuous output, meaning that we are trying to map input variables to some continuous function. In a classification problem, we are instead trying to predict results in a discrete output. In other words, we are trying to map input variables into discrete categories.

Có 2 loại bài toán được quan tâm là: “hồi quy”(regression) và “phân loại” (classification). Đối với bài toán hồi quy, ta mong muốn dự đoán kết quả đầu ra ở dạng liên tục, có nghĩa là ta xây dựng hàm đầu ra liên tục tương ứng với biến đầu vào. Đối với bài toán phân loại, kết quả đầu ra ở dạng rời rạc.

Examples: given data about the size of houses on the real estate market, try to predict their price. Price as a function of size is a continuous output, so this is a regression problem.

Ví dụ: Cho dữ liệu về diện tích của ngôi nhà trong thị trường bất động sản, ta dự báo giá nhà. Giá nhà là một hàm liên tục, như vậy ta xếp nó vào bài toán hồi quy.

Học không có giám sát

Unsupervised learning, on the other hand, allows us to approach problems with little or no idea what our results should look like. We can derive structure from data where we don’t necessarily know the effect of the variables.

Khác với học có giám sát, học không giám sát ít hoặc không quan tâm đến kết quả đầu ra như thế nào. Ta chỉ quan tâm đến việc đưa ra cấu trúc từ dữ liệu mà không cần biết ảnh hưởng của các biến đầu vào.

We can derive this structure by clustering the data based on relationships among the variables in the data.

Ta có thể đưa ra cấu trúc dữ liệu bằng cách “phân cụm” dữ liệu dựa trên các biến liên hệ trong tập dữ liệu đó.

With unsupervised learning there is no feedback based on the prediction results, i.e., there is no teacher to correct you. It’s not just about clustering. For example, associative memory is unsupervised learning.

Với học không giám sát, ta không có phản hồi dựa trên kết quả dự đoán, nói nôm na là, không có người giám sát kết quả đúng sai của bạn. Nó chỉ là việc phâncụm dữ liệu.

Examples: Clustering.-Take a collection of 1000 essays written on the US Economy, and find a way to automatically group these essays into a small number that are somehow similar or related by different variables, such as word frequency, sentence length, page count, and so on.

Ví dụ: Phâncụm.-Lấy 1000 bài viết về kinh tế Mỹ, và tìm cách tự động phân nhóm chúng thành các nhóm nhỏ hơn dựa trên các tiêu chí khác nhau, như tần suất từ, độ dài câu, …

Associative.- Suppose a doctor over years of experience forms associations in his mind between patient characteristics and illnesses that they have. If a new patient shows up then based on this patient’s characteristics such as symptoms, family medical history, physical attributes, mental outlook, etc the doctor associates possible illness or illnesses based on what the doctor has seen before with similar patients. This is not the same as rule based reasoning as in expert systems. In this case we would like to estimate a mapping function from patient characteristics into illnesses.

One Response to Máy học là gì?(Marchine Learning- Week1)

  1. mataza nói:

    tài liệu thô sơ quá

Gửi phản hồi

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Log Out / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Log Out / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Log Out / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Log Out / Thay đổi )

Connecting to %s

%d bloggers like this: