HomeĐời SốngOverfitting là gì

Overfitting là gì

07:45, 29/03/2021
Trong bài xích này, ta đã khám phá kỹ hơn về training problem. Tại sao chỉ cần search Mã Sản Phẩm dự đân oán "khá" đúng chuẩn bên trên training set? Tại sao một Model dự đoán "hoàn toàn" đúng đắn trên training phối lại hoàn toàn có thể dự đoán thù vô cùng tồi bên trên kiểm tra set?

Khi kể đến training problem, quan yếu quên đi objective sầu function. Nhắc lại, objective function thường sẽ có dạng:


objective=average_loss+regularizerobjective sầu = average\_loss + regularizerobjective=average_loss+regularizer
LDtrain(fw)=1∣Dtrain∣∑(x,y)∈DtrainL(fw(x),y)+λR(fw)mathcalL_D_train(f_w) = frac1 sum_(x, y)in D_train L(f_w(x), y) + lambda R(f_w)LDtrain​​(fw​)=∣Dtrain​∣1​(x,y)∈Dtrain​∑​L(fw​(x),y)+λR(fw​)

cùng với 1∣Dtrain∣∑(x,y)∈DtrainL(fw(x),y)frac1D_train sum_(x, y)in D_train L(f_w(x), y)∣Dtrain​∣1​∑(x,y)∈Dtrain​​L(fw​(x),y) là mức độ vừa phải loss function trên training phối, R(fw)R(f_w)R(fw​) là regularizer, λlambdaλ là regularization constant (một hyperparameter).

Bạn đang xem: Overfitting là gì

Mục tiêu của training là tìm ra Mã Sản Phẩm tối thiểu hóa objective sầu function:


Để rút gọn ký kết hiệu, Khi mã sản phẩm có dạng xác định, ta hoàn toàn có thể áp dụng www để chỉ mã sản phẩm nỗ lực mang đến fwf_wfw​.

Kí hiệu arg⁡min⁡xf(x)argmin_x f(x)argminx​f(x) trả về giá trị của xxx nhằm hàm f(x)f(x)f(x) đã có được quý hiếm rất đái. lấy ví dụ, arg⁡min⁡xx2+1=0argmin_x x^2 + 1 = 0argminx​x2+1=0 cũng chính vì x2+1x^2 + 1x2+1 đạt quý giá cực tiểu (bởi 1) tại x=0x = 0x=0. Các các bạn sẽ nhận thấy pmùi hương trình này trong phần lớn những paper (bài bác báo khoa học) về machine learning.

lúc ta nói hy vọng tìm mã sản phẩm "dự đoán chính xác hoàn toàn" bên trên training phối, tức là kể đến câu hỏi áp dụng một objective function mà lại không có regularizer:


LDtrainERM(fw)=1∣Dtrain∣∑(x,y)∈DtrainL(fw(x),y)mathcalL_D_train^ERM(f_w) = frac1 sum_(x, y)in D_train L(f_w(x), y)LDtrain​ERM​(fw​)=∣Dtrain​∣1​(x,y)∈Dtrain​∑​L(fw​(x),y)

Đây được gọi là phép tắc empirical risk minimization (ERM). Ta sẽ phân tích và lý giải bởi vì sao nó được hotline như vậy. Loss function nói một cách khác là risk function (hàm không may ro). Chữ empirical được cung ứng chính vì risk function này được tính vừa phải trên một tập dữ liệu hữu hạn. Vậy empirical risk minimization Có nghĩa là buổi tối tgọi hóa rủi ro khủng hoảng trên một tập dữ liệu hữu hạn.

Bài viết này ra mắt phần đa kỹ năng và kiến thức cần thiết để ta đưa ra được một thuật toán supervised learning tốt hơn ERM. Ta vẫn nói kỹ về sự việc lớn nhất hay gặp mặt cần Lúc thực hiện ERM, overfitting, cùng biện pháp khắc phục và hạn chế nó. Overfitting là một trong những trong số những quan niệm quan trọng bậc nhất vào machine learning, là "láng ma ám mang machine learning".

Xem thêm: Power Query Là Gì ? Khi Nào Sử Dụng Power Query


Occam's razor


Albert Einstein từng tất cả một lời nói danh tiếng là:

Everything should be made as simple as possible, but no simpler.

Nghĩa là "đa số sản phẩm công nghệ cần được buổi tối giản hóa không còn nấc có thể, nhưng lại không nên trên mức cho phép gồm thể". Trong machine learning, người ta thường nhắc tới một hiệ tượng sát tựa như hotline là (https://en.wikipedia.org/wiki/Occam's_razor):

Entities must not be multiplied beyond necessity.

Áp dụng vào machine learning, phép tắc này được phát âm là:

Trong toàn bộ những đưa thiết hoàn toàn có thể giải thích được một hiện tượng, ta hãy lựa chọn trả thiết đơn giản duy nhất.

Hoặc thậm chí đơn giản dễ dàng hơn:

Trong tất cả những model "đúng", chọn Mã Sản Phẩm đơn giản và dễ dàng nhất.

Lưu ý là tại chỗ này bao gồm mang đến nhị ĐK cần được đảm bảo: giả thiết nên đơn giản nhất mà lại vẫn cần phân tích và lý giải được hiện nay tượng. Rất dễ dàng nhằm áp dụng Occam's razor một cách sai trái.

Ta xét bài bác tân oán phân loại thỏng vào nhị các loại label, spam với không spam. Model đơn giản dễ dàng độc nhất vô nhị có thể nghĩ ra sẽ là random 1 trong các hai label với mỗi bức thư. Model này mặc dù tối giản dẫu vậy lại ăn hại với vi phạm luật Occam's razor vì chưng nó quan trọng phân tích và lý giải đặc thù spam.

Xem thêm: Dữ Liệu Data Là Gì ? Data Scientist Là Gì? Hãy Để "Tiến Sĩ Cambridge" Trả Lời

Trong một ví dụ khác ví như vào hình sau,


*

Với supervised learning, cho dù có trường thọ một hàm bí mật f∗f^*f∗ làm thế nào cho mối quan hệ thân label cùng observation là y=f∗(x)y = f^*(x)y=f∗(x), thì dữ liệu vào thực tế cũng không bao giờ phản ánh đúng chuẩn được mối quan hệ này. Nguim nhân gây ra vấn đề đó hoàn toàn có thể là do sai số trong nguyên lý đo, hoặc đơn giản và dễ dàng là vì tự nhiên mang ý nghĩa đột nhiên. Ví dụ sau cho thấy thêm núm vì nhận được tài liệu tuyến tính hoàn hảo (y=axy = axy=ax) như hình phía bên trái thì hay tọa độ của các điểm dữ liệu sẽ bị rơi lệch như hình bên buộc phải.


Chuyên mục: Đời Sống