
Cách nếm thử một muỗng để biết vị cả nồi canh
Bạn không cần húp cạn cả nồi canh chỉ để biết nó mặn hay nhạt. Một muỗng nhỏ là đủ, miễn là bạn đã khuấy thật đều tay trước khi nếm.
Trong thế giới dữ liệu, chúng tôi gọi đây là lấy mẫu. Thuật toán không cần quét sạch hàng tỷ byte để tìm quy luật; nó chỉ cần một lát cắt đại diện mang đầy đủ đặc tính của toàn bộ hệ thống.
Khi gia vị được hòa tan đồng nhất, một muỗng canh chính là bản sao thu nhỏ của cả nồi. Đó là cách xác suất thống kê giúp chúng ta hiểu về đám đông mà không cần phải chạm vào từng cá thể.
Thì bạn sẽ kết luận sai bét là nồi canh quá mặn, dù thực tế chỗ khác vẫn nhạt thếch. Trong thế giới dữ liệu, chúng tôi gọi đây là thiên kiến (bias) – khi mẫu thử không đại diện cho thực tế.
Nếu bạn chỉ khảo sát người giàu về mức sống, kết quả sẽ luôn màu hồng. Đó là lý do trước khi nếm, thuật toán phải thực hiện bước 'khuấy' dữ liệu, hay còn gọi là xáo trộn ngẫu nhiên (shuffling).
Việc xáo trộn này phá vỡ các cụm dữ liệu cục bộ, đảm bảo mọi đặc điểm đều được phân bổ đều. Chỉ khi đó, một lát cắt nhỏ mới thực sự mang linh hồn của cả hệ thống.
Trong toán học, chúng tôi không đoán mò mà nhìn vào sự ổn định của kết quả. Nếu bạn nếm ba muỗng ở ba vị trí khác nhau mà vị vẫn y hệt, chúc mừng, nồi canh đã đạt trạng thái đồng nhất.
Với dữ liệu, thuật toán dùng các hàm số để xáo trộn sao cho mọi thứ tự cũ bị xóa sạch. Mục tiêu là khiến cho bất kỳ "lát cắt" nào cũng mang thông tin tương đương nhau, không còn sự thiên vị cho bất kỳ nhóm nào.
Nếu mỗi lần nếm lại cho ra một kết quả khác hẳn, nghĩa là nồi canh vẫn còn "vón cục". Khi đó, máy tính sẽ tiếp tục đảo dữ liệu cho đến khi sai số giữa các lần thử giảm xuống mức tối thiểu mới thôi.
Đó là lúc bạn đối mặt với 'nhiễu' (noise). Có những hệ thống vốn dĩ không có quy luật cố định, hoặc dữ liệu bị xáo trộn bởi quá nhiều yếu tố ngẫu nhiên đến mức không thể tìm thấy sự đồng nhất.
Trong AI, nếu sai số không giảm, chúng tôi gọi đó là hiện tượng 'không hội tụ'. Nó giống như việc bạn cố nếm một nồi canh mà đầu bếp cứ liên tục ném thêm muối và đường vào trong lúc bạn đang khuấy vậy.
Lúc này, việc khuấy thêm chỉ phí công. Giải pháp duy nhất là phải 'lọc' bớt rác hoặc thu thập thêm nhiều dữ liệu sạch hơn. Đôi khi, vấn đề không nằm ở cách bạn khuấy, mà nằm ở chỗ nồi canh đó thực sự không thể cứu vãn.
Trong dữ liệu, 'rác' thường là những kẻ ngoại lai (outliers) – những thứ lạc quẻ hoàn toàn với phần còn lại. Nếu cả nồi canh đang mang vị chua thanh mà tự nhiên bạn nếm thấy một miếng có vị... nhựa cháy, thì đó chắc chắn không phải là gia vị.
Chúng tôi dùng các bộ lọc thống kê để nhận diện những điểm dữ liệu 'nhảy múa' quá xa so với đám đông. Nếu một con số xuất hiện với tần suất cực thấp và không có tính lặp lại, thuật toán sẽ coi đó là lỗi kỹ thuật hoặc nhiễu ngẫu nhiên và thẳng tay loại bỏ.
Mục tiêu là giữ lại 'tín hiệu' – tức là những đặc điểm cốt lõi giúp máy tính hiểu được bản chất. Lọc rác chính là gạt bỏ những hạt sạn li ti để AI không bị đánh lạc hướng bởi những thứ vô nghĩa.
Chủ đề liên quan
Cơ chế AI tự động tô màu cho những thước phim đen trắng cũ
Cơ chế tự động lấy nét vào mắt người của máy ảnh
Cơ chế nắn chỉnh giọng hát của công nghệ Auto-tune
Cách thuật toán nhận diện và lọc bỏ các đánh giá ảo
Cách mạng xã hội gợi ý những người bạn có thể biết
Cách thuật toán tối ưu hóa vị trí hàng hóa trong kho