
Cơ chế dự đoán từ tiếp theo trên bàn phím điện thoại
Bàn phím điện thoại thực chất là một "kẻ bắt chước" nhạy bén. Nó không hiểu bạn đang nói gì, mà chỉ đơn giản là một cỗ máy thống kê đang chơi trò đoán chữ dựa trên xác suất.
Khi bạn gõ một từ, thuật toán quét qua hàng triệu tổ hợp để tìm xem từ nào thường đi kèm phía sau nhất. Nếu bạn hay nhắn "Ăn cơm chưa", nó sẽ tự động ưu tiên chuỗi từ này trong bộ nhớ.
Càng dùng lâu, nó càng "nhiễm" thói quen của bạn. Nó trở thành một bản sao kỹ thuật số, sẵn sàng hoàn thiện câu nói trước khi bạn kịp gõ xong phím cuối cùng.
Chính xác! Thuật toán này cực kỳ "thật thà", nó không phân biệt được đúng sai về mặt ngữ pháp mà chỉ tôn thờ tần suất. Nếu bạn gõ nhầm một từ đủ nhiều lần, hệ thống sẽ mặc định đó là một từ mới và đưa nó vào từ điển ưu tiên của riêng bạn.
Đây là nguyên tắc "rác vào, rác ra" trong dữ liệu. Tuy nhiên, bàn phím hiện đại cũng rất tinh quái; nó sẽ quan sát xem sau khi gõ xong bạn có xóa đi để sửa lại không. Nếu bạn sửa, nó hiểu đó là lỗi; nếu bạn lờ đi, nó sẽ coi đó là một phần cá tính của bạn.
Đúng là nó "ghi nhật ký", nhưng thường là ngay trên chip điện thoại của bạn chứ không gửi đi đâu xa. Mỗi khi bạn nhấn phím, một tệp tin tạm sẽ ghi lại các sự kiện kiểu: "Gõ chữ A, rồi xóa ngay, rồi gõ chữ B".
Thuật toán coi đây là các "tín hiệu huấn luyện". Nếu hành động sửa lỗi diễn ra liên tục, nó sẽ dán nhãn từ vừa gõ là "rác" và trừ điểm ưu tiên của nó trong bộ nhớ máy để lần sau không gợi ý nữa.
Nó không quan tâm bạn đang tâm sự gì, nó chỉ soi hành vi. Giống như một người đếm bước chân, họ không biết bạn đi đâu, họ chỉ biết bạn vừa bước hụt và phải chỉnh lại tư thế thôi.
Thực tế, bàn phím có hai "nguồn tri thức". Một là bộ từ điển khổng lồ được nhà sản xuất nạp sẵn qua các bản cập nhật. Đây là nơi chứa những từ phổ thông và các từ "trend" đã được kiểm duyệt.
Còn cái "nhật ký" trên chip là bộ từ điển cá nhân. Nó giống như việc bạn dùng sách giáo khoa rồi tự viết thêm tiếng lóng của riêng mình vào lề sách vậy.
Để cập nhật xu hướng, các hãng chỉ gom các "con số thống kê" từ hàng triệu người để biết từ nào đang hot, sau đó gửi bản cập nhật về máy bạn thay vì đọc lén tin nhắn.
Hãy tưởng tượng một cuộc bỏ phiếu kín. Thay vì gửi cả bức thư bạn viết, máy chỉ gửi đi một "phiếu bầu" cho những từ khóa nổi bật. Công ty không biết ai đã bầu, họ chỉ thấy tổng kết: "Hôm nay có 1 triệu người dùng từ này".
Kỹ thuật này thường gọi là học máy liên kết. Thay vì gom dữ liệu về máy chủ, hãng gửi thuật toán đến điện thoại bạn để nó tự học tại chỗ, sau đó chỉ mang kết quả đã được mã hóa về để tổng hợp lại.
Nó giống như việc đầu bếp hỏi hàng ngàn khách hàng xem họ thích mặn hay ngọt, thay vì xông vào bếp nhà từng người để nếm thử nồi canh họ đang nấu vậy.
Chủ đề liên quan
Cách Google Maps biết đoạn đường nào đang kẹt xe
Cách bộ lọc tự động nhận biết và chặn email rác
Cách máy tính tìm đường đi ngắn nhất trên bản đồ
Tại sao thuật toán có thể phát hiện quy luật từ dữ liệu hỗn loạn?
Tại sao máy tính chỉ hiểu thế giới qua những con số?
Tại sao trí tuệ nhân tạo có thể tạo ra những hình ảnh chưa từng tồn tại?