CEO Google – Sundar Pichai – mới đây đã cho biết 20% tổng số lượt tìm kiếm trên bộ máy tìm kiếm của công ty được tiến hành thông qua giọng nói từ điện thoại di động. Và đến cuối năm 2017, các số liệu phân tích tại thị trường Mỹ cho thấy có tổng cộng 44 triệu thiết bị Amazon Alexa và Google Home đã được bán ra.Công nghệ ngày nay sở hữu những khả năng nhận diện câu từ cực kỳ ấn tượng, nhưng giao tiếp bằng lời nói phức tạp hơn rất nhiều. Cách chúng ta nói cũng quan trọng như bản thân từng từ ngữ. Khi ai đó nói rằng “Tôi ổn”, âm điệu trong giọng nói của họ có thể cho bạn biết tâm trọng của họ đang hoàn toàn ngược lại với điều họ vừa khẳng định.Các món đồ công nghệ điều khiển giọng nói, như các loa thông minh hay trợ lý ảo, có thể khiến bạn cực kỳ khó chịu bởi chúng chỉ để ý đến từ ngữ và hầu như “lơ” đi cách mà từ ngữ được biểu đạt. Những gã khổng lồ công nghệ hi vọng rằng chiến trường tiếp theo đối với các thiết bị như Amazon Echo sẽ là tìm cách phát hiện một người đang cảm thấy ra sao thông qua giọng nói của họ, từ đó tương tác tự nhiên hơn.Giọng nói con người có thể mang đến thông tin về người đó là ai, họ đến từ đâu, và họ đang cảm thấy thế nào. Khi một người lạ nói chuyện, mọi người lập tức nhận ra trọng âm và ngữ điệu trong giọng nói của họ, từ đó đoán ra tầng lớp, bối cảnh gia đình và trình độ giáo dục của người đó.Nếu các món đồ công nghệ điều khiển giọng nói thu được những thông tin như vậy, giao diện giọng nói có thể được cải tiến. Nhưng đừng quên những hệ quả không lường trước được đằng sau chuyện đó. Công nghệ này dựa trên học máy – một nhánh của trí tuệ nhân tạo, trong đó kết hợp các thuật toán và số liệu thống kê học được bởi một cỗ máy đã được “mớm” cho một lượng dữ liệu cực lớn – và do đó hành vi của nó hoàn toàn không thể dự đoán trước được.
Liệu tương lai sẽ thông minh hay…ngu ngốc?Nghiên cứu đã cho thấy các mẫu giọng nói được sử dụng để huấn luyện các ứng dụng học máy có khả năng cao sẽ dẫn đến sự thiên vị. Bằng chứng về vấn đề này đã và đang hiện diện trong các công cụ phổ biến như Google Translate.Ví dụ, khi chúng ta dịch cụm “o bir doktor” và “o bir hemsire” từ tiếng Thổ Nhĩ Kỳ sang tiếng Anh, Google Translate sẽ trả về kết quả là “he is a doctor” và “she is a nurse”. Nhưng “o” là một đại từ ngôi thứ ba trung tính trong tiếng Thổ Nhĩ Kỳ. Việc mặc định cho rằng bác sỹ là nam giới, và y tá là nữ giới phản ánh những định kiến trong văn hoá và sự chênh lệch trong phân bổ giới tính trong ngành y.Google Translate “học” được sự thiên vị trong văn hoá của con người – vốn hiện diện trong dữ liệu dùng để huấn luyện các thuật toán học máy – và kết quả, chúng ta có một hệ thống phiên dịch phân biệt giới tính nặng nề.
Giải quyết các vấn đề như vậy không hề là một việc dễ dàng, bởi học máy học theo các định kiến của con người một cách mù quáng. Khi con người nghe các giọng nói, chúng ta đơn giản hoá quá trình phản hồi lại người khác bằng cách sử dụng quy tắc ngón cái – tức dựa vào kinh nghiệm của bản thân.Nghiên cứu cho thấy khi chúng ta nghe một người phụ nữ kết thúc nhiều câu nói của cô ta với tông cao lên – còn gọi là “uptalk” – chúng ta lập tức đưa ra nhận định rằng đó là một người phụ nữ trẻ tuổi. Nếu một người đàn ông nói với giọng trầm, chúng ta cho rằng đó là một người to và mạnh mẽ. Những giả định được đơn giản hoá về giọng nói như vậy có thể dẫn đến những cách nhìn đầy định kiến.Một nghiên cứu khác phát hiện ra rằng, các nghi phạm với giọng Birmingham thường có khả năng bị tuyên bố phạm tội cao hơn những nghi phạm với giọng trung tính. Nghiên cứu đó còn cho thấy rằng những người với giọng nói không phải thuộc địa phương thường bị đánh giá là không thật thà.Việc phát hiện ra liệu một người đang giận dữ, vui vẻ, hay buồn bã dựa trên giọng nói của họ có thể rất hữu dụng đối với bất kỳ ai sử dụng các thiết bị điều khiển giọng nói. Nhưng những manh mối âm thanh mà mọi người tạo ra lại không nhất quán với nhau, cũng như giữa các ngôn ngữ và văn hoá khác nhau. Con người không phải lúc nào cũng nhận ra các cảm xúc một cách chính xác – những người từng ở trong một mối quan hệ sẽ biết được điều này – vậy thì tại sao chúng ta lại hi vọng máy móc có thể làm điều đó tốt hơn chính con người?Các nghiên cứu liên quan khả năng của con người mà chúng ta gọi là “gaydar” – một thuật ngữ được dùng bởi những người tự khẳng định mình có khả năng đoán ra được ai là gay, les, hay bi – là một ví dụ cụ thể về những tín hiệu giả và mơ hồ. Người nghe đưa ra giả định của riêng họ rằng một người gay sẽ có âm điệu như thế nào, ví dụ như giọng cao hơn bình thường. Đáng tiếc thay hầu hết các trường hợp, những giả định đó đều…sai bét.Nghiên cứu còn cho thấy việc các diễn viên vào các vai diễn thể hiện những định kiến sai lầm (ví dụ: một diễn viên vào vai người gay thường diễn một cách ẻo lả, ăn mặc loè loẹt) nhằm đáp ứng kỳ vọng của người xem đã trở thành một điều bình thường trên truyền hình.Bản chất cá nhân hoá và mơ hồ của các tín hiệu giọng nói có khả năng dẫn đến nhiều sai lầm trừ khi các công ty công nghệ học được từ những rủi ro của chúng. Các ứng dụng cố diễn giải giọng nói của con người có thể học phải những định kiến đã ăn sâu vào tiềm thức con người, khi mà công nghệ đó lệ thuộc nặng vào việc học hỏi từ dữ liệu nó được cung cấp.Các công ty công nghệ đang phát triển các thiết bị và dịch vụ điều khiển giọng nói có lẽ đã và đang thảo luận với các chuyên gia về âm học. Nhưng họ còn cần phải lắng nghe thật kỹ những cảnh báo để hiểu rõ hơn những cạm bẫy và từ đó tránh vấp phải trước khi áp dụng học máy để giải mã giọng nói của con người.Tham khảo: TheNextWeb