Một ví dụ cụ thể, AI này có thể tiếp nhận một nguồn âm thanh đầu vào là một dàn nhạc giao hưởng đang chơi nhạc của Bach, sau đó xử lý rồi cho ra chính bài hát đó nhưng lại được đánh trên đàn piano theo phong cách của Beethoven chẳng hạn.
Không chỉ một mà AI có thể cho ra hàng loạt bản âm thanh mới với chất lượng độ phân giải cao từ bản thu âm gốc.
Công bố này đã biến FAIR thành nhóm nghiên cứu AI đầu tiên tạo ra một phương pháp học tập chưa được kiểm chứng bằng cách tái tạo âm nhạc độ phân giải cao bằng một mạng lưới thần kinh nhân tạo. Trong Sách trắng công bố cùng phát minh của mình, FAIR viết:
“Kết quả nghiên cứu của chúng tôi đang mang lại, theo như những gì chúng tôi biết, nhiều khả năng và cơ hội chưa từng có. Với khả năng chuyển đổi âm thanh được đánh bằng nhạc cụ này thành chính những âm thanh đó nhưng phát ra từ một nhạc cụ khác, có thể coi AI này sánh ngang tầm với một nghệ sĩ âm nhạc bán chuyên. Qua thử nghiệm, đã rất nhiều lần mọi người không thể phân biệt được bản thu âm gốc và bản output chuyển đổi từ AI vốn dĩ đang bắt chước và tái tạo lại âm thành gốc bằng một nhạc cụ hoàn toàn khác”.
Âm thanh đầu ra chất lượng cao đến kinh ngạc đạt được bằng cách đào tạo cho hệ thần kinh nhân tạo cách tự động encode âm thanh. Tức là trong “suy nghĩ” của AI, nó chỉ đơn giản là tạo ra một chuỗi các âm thanh bằng một nhạc cụ khác sao cho giống hệt một chuỗi các âm thanh gốc vừa được nghe – chứ không coi đó là chuyển đổi phong cách. Nhóm nghiên cứu cho biết:
“Chúng tôi có gắng tách bản thân khỏi tư duy chuyển đổi phong cách và không áp dụng phương pháp đó bởi chúng tôi tin rằng một giai điệu phát ra từ đàn piano không có gì tương tự với cùng một giai điệu được hát bởi một dàn hợp xướng ngoài những khác biệt nhỏ về bề mặt âm thanh. Nếu muốn tạo ra được một bản sao thuyết phục, công việc đánh dấu âm nốt cần được thực hiện trên mức độ cao hơn và còn rất nhiều thứ phải thay đổi ngoài cao độ”.
Hướng tiếp cận của FAIR gồm một phương pháp tự động encode âm thanh phức tạp cho phép hệ thần kinh AI xử lý âm thành đầu vào “mượt mà” ngay cả khi đó là âm thanh nó chưa từng bắt gặp. Thay vì cố gắng đạt chuẩn cao độ, ghi nhớ từng nốt nhạc, AI sử dụng biện pháp nghe hiểu ngữ nghĩa cấp cao – tức có thể nói nó thật sự nghe “bằng tai”.
Cuối cùng, công bố của Facebook một lần nữa nhắc nhở chúng ta về những gì công nghệ đã đạt được và AI đi được bao xa chỉ trong quãng thời gian vài năm ngắn ngủi. Cũng đã có nhiều ứng dụng trên điện thoại cho phép thu nhận bản ghi âm tiếng hát của người dùng vào sau đó chuyển đổi thành một bản nhạc hoặc một bài rap, nhưng hầu hết những nỗ lực đó đều cho ra một bản thu âm thanh đậm chất… auto tune. Trái lại, AI của FAIR là nỗ lực đầu tiên của các nhà nghiên cứu thực sự khiến con người nghe nhầm bản nhạc gốc và một bản nhạc nhân tạo.
Theo Công Minh (TNW/ICT News)