Làm thế nào tăng doanh số?
Tư vấn MIỄN PHÍ! Thông tin về chúng tôi.

----/----

Google đang học cách phân biệt giữa giọng nói của bạn và người bạn của bạn

 

Theo Google phát biểu:

Chúng tôi có thể chọn ra tiếng của người bạn thân nhất của chúng tôi hoặc tiếng mẹ của chúng tôi từ đám đông ?

 

Video thử nghiệm của google 

  • 2 người nói cùng lúc
  • Tách tiếng nói của từng người ra riêng rẻ theo từng kênh tiếng nói dựa vào hình khuôn mặt. Nhưng theo chúng tôi nghĩ google đang dùng tần số âm thanh để tách riêng tiếng nói của từng người trong video clip youtube.

 

Trong thời điểm này google đã làm tốt chưa? câu trả lời có thể là “không”. Các trợ lý thông minh không phải lúc nào cũng đúng về người đang nói, nhưng Google đang tìm cách thay đổi đó bằng các giải pháp hay.

 

Các nhà nghiên cứu của Google đã giải thích  một hệ thống học tập sâu sắc mới có thể xác định tiếng nói đơn giản chỉ bằng cách nhìn vào khuôn mặt của người khi họ nói chuyện.

Inbar Mosseri và Oran Lang, các kỹ sư phần mềm tại Google Research ghi nhận trong một bài viết trên blog . Và mặc dù khả năng này là bẩm sinh cho con người, “tách giọng nói tự động – tách tín hiệu âm thanh thành các nguồn phát âm riêng lẻ – trong khi một vấn đề được nghiên cứu kỹ càng, vẫn là một thách thức đáng kể cho các máy tính”.

 

Tuy nhiên, Mosseri và Lang đã tạo ra một mô hình nghe nhìn sâu sắc có khả năng cô lập các tín hiệu thoại từ nhiều đầu vào thính giác khác, như tiếng nói bổ sung và tiếng ồn xung quanh. “Chúng tôi tin rằng khả năng này có thể có nhiều ứng dụng khác nhau, từ tăng cường tiếng nói và công nhận trong video, thông qua hội nghị truyền hình, đến máy trợ thính được cải thiện, đặc biệt là trong những tình huống có nhiều người nói”

 

Vì vậy, làm thế nào họ làm điều đó? Bước đầu tiên là đào tạo hệ thống để xác định giọng nói cá nhân (ghép với khuôn mặt của họ) nói không bị gián đoạn trong một môi trường bình thường. Các nhà nghiên cứu trình bày hệ thống với khoảng 2.000 giờ video, tất cả đều có một người trong khung máy ảnh mà không có sự can thiệp nền. Một khi điều này đã hoàn thành, họ bắt đầu thêm tiếng ồn ảo – giống như tiếng nói khác – để dạy hệ thống AI của nó để phân biệt giữa các bản nhạc, và do đó cho phép hệ thống xác định được là những gì.

 

“Phương pháp của chúng tôi hoạt động trên các video bình thường với một bản âm thanh và tất cả những gì được yêu cầu từ người dùng là chọn khuôn mặt của người trong đoạn video mà họ muốn nghe hoặc để người đó được chọn theo thuật toán dựa trên bối cảnh, “Mosseri và Lang đã viết.

Chúng tôi sẽ chỉ xem cách thức phương pháp luận mới này được triển khai cuối cùng trong các sản phẩm mới của Google.

 

 

Leave a Reply

Your email address will not be published. Required fields are marked *