NamiTech - Crystal Sound - Công nghệ AI trong phân tích về xử lý âm thanh - Video: THẾ KIỆT - MAI HUYỀN - NHÃ CHÂN
Công nghệ nhận diện khuôn mặt đã phổ biến, nhưng việc xác thực qua giọng nói không đơn giản. Đã có doanh nghiệp Việt NamiTech phát triển trí tuệ nhân tạo (AI) để nhận diện giọng nói, phân tích, lọc các tạp âm khi nói chuyện điện thoại... và được nhiều nơi trong, ngoài nước dùng.
Chủ tịch NamiTech, ông Nguyễn Thành Lâm chia sẻ:
- Tôi rời FPT Software sau hơn 15 năm. Thử thách trong một số lĩnh vực, tôi quyết định đầu tư tìm hiểu công nghệ AI, vì thấy đây là công nghệ có tiềm năng rất lớn. Đó cũng là lý do tôi gia nhập VinAI, vì ở đây tập trung một đội ngũ tài năng công nghệ.
Ứng dụng AI trong các sản phẩm ô tô, điện thoại, tôi nhận thấy hai điều. Một là AI thực sự có tiềm năng ứng dụng rất lớn. Hai là đội ngũ cán bộ công nghệ của mình rất giỏi, không thua kém bất cứ đâu, kể cả Thung lũng Silicon ở Mỹ. Đấy là lý do chính để tôi khởi nghiệp với AI.
Định danh khách hàng bằng giọng nói
* Nhưng AI ứng dụng trong vô vàn lĩnh vực, vì sao anh lại quyết định khởi nghiệp trong lĩnh vực xử lý âm thanh?
- Câu chuyện bắt đầu từ một bài toán khi còn làm ở VinAI. Điện thoại nào cũng cần có phần mềm xử lý nhiễu. Với mỗi điện thoại sản xuất, Vinsmart phải trả cho Công ty Qualcomm của Mỹ 50 cent (hơn 10.000 đồng) nếu dùng phần mềm của họ.
Chúng tôi thấy mình hoàn toàn có thể tự làm, và nếu mình làm bằng deep learning (học sâu) thì còn có thể làm tốt hơn làm theo kiểu xử lý tín hiệu truyền thống của họ. Với số lượng điện thoại dự kiến sản xuất hàng chục triệu chiếc/năm, đây sẽ là một khoản tiền lớn.
Khi làm, càng suy nghĩ về hướng âm thanh thì chúng tôi càng thấy nhiều tiềm năng, vì suy cho cùng, bên cạnh thị giác, âm thanh là nguồn thông tin quan trọng nhất giúp chúng ta giao tiếp với nhau và với thế giới.
Làm được phần xử lý nhiễu thì cũng có thể làm được phần xử lý giọng nói, nâng cao chất lượng giọng nói, nhận diện giọng nói... Câu chuyện cứ thế tiếp diễn.
* Vậy thực tế các doanh nghiệp đang sử dụng các phần mềm của anh vào hoạt động của họ ra sao?
- Chúng tôi rất mừng là sản phẩm sinh trắc học giọng nói (VoiceDNA) của chúng tôi đã được ngân hàng và công ty bảo hiểm trong, ngoài nước dùng để định danh khách hàng khi giao dịch qua tổng đài chăm sóc khách hàng và app điện thoại (mobile banking).
Phần mềm cũng được dùng để phát hiện các trường hợp bất thường như một khách hàng có quá nhiều hợp đồng bảo hiểm.
Riêng với phần mềm CrystalSound, chúng tôi đưa công nghệ tới người dùng qua nhiều hình thức. Người dùng thông thường có thể tự tải và cài phần mềm CrystalSound trên máy tính để lọc tiếng ồn xung quanh.
Với khách hàng doanh nghiệp, CrystalSound được cài đặt cho nhân viên. Chúng tôi cũng bán bản quyền phần mềm CrystalSound cho các nhà sản xuất thiết bị như tai nghe, máy tính hay thiết bị hội nghị truyền hình.
* Vậy AI đã được đưa vào các sản phẩm của NamiTech ra sao?
- Công nghệ AI vượt trội là một trong những vũ khí cạnh tranh cốt lõi của chúng tôi. AI giúp CrystalSound vượt trội hơn công nghệ xử lý tín hiệu số về chất lượng rất nhiều, nhưng yếu tố thành bại là làm sao đưa được AI này vào chạy trên những bộ vi xử lý thiết bị nhỏ như tai nghe bluetooth, đảm bảo tốc độ xử lý chỉ trong vài chục mili giây.
VoiceDNA có thể đăng ký giọng nói và định danh khách hàng với tốc độ nhanh gấp 3 lần đối thủ, nhưng làm sao để tích hợp vào tổng đài có sẵn của doanh nghiệp? Đó là những bài toán khó không kém gì việc tạo ra những thuật toán AI tốt.
Lối đi riêng từ thị trường ngách
* Thực tế, các phần mềm lọc âm, chuyển giọng nói thành văn bản đã có trên thị trường, các ông lớn công nghệ như Google cũng có công cụ này. Điều gì làm nên sự khác biệt của NamiTech?
- Tôi cho rằng điểm khác biệt của chúng tôi là đặt đúng trọng tâm và đảm bảo tốc độ phản ứng với nhu cầu của thị trường nhanh.
Ví dụ, với phần mềm lọc âm CrystalSound, ban đầu chúng tôi chỉ xử lý tiếng ồn môi trường không phải tiếng nói. Tuy nhiên, bám sát các hoàn cảnh sử dụng của khách hàng, chúng tôi thấy tiếng người khác nói bất kể vô tình hoặc cố ý cũng là một loại tiếng ồn gây khó chịu.
Ngay lập tức chúng tôi kết hợp công nghệ sinh trắc học giọng nói, cho phép người dùng đăng ký giọng nói của chính mình và từ đó trở đi CrystalSound sẽ xóa cả tiếng nói của người xung quanh, chỉ giữ lại giọng nói duy nhất của người dùng.
Còn với sản phẩm nhận diện giọng nói và phân tích hội thoại, chúng tôi nhận thấy điểm yếu của Google khi ứng dụng cho tiếng Việt và tiếng Nhật, đặc biệt là với cuộc hội thoại có nhiều người nói hoặc khi nó diễn ra trong môi trường có nhiều tiếng ồn, chất lượng thu âm hạn chế, trong khi đây mới là những điều kiện ứng dụng thực tế nhất.
Để NamiSense có thể dùng được, chúng tôi kết hợp nhiều công nghệ vốn dĩ tưởng như độc lập nhưng lại có tác dụng bổ trợ rất cao cho nhau. Sản phẩm có khả năng tùy chỉnh cao, cho phép khách hàng có thể đặt ra yêu cầu cụ thể phù hợp cho mục đích sử dụng của mình.