Sau hơn một thập kỷ xuất hiện, công nghệ nhận diện giọng nói đã và đang được ứng dụng rộng rãi trên vô số thiết bị công nghệ chúng ta sử dụng hàng ngày. Bản thân các nhà phát triển cũng đã có những nỗ lực rất lớn, nhằm giúp các hệ thống có thể nhận diện tốt hơn những khẩu lệnh do con người phát ra.
Nhờ vậy, công nghệ này đã đạt được những bước tiến đáng kể trong thời gian gần đây với sự ra đời của trợ lý ảo Siri (Apple), Alexa (Amazon), Cortana (Microsoft) và cả Hệ thống Thông tin Giải trí SYNC do Ford nghiên cứu và phát triển. SYNC hiện đang được triển khai rộng rãi trên nhiều dòng xe Ford, và đem lại những công năng hết sức tiện dụng.
Không đơn giản chỉ là ghi âm và phân tích từng câu nói, công nghệ nhận diện khẩu lệnh thực tế cầu kì và phức tạp hơn rất nhiều để đảm bảo trải nghiệm tốt nhất cho người dùng. |
Tuy nhiên, nhiều người vẫn không khỏi thắc mắc rằng làm sao để điện thoại thông minh, máy tính bảng hay hệ thống thông tin trên xe hơi có thể nhận biết và phản hồi với những câu lệnh của người điều khiển?
Hệ thống nhận diện giọng nói qua sóng âm
Trái với cách hiểu rằng hệ thống nhận diện khẩu lệnh thường chỉ là cơ chế ghi âm và phân tích thuần túy, cơ chế vận hành thực tế của công nghệ này lại cầu kỳ hơn rất nhiều, nhằm đảm bảo độ chuẩn xác. Âm thanh được tạo ra bởi những thay đổi trong áp suất không khí và chúng được tai chúng ta tiếp nhận dưới dạng sóng âm.
Máy tính không thực sự “nghe” được nội dung âm thanh, mà thay vào đó sẽ tiếp nhận những câu lệnh của con người bằng cách đo cường độ sóng âm chúng ta tạo ra, lưu trữ và mã hóa chúng để các thuật toán có thể hiểu được. Vì điều này, những quãng ngắt của sóng âm (đôi khi do cách nói của người dùng) có thể khiến quá trình đo lường bị rối loạn, gây ảnh hưởng đến tiến trình mã hóa của máy tính. Đây là một quá trình rất phức tạp, nên cũng không có gì khó hiểu nếu đôi lúc các thiết bị thông minh không thể nhận biết chính xác hết câu lệnh.
Sau khi phân tích sóng âm do người dúng phát ra, hệ thống sẽ phải thực hiện hàng loạt phân tích bằng các thuật toán định sẵn. |
Sau khi lưu trữ và mã hóa âm thanh, máy tính cũng sẽ nhận diện câu lệnh của người lái, tự động tách câu lệnh của người lái khỏi những tạp âm như tiếng động cơ, tiếng trò chuyện của người ngồi xung quanh, hay tiếng radio trong khoang xe trước khi tiến hành các phép phân tích sâu hơn.
Phân biệt ngữ điệu của từng khu vực
Một trong những tác vụ khó khăn nhất với các hệ thống nhận diện âm thanh là việc làm thế nào để phân tích từ ngữ thành từng âm tiết đơn lẻ, đặc biệt là khi người nói có thể tới từ nhiều vùng, miền với sự khác biệt rất lớn trong cách phát âm cùng một từ ngữ.
Đối với tiếng Anh - loại ngôn ngữ phổ biến nhất, hiện nay con người đã có đến 40 âm tiết khác nhau. Vì vậy, mặc dù máy tính được lập trình để nhận diện những từ ngữ đã được mã hóa, nhưng đôi khi cách phát âm của người lái khiến quá trình này trở nên khó khăn hơn nhiều, và buộc phải dựa vào hệ thống dữ liệu ngôn ngữ được lập trình và tính liên kết của từ ngữ trong câu, máy tính sẽ nhận biết câu lệnh hoàn chỉnh của bạn.
Hiện nay, Ford cũng đang kết hợp với Nuance Communication trong việc phát triển hệ thống SYNC nhận diện giọng nói tự nhiên được tốt hơn. Nhờ vậy, SYNC có thể ngay lập tức nhận diện ngữ điệu của người lái xe sau khi họ phát âm một số từ đơn giản. Giờ đây, hệ thống này đã có thể nhận diện 10 âm điệu khác nhau của tiếng Trung Quốc phổ thông, tiếng Đài Loan phổ thông và giọng Anh – Úc.
Explorer đang là mẫu xe hội tụ đầy đủ nhất các công nghệ tiên tiến của Ford, mà SYNC mới chỉ là một phần trong đó. |
Theo ông Mark Porter, Quản lý mảng Hệ thống Thông tin Giải trí của Ford tại khu vực châu Á – Thái Bình Dương, công nghệ nhận diện giọng nói hiện đại cho phép SYNC 3 có thể nhận diện và phản hồi hiệu quả với giọng nói tự nhiên của bạn. Hệ thống đã được điều chỉnh để thích nghi tốt hơn với giọng Anh – Úc, các ngữ điệu khác nhau của tiếng Trung Quốc cũng như nhận biết các kí tự tiếng Trung được viết trên bề mặt cảm ứng hệ thống.
Dự đoán trước câu lệnh
Bất kì hệ thống ngôn ngữ nào cũng có những từ ngữ chứa đựng những âm tiết giống nhau, khiến quá trình tiếp nhận và mã hóa của máy tính có thể bị nhầm lẫn. Kết quả là đôi khi máy tính phản hồi không chính xác đối với câu lệnh mà bạn đưa ra. Để khắc phục tình trạng này, hệ thống SYNC 3 của Ford luôn áp dụng nhưng mẫu câu mà chúng ta thường sử dụng trong giao tiếp hàng ngày để dự đoán chính xác từ ngữ được sử dụng trong câu lệnh của người lái xe.
Khả năng dự đoán trước các khẩu lệnh khong chỉ giúp máy tính chủ động trong việc thực thi, mà còn đảm bảo việc sử dụng của người dùng trở nên dễ dàng hơn. |
Sau khi áp dụng thuật toán và đưa ra các dự đoán phù hợp, máy tính cũng sẽ chọn lọc và trả lời yêu cầu của người lái xe thông qua màn hình hiển thị hoặc các phản hồi bằng giọng nói. Porter cho biết: “Công nghệ nhận diện giọng nói tiên tiến được tích hợp trên SYNC 3 có thể đưa ra phản hồi gần như ngay lập tức và chính xác hơn rất nhiều.
Khả năng dự đoán trước câu lệnh cũng mở ra năng lực tiếp nhận khẩu lệnh tự nhiên hơn rất nhiều. Giờ đây, thay vì phải nói “Radio” rồi chọn thủ công kênh phát thanh yêu thích, giờ đây, bạn có thể sử dụng câu lệnh tự nhiên hơn, như “Chuyển đài tới tần số …” để lựa chọn bất kì kênh phát thanh nào bạn muốn. Ngoài ra, xe mới cũng có thể nhận diện linh hoạt các mệnh lệnh đa dạng khác, mà nhiều trong số chúng là bất khả thi với các cơ chế nhận diện khẩu lệnh trước đây.
Với việc hoạt động ngày càng chính xác và hiệu quả như vậy, Hệ thống điều khiển bằng giọng nói đang đóng vai trò quan trọng trong việc nâng cao chất lượng đời sống của con người. Chính vì vậy, đừng vội bực mình khi thiết bị phản hồi chưa chính xác với yêu cầu của bạn, bởi quá trình tiếp nhận, mã hóa và phân tích câu lệnh là một quá trình vô cùng phức tạp và khó khăn.
“SYNC được thiết kế để người lái xe có thể dễ dàng sử dụng giọng nói điều khiển các chức năng trên chiếc xe của mình. Ford đang không ngừng phát triển những công nghệ hỗ trợ người lái để tất cả mọi người có thể tham gia giao thông một cách an toàn và thoải mái hơn”, ông Christoph Scholl, Kĩ sư Quản lý mảng Kỹ thuật Điện tử của Ford tại châu Á – Thái Bình Dương, cho biết.
Gian trưng bày của Ford tại Triển lãm Ô tô Việt Nam năm 2017 hồi đầu tháng 8/2017. |
Xe ô tô và hơn thế nữa
Không chỉ dừng lại ở việc gọi điện thoại, tắt bật điều hòa nhiệt độ hay chuyển kênh Radio, khả năng tương tác bằng giọng nói trên ô tô đang ngày càng tiến xa hơn, dựa trên cơ sở dữ liệu phong phú tới... vô hạn. Ngay từ đầu năm 2017, Ford cũng đã mở ra một sân chơi mới khi cho phép sử dụng Amazon Alexa trong hệ thống nhận diện khẩu lệnh của các mẫu xe với biểu tượng oval xanh. Nhờ thế, người dùng không chỉ có thể tải nhạc từ các dịch vụ của Amazon mà còn có thể lập lịch làm việc, thậm chí mua sắm ngay trên xe. Thú vị hơn, Alexa cũng cho phép tài xế mở khóa cửa, khởi động xe từ xa mà không cần bất cứ gói tùy chọn bổ sung nào như trước đây.
Khả năng sử dụng các dịch vụ của Alexa là một trong các bước tiến mới của công nghệ nhận diện khẩu lệnh trên xe Ford trong năm 2017. |
Dĩ nhiên, Alexa mới chỉ là sự khởi đầu. Trong bối cảnh khả năng tương tác ngày càng hoàn thiện hơn, năng lực xử lý điện toán ngày càng mạnh mẽ hơn, việc "thổi hồn" vào những chiếc xe hơi, để chúng thực sự trở thành người trợ lý ảo trên mỗi cung đường là một tương lai đầy thú vị cho những chiếc xe, và bạn - ông chủ với quyền năng tuyệt đối - sẽ ra lệnh cho nhân viên của mình bằng cách nào? Dĩ nhiên là qua những mệnh lệnh đầy mạnh mẽ rồi.
Nhìn chung, việc các thiết bị thông minh có thể nhận biết và phản hồi với những gì bạn nói là một bước tiến quan trọng và đáng ghi nhận trong lĩnh vực công nghệ, giúp cuộc sống của chúng ta trở nên dễ dàng và thoải mái hơn. Việc có thể ra lệnh cho xe trong khi mắt vẫn trên đường và tay vẫn đặt trên vô lăng là một trong những yêu tố quan trọng giúp đảm bảo sự an toàn cho các hành trình. Chính vì vậy, không lạ khi những nhà sản xuất thực sự "có tâm" sẽ luôn chú trọng tới công nghệ tương tác bằng âm thanh như nêu trong bài viết. Với quan điểm ấy, SYNC đã, đang, và sẽ luôn được Ford cải tiến không ngừng, nhằm tạo ra những trải nghiệm hoàn thiện, tiện dụng và thú vị hơn cho người dùng.
Lê Chi