Nhận dạng giọng nói là gì?

Sử dụng giọng nói của bạn làm phương thức nhập

Nhận dạng giọng nói là một công nghệ cho phép nhập liệu vào hệ thống. Bạn nói chuyện với máy tính, điện thoại hoặc thiết bị của bạn và nó sử dụng những gì bạn nói là đầu vào để kích hoạt một số hành động. Công nghệ này đang được sử dụng để thay thế các phương thức nhập khác như nhập, nhấp hoặc chọn theo các cách khác. Nó là một phương tiện để làm cho các thiết bị và phần mềm thân thiện với người dùng hơn và tăng năng suất.

Có rất nhiều ứng dụng và khu vực nơi nhận dạng giọng nói được sử dụng, bao gồm quân đội, như một trợ giúp cho những người bị suy yếu (tưởng tượng một người bị tàn tật hoặc không có bàn tay hoặc ngón tay), trong lĩnh vực y tế, trong robot vv Trong tương lai gần, gần như tất cả mọi người sẽ được tiếp xúc với nhận dạng giọng nói do tuyên truyền của nó trong số các thiết bị phổ biến như máy tính và điện thoại di động.

Một số điện thoại thông minh nhất định đang sử dụng tính năng nhận dạng giọng nói thú vị. Các thiết bị iPhone và Android là những ví dụ về điều đó. Thông qua họ, bạn có thể bắt đầu một cuộc gọi đến một số liên lạc bằng cách chỉ nhận được hướng dẫn bằng giọng nói như 'Gọi văn phòng'. Các lệnh khác cũng có thể được giải trí, chẳng hạn như 'Bật Bluetooth'.

Vấn đề với nhận dạng giọng nói

Nhận dạng giọng nói, trong phiên bản của nó được gọi là Speech to Text (STT), cũng đã được sử dụng trong một thời gian dài để dịch các từ đã nói thành văn bản. "Bạn nói, nó loại", như ViaVoice sẽ nói trên hộp của nó. Nhưng có một vấn đề với STT như chúng ta biết. Hơn 10 năm trước, tôi đã thử dùng ViaVoice và nó không kéo dài một tuần trên máy tính của tôi. Tại sao? Điều đó là không chính xác và tôi đã dành nhiều thời gian và năng lượng hơn để nói và chỉnh sửa hơn là gõ mọi thứ. ViaVoice là một trong những sản phẩm tốt nhất trong ngành, vì vậy hãy tưởng tượng phần còn lại. Công nghệ đã trưởng thành và cải thiện, nhưng lời nói cho văn bản vẫn khiến mọi người đặt câu hỏi. Một trong những khó khăn chính của nó là sự thay đổi to lớn giữa những người phát âm từ.

Không phải tất cả các ngôn ngữ đều được cho là nhận dạng giọng nói và những ngôn ngữ không được hỗ trợ cũng như tiếng Anh. Kết quả là, hầu hết các thiết bị chạy phần mềm nhận dạng giọng nói chỉ hoạt động hợp lý với tiếng Anh.

Một bộ các yêu cầu phần cứng làm cho khả năng nhận dạng giọng nói khó triển khai trong một số trường hợp nhất định. Bạn cần một chiếc micrô đủ thông minh để lọc nhiễu nền nhưng đồng thời đủ mạnh để thu âm giọng nói một cách tự nhiên.

Nói về tiếng ồn xung quanh, nó có thể khiến toàn bộ hệ thống bị lỗi. Kết quả là, nhận dạng giọng nói không thành công trong nhiều trường hợp do tiếng ồn ngoài tầm kiểm soát của người dùng.

Nhận dạng giọng nói được chứng minh là tốt hơn như là một phương pháp đầu vào cho điện thoại mới và công nghệ truyền thông như VoIP, hơn là một công cụ năng suất cho đầu vào văn bản đại chúng.

Các ứng dụng nhận dạng giọng nói

Công nghệ này đang trở nên phổ biến ở nhiều lĩnh vực và đã thành công trong những điều sau:

- Thiết bị điều khiển. Chỉ cần nói "OK Google" với điện thoại Android sẽ kích hoạt một hệ thống là tất cả các tai đối với lệnh thoại của bạn.

- Hệ thống Bluetooth trên ô tô. Nhiều xe được trang bị hệ thống kết nối cơ chế radio với điện thoại thông minh của bạn thông qua Bluetooth. Sau đó, bạn có thể thực hiện và nhận cuộc gọi mà không cần chạm vào điện thoại thông minh của mình và thậm chí có thể quay số bằng cách chỉ nói chúng.

- Phiên âm bằng giọng nói. Trong những lĩnh vực mà mọi người phải gõ rất nhiều, một số phần mềm thông minh nắm bắt những lời nói của họ và phiên âm chúng thành văn bản. Điều này là hiện tại trong phần mềm xử lý văn bản nhất định. Phiên âm bằng giọng nói cũng hoạt động với thư thoại kèm theo hình ảnh .