Trạng thái nhận dạng giọng nói của Linux

by Gary Newell

Giới thiệu

Tôi dành rất nhiều thời gian nghiên cứu cho các bài báo và khá thường xuyên tôi nghĩ về chủ đề cho một bài báo trong khi đi bộ đến ga xe lửa hoặc khi ra ngoài và về nói chung.

Một buổi tối khi đi bộ 1,5 dặm về phía trạm từ công việc của tôi, tôi nghĩ rằng "nó sẽ không được tốt nếu tôi có thể ghi lại những gì tôi muốn nói và sau đó có nó sao chép tự động vào một tập tin văn bản mà tôi có thể chỉnh sửa và định dạng sau này" .

Tôi đã dành nhiều thời gian để xem xét các tùy chọn khác nhau để nhận dạng giọng nói và đọc chính tả bao gồm ghi trực tiếp qua micrô bằng phần mềm đọc chính tả trong Linux, ghi tệp sang định dạng MP3 hoặc WAV và chuyển đổi nó qua dòng lệnh cũng như sử dụng Chrome và các ứng dụng Android.

Bài viết này nêu bật những phát hiện của tôi sau những ngày làm việc chăm chỉ.

Tùy chọn Linux

Cố gắng tìm phần mềm nhận dạng chính tả và nhận dạng giọng nói trong Linux không dễ dàng như nó có thể và các tùy chọn có sẵn không phải là thông minh.

Trang wikipedia này có một danh sách các tùy chọn tiềm năng bao gồm CMU Sphinx, Julius và Simon.

Tôi đang sử dụng SparkyLinux dựa trên Thử nghiệm Debian vào lúc này và tôi có thể cho bạn biết rằng gói nhận dạng giọng nói duy nhất có sẵn trong kho là Sphinx.

Các chương trình Linux bản địa mà tôi đã kết thúc là PocketSphinx, mà tôi đã sử dụng để chuyển đổi các tệp WAV thành văn bản và Freespeech-VR là ứng dụng python cho phép bạn ghi trực tiếp từ một micrô.

Tôi cũng đã thử một vài ứng dụng Chrome bao gồm VoiceNote II và Dictanote.

Cuối cùng tôi đã thử "Chính tả và Email" và "Talk And Talk Dictation" Ứng dụng Android.

Freespeech-VR

Freespeech-VR không có sẵn trong kho tiêu chuẩn. Tôi đã tải xuống các tệp từ đây.

Sau khi tải xuống và giải nén nội dung của tệp zip, tôi đã mở một thiết bị đầu cuối và điều hướng đến thư mục nơi các tệp được trích xuất.

Tôi gõ lệnh sau để mở freespeech-vr.

sudo python freespeech-vr

Tôi có một cặp tai nghe với một chiếc micro khá phong nha và một giọng nói phía nam khá rõ ràng.

Các văn bản sau đây xuất hiện trong cửa sổ freespeech-vr:

Chào mừng bạn đến với con chó đơn vị của kết quả Hôm nay Có đảm bảo Làm thế nào để quản lý thử nghiệm An phải kiểm tra Khi Để văn bản Sử dụng một cách hệ thống Bài phát biểu tôi Để Mỗi một Chỉ Trong Một Để hy vọng ở lại Và Để Phương tiện của một con gà vàng như hệ thống Các Ea khi nó tên của tôi tiếp theo ofch gọi điện thoại Tập tin này Sớm đủ một trường hợp điện thoại để Hands-Space sphinx Going That không phải là một điện thoại sẽ được chia sẻ Một được đào tạo và và các công cụ Sử dụng nói Khi bạn đã hoàn thành Say A được sử dụng tập tin Câu chuyện A Và sử dụng một bởi Khi nó là rất thành công như thế nào Linux này là như bạn tránh được là

Tôi chỉ muốn nói bây giờ rằng đây không phải là trang web của đơn vị Of Dogs và tại thời điểm nào tôi đã đề cập đến bất cứ điều gì để làm với gà vàng. Tôi đã thực sự cố gắng mô tả quá trình sử dụng phần mềm nhận dạng giọng nói.

Tôi đã thử các phần mềm một vài lần bao gồm cả sân và tốc độ khác nhau nhưng độ chính xác là người nghèo.

PocketSphinx

PocketSphinx có thể lấy một tệp WAV và chuyển đổi nó thành văn bản bằng cách sử dụng dòng lệnh.

PocketSphinx có sẵn thông qua kho Debian và nên có sẵn cho hầu hết các bản phân phối.

Vấn đề chính tôi tìm thấy với PocketSphinx là bạn hầu như cần một mức độ trong các khái niệm về nhận dạng giọng nói, các tập tin ngôn ngữ, từ điển và cách đào tạo hệ thống.

Sau khi cài đặt PocketSphinx bạn nên vào trang web của CMU Sphinx và đọc càng nhiều thông tin càng tốt. Bạn cũng cần tải xuống tệp mô hình sau.

Mô hình ngôn ngữ chung tiếng Anh Mỹ

(Nếu bạn không phải là người nói tiếng Anh bản địa, hãy chọn mô hình ngôn ngữ phù hợp với bạn).

Tài liệu cho PocketSphinx và Sphinx nói chung rất khó hiểu đối với người cư trú nhưng từ những gì tôi có thể tạo ra các tệp từ điển được sử dụng để cung cấp danh sách các từ và mô hình ngôn ngữ có thể có danh sách các từ phát âm tiềm năng.

Để kiểm tra PocketSphinx tôi đã sử dụng bản ghi âm giọng nói của chính mình, một đoạn trích từ Al Pacino trong "The Advils Advocate" và một đoạn trích từ "Morgan Freeman". Điểm này là để thử giọng nói khác nhau và đối với tôi không có ai có thể kể một câu chuyện rõ ràng như Morgan Freeman và không ai cung cấp một dòng như Al Pacino.

Đối với PocketSphinx để làm việc nó cần một tập tin WAV và nó cần phải được ở một định dạng nhất định. Nếu tệp ở định dạng MP3, hãy sử dụng lệnh ffmpeg để chuyển đổi thành định dạng WAV:

ffmpeg -i inputfilename.mp3 -acodec pcm_s16le -ar 16000 outputfilename.wav

Để chạy PocketSphinx, hãy sử dụng lệnh sau:

pocketsphinx_continuous -dict /usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic -infile voice2.wav -lm cmusphinx-5.0-en-us.lm 2> voice2.log

pocketsphinx_continuous lấy một tệp WAV và chuyển đổi nó thành văn bản.

Trong lệnh trên pocketsphinx được yêu cầu sử dụng một tập tin từ điển gọi là "/usr/share/pocketsphinx/model/lm/en_US/cmu07a.dic" với mô hình ngôn ngữ "cmusphinx-5.0-en-us.lm". Tệp đang được chuyển đổi thành văn bản được gọi là voice2.wav (đây là bản ghi âm tôi đã tạo bằng giọng nói của mình). Cuối cùng, 2> đặt tất cả các đầu ra dài dòng mà bạn không nhất thiết cần vào một tệp có tên là voice2.log. Kết quả thực tế của thử nghiệm được hiển thị trong cửa sổ đầu cuối.

Kết quả sử dụng giọng nói của tôi như sau:

Chào mừng bạn đến với phần tiếp theo của chủ đề tuần này về phần mềm nhận dạng nào trong một phút

Kết quả không phải là khủng khiếp như với freespeech-vr nhưng vẫn không thực sự sử dụng được. Sau đó tôi đã thử sử dụng PocketSphinx với Al Pacino nhưng điều này không trả lại kết quả nào cả.

Cuối cùng tôi đã thử sử dụng giọng nói của Morgan Freeman từ bộ phim "Bruce Almighty" và đây là kết quả:

000000000: chúng tôi sẽ cho cô ấy
000000001: là tất cả những khó khăn yeah ngày mà ngay bây giờ yeah đây là hầu hết chúng tôi đã sống tôi là một phần của nóng
000000002: trong thang máy là chìa khóa của một chút bóng chày hoặc biết phải làm gì trong cuộc sống
000000003: những cái nào sẽ khôi phục
000000004: họ không viết nó
000000005: họ có trên tôi ngay
000000006: bạn phải là quy tắc
000000007: tôi đã mong đợi bạn
000000008: và ông đã học ở đây là một minh họa là bữa tiệc giáng sinh sát thủ
000000009: nó chỉ ra một trong những cách để viết o. ass tôi nghĩ rằng ít luôn luôn mặc một
000000010: giống như vấn đề thống nhất sẽ không cho anh ta tốt tôi ước tính họ tại thời điểm đó khi chúng tôi đã không tất cả những gì bạn nghĩ rằng tôi đang ở trong thế giới sẽ nhà và tôi đã thấy rằng
000000011: một người cha có nó
000000012: rất nhiều về điều này
000000013: điều đó có được cung cấp không
000000014: mọi thứ bạn không rơi vào rất nhiều
000000015: ngay vào mùa thu
000000016: giữ chặt cho tôi
000000017: Thật không hài lòng nếu tôi nghĩ rằng họ sẽ có một cái mà tất cả những gì đã kết hôn trên một là không chúng tôi làm tôi thích không giống như cách

Thử nghiệm của tôi khó có thể được coi là khoa học và các nhà phát triển của PocketSphinx có thể nói rằng tôi không sử dụng phần mềm một cách chính xác. Ngoài ra còn có một kỹ thuật được gọi là đào tạo bằng giọng nói có thể được sử dụng để tạo các từ điển và các tập tin ngôn ngữ tốt hơn.

Mặc dù vậy, ý kiến quan trọng của tôi là quá khó để sử dụng hàng ngày tiêu chuẩn.

VoiceNote II

VoiceNote II là ứng dụng Chrome sử dụng API nhận dạng Google Voice.

Nếu bạn đang sử dụng trình duyệt Chrome hoặc Chromium, bạn có thể cài đặt VoiceNote II qua Cửa hàng trực tuyến .

Các biểu tượng trên VoiceNote II được trình bày theo kiểu lạ khi bạn cần thiết lập ngôn ngữ ở cuối cửa sổ và nút chỉnh sửa cũng ở dưới cùng, tuy nhiên nút ghi ở vị trí trên cùng bên phải.

Điều đầu tiên bạn cần làm là chọn một ngôn ngữ và điều này có thể đạt được bằng cách nhấp vào biểu tượng thế giới.

Để bắt đầu quay, hãy nhấp vào biểu tượng micrô và bắt đầu nói vào micrô của bạn. Để có kết quả tốt nhất tôi thấy chậm rãi là chìa khóa để phần mềm có cơ hội theo kịp.

Kết quả không tuyệt vời như có thể thấy bên dưới:

Xin chào và chào mừng bạn đến kết nối. About.com todays bài viết về chuyển đổi giọng nói sang văn bản dunelm farrell suy thoái năm 2008 như chuyển đổi và nó cũng hỗ trợ tốt nhất cách tôi tìm thấy văn bản bằng giọng nói addon để hiển thị 2014debian hoặc rpm gói mở nó loại giọng nói để nói để văn bản mở nó nếu bạn muốn chọn vs đã chọn trong edinburgh french Đức giúp bạn có thời gian trong vương quốc thống nhất trên biển microphonewhat bạn hoàn thành văn bản của bạn văn bản như một tập tin văn bản để ituccess tốt đó là giọng Anh rất chuẩn từ phía nam của england tốt nhất cho nó, nhưng tôi sẽ textvia này torrentalong với tài liệu thực tế và bạn có thể thấy những sai lầm khiến bạn phải lắng nghe

Dictanote

Dictanote là một ứng dụng Chrome khác có thể được sử dụng cho mục đích chính tả và được xem là trực quan hơn nhưng kết quả không tốt hơn VoiceNote II.

Tôi chỉ sử dụng phiên bản demo của Dictanote để ngăn bạn tạo tài liệu mới nhưng nó cho phép bạn nói về văn bản đã có trong trình chỉnh sửa. Tôi đã có thể kiểm tra nhận dạng giọng nói nhưng kết quả không tốt hơn VoiceNote II và vì vậy tôi đã không đăng ký phiên bản chuyên nghiệp.

Chính tả và thư

"Chính tả và thư" là một ứng dụng Android sử dụng API nhận dạng giọng nói gốc của Google.

Kết quả từ "Chính tả và Thư" đã tốt hơn nhiều so với bất kỳ chương trình nào khác đã cố gắng đến thời điểm này.

chào mừng bạn đến với Linux., hôm nay chúng ta đang nói về việc chuyển đổi âm thanh thành văn bản

Bí quyết với "Chính tả và Thư" là để nói chậm và phát âm cũng như bạn có thể với một giọng thậm chí.

Sau khi bạn nói xong, bạn có thể gửi email kết quả cho chính mình.

Nói chuyện và đọc chính tả

Ứng dụng Android khác mà tôi đã thử là "Talk And Talk Dictation".

Giao diện cho ứng dụng này là tốt nhất của các bó và nhận dạng giọng nói làm việc rất tốt thực sự. Sau khi ghi lại chính tả tôi đã có thể chia sẻ các kết quả theo nhiều cách khác nhau bao gồm cả qua email.

chào mừng bạn đến với linux about.com hôm nay chúng ta đang nói về chuyển đổi lời nói thành văn bản

Như bạn có thể thấy các văn bản trên là về rõ ràng như bạn có thể có thể mong đợi để có được. Nói chậm là chìa khóa.

Tóm lược

Native Linux có một số cách để đi liên quan đến nhận dạng giọng nói và chính tả cụ thể. Có một số ứng dụng sử dụng API Google Voice nhưng chúng chưa được liệt kê trong kho.

Các ứng dụng ChromeOS tốt hơn một chút nhưng đến nay, kết quả tốt nhất đã đạt được bằng cách sử dụng điện thoại Android của tôi. Có lẽ điện thoại có micrô tốt hơn và do đó phần mềm nhận dạng giọng nói là cơ hội tốt hơn để chuyển đổi.

Để nhận dạng giọng nói trở nên thực sự sử dụng được, nó cần phải trực quan hơn với ít yêu cầu thiết lập hơn. Bạn không cần phải rối tung xung quanh với các mô hình ngôn ngữ và từ điển để làm cho nó dễ hiểu.

Tuy nhiên, tôi đánh giá cao rằng toàn bộ nghệ thuật nhận dạng giọng nói là rất khó khăn bởi vì mọi người đều có một giọng nói khác nhau và có rất nhiều tiếng địa phương từ khu vực này đến khu vực khác ở một nước không bao giờ lo lắng về hàng trăm ngôn ngữ được sử dụng trên toàn thế giới.

Do đó, phân tích của tôi là phần mềm nhận dạng giọng nói vẫn đang hoạt động.