Cách sử dụng Công cụ 'Ngram Viewer' trong Google Sách

Một Ngram, cũng thường được gọi là một N-gram là một phân tích thống kê của nội dung văn bản hoặc lời nói để tìm n (một số) của một số loại mục trong văn bản. Nó có thể là tất cả mọi thứ, như âm vị, tiền tố, cụm từ hoặc chữ cái. Mặc dù N-gram hơi che khuất bên ngoài nhà nghiên cứu, nhưng nó thực sự được sử dụng trong nhiều lĩnh vực khác nhau, và nó có rất nhiều tác động đối với những người làm cho các chương trình máy tính hiểu và đáp ứng với ngôn ngữ nói tự nhiên. Điều đó, tóm lại, sẽ là sự quan tâm của Google trong ý tưởng này.

Trong trường hợp của Trình xem Ngram của Google Sách, văn bản được phân tích xuất phát từ số lượng sách khổng lồ mà Google đã quét từ các thư viện công cộng để điền vào công cụ tìm kiếm Sách của Google của họ. Đối với Trình xem Ngram của Google Sách, chúng đề cập đến văn bản bạn sẽ tìm kiếm dưới dạng "kho văn bản". Tập đoàn trong Ngram Viewer được phân chia theo ngôn ngữ, mặc dù bạn có thể phân tích riêng biệt Anh và Mỹ hoặc gộp chúng lại với nhau. Nó kết thúc là siêu thú vị để chuyển đổi từ Anh sang Mỹ sử dụng các điều khoản và xem các thay đổi bảng xếp hạng.

Cách hoạt động của Ngram

  1. Truy cập Trình xem Ngram của Google Sách tại books.google.com/ngrams.
  2. Các mục có phân biệt chữ hoa chữ thường, không giống như tìm kiếm trên web của Google, vì vậy hãy đảm bảo viết hoa các danh từ thích hợp.
  3. Nhập bất kỳ cụm từ hoặc cụm từ nào bạn muốn phân tích. Hãy chắc chắn tách từng cụm từ bằng dấu phẩy. Google đề xuất, "Albert Einstein, Sherlock Holmes, Frankenstein" để giúp bạn bắt đầu.
  4. Tiếp theo, nhập vào một phạm vi ngày. Mặc định là 1800 đến 2000, nhưng có nhiều sách gần đây hơn (2011 là sách gần đây nhất được liệt kê trong tài liệu của Google, nhưng điều đó có thể đã thay đổi.)
  5. Chọn một kho văn bản. Bạn có thể tìm kiếm các văn bản bằng tiếng nước ngoài hoặc tiếng Anh, và ngoài các lựa chọn tiêu chuẩn, bạn có thể nhận thấy những thứ như "tiếng Anh (2009) hoặc tiếng Anh Mỹ (2009)" ở phía dưới. Đây là những tập đoàn cũ hơn mà Google đã cập nhật, nhưng bạn có thể có một số lý do để so sánh với các tập dữ liệu cũ. Hầu hết người dùng có thể bỏ qua chúng và tập trung vào các tập đoàn gần đây nhất.
  6. Đặt mức độ làm mịn của bạn. Làm mịn đề cập đến mức độ trơn tru của biểu đồ ở cuối. Biểu diễn chính xác nhất sẽ là mức làm mịn 0, nhưng có thể khó đọc. Mặc định được đặt thành 3. Trong hầu hết các trường hợp, bạn không cần phải điều chỉnh điều này.
  1. Nhấn nút Tìm kiếm nhiều sách . (Bạn cũng có thể nhấn enter tại dấu nhắc tìm kiếm.)

Ngram là gì?

Trình xem Ngram của Google Sách sẽ xuất ra biểu đồ thể hiện việc sử dụng cụm từ cụ thể trong sách theo thời gian. Nếu bạn đã nhập nhiều từ hoặc cụm từ, bạn sẽ thấy các dòng được mã hóa màu để tương phản với các cụm từ tìm kiếm khác nhau. Điều này khá giống với Google Xu hướng , chỉ tìm kiếm mới có thời gian dài hơn.

Đây là một ví dụ thực tế. Chúng tôi rất tò mò về những chiếc bánh giấm gần đây. Chúng được nhắc đến trong Ngôi nhà Nhỏ của Laura Ingalls Wilder trên loạt Prairie , nhưng chúng tôi chưa bao giờ nghe nói về một điều như vậy. Trước tiên, chúng tôi đã sử dụng tìm kiếm trên web của Google để tìm hiểu thêm về bánh nướng giấm. Rõ ràng, chúng được coi là một phần của ẩm thực miền Nam nước Mỹ và thực sự được làm từ giấm. Họ nghe lại những lúc mà không phải ai cũng có thể tiếp cận với những sản phẩm tươi sống vào mọi thời điểm trong năm. Đó có phải là toàn bộ câu chuyện không?

Chúng tôi đã tìm kiếm trên Trình xem Ngram của Google và có một số đề cập về chiếc bánh ở cả hai đầu những năm 1800 và cuối, có rất nhiều đề cập trong thập niên 1940 và số lượng đề cập trong thời gian gần đây (có lẽ là một số nỗi nhớ về bánh.) vấn đề với dữ liệu ở mức độ làm mịn 3. Có một cao nguyên so với các đề cập trong những năm 1800. Chắc chắn không có số lượng đề cập tương đương với một chiếc bánh đặc biệt mỗi năm trong năm năm? Điều đang xảy ra là bởi vì không có nhiều sách được xuất bản trong thời gian đó và bởi vì dữ liệu của chúng tôi được đặt thành trơn tru, nó làm biến dạng hình ảnh. Có lẽ đã có một cuốn sách đề cập đến chiếc bánh giấm, và nó chỉ được lấy trung bình để tránh sự tăng đột biến. Bằng cách đặt làm mịn đến 0, chúng ta có thể thấy rằng đây chính xác là trường hợp. Các trung tâm tăng đột biến vào năm 1869, và có một tăng đột biến vào năm 1897 và 1900.

Có ai không nói về giấm pies phần còn lại của thời gian? Có lẽ họ đã nói về những cái bánh đó. Có khả năng công thức nấu ăn trôi nổi khắp nơi. Họ chỉ không viết về chúng trong sách, và đó là giới hạn của những tìm kiếm Ngram này.

Tìm kiếm Ngram nâng cao

Hãy nhớ cách chúng tôi nói rằng Ngrams có thể bao gồm tất cả các loại tìm kiếm văn bản khác nhau? Google cho phép bạn xem chi tiết một chút với Trình xem Ngram. Nếu bạn muốn tìm kiếm cá động từ thay vì cá danh từ, bạn có thể làm như vậy bằng cách sử dụng thẻ. Trong trường hợp này, bạn sẽ tìm kiếm "fish_VERB"

Google cung cấp danh sách đầy đủ các lệnh bạn có thể sử dụng và các tài liệu nâng cao khác trên trang web của họ.