NLP: Text Summarization: bài toán tóm tắt văn bản

Tóm tắt văn bản là bài toán tạo ra một văn bản tóm tắt ngắn gọn, chính xác và trôi chảy của một văn bản dài hơn.

Tóm tắt văn bản tự động là rất cần thiết để giải quyết số lượng ngày càng tăng dữ liệu văn bản có sẵn trên internet để giúp khai thác và sử dụng thông tin liên quan hiệu quả hơn.

Trong bài này, bạn sẽ khám phá bài toán tóm tắt văn bản trong xử lý ngôn ngữ tự nhiên.

Kiến thức trong bài:

  • Tại sao việc tóm tắt văn bản lại quan trọng, đặc biệt là với sự phong phú của dữ liệu văn bản có sẵn trên internet.
  • Các ví dụ về tóm tắt văn bản mà bạn có thể gặp hàng ngày.
  • Ứng dụng và tiềm năng của các phương pháp deep learning để tóm tắt văn bản tự động.

Tổng quan

Bài viết gồm 5 phần:

  1. Text Summarization
  2. Text Summarization tự động?
  3. Ví dụ về Text Summaries
  4. Phương pháp tóm tắt văn bản
  5. Deep Learning trong Text Summarization

Text Summarization

Có một lượng lớn dữ liệu văn bản, và nó nhiều lên mỗi ngày theo cấp số nhân.

Hãy nghĩ về internet, bao gồm các trang web, bài báo, cập nhật trạng thái, blog và nhiều hơn thế nữa. Dữ liệu không có cấu trúc và cách tốt nhất chúng ta có thể làm để sử dụng là tìm kiếm và đọc lướt kết quả.

Có một nhu cầu rất cấp thiết phải chuyển những dữ liệu văn bản này thành các bản tóm tắt ngắn hơn, tập trung nắm bắt các chi tiết nổi bật, để ta có thể điều hướng nó hiệu quả hơn cũng như kiểm tra xem các tài liệu lớn hơn có chứa thông tin mà ta đang tìm kiếm hay không.

Textual information in the form of digital documents quickly accumulates to huge amounts of data. Most of this large volume of documents is unstructured: it is unrestricted and has not been organized into traditional databases. Processing documents is therefore a perfunctory task, mostly due to the lack of standards.

— Page xix, Automatic Text Summarization, 2014.

Ta không thể tạo ra tóm tắt cho tất cả các tài liệu một cách thủ công, vì vậy, việc tự động tóm tắt dữ liệu văn bản là một nhu cầu cực kì cần thiết.

Trong một cuốn sách với tiêu đề “Automatic Text Summarization,” tác giả đã đưa ra 6 lý do tại sao chúng ta cần một công cụ để tự động tóm tắt văn bản.

  1. Giảm thời gian đọc
  2. Khi nghiên cứu tài liệu, tóm tắt giúp quá trình lựa chọn dễ dàng hơn.
  3. Tóm tắt tự động làm tăng hiệu quả của quá trình sắp xếp kết quả tìm kiếm
  4. Các thuật toán tóm tắt tự động ít sai lệch hơn tóm tắt của con người.
  5. Tóm tắt được cá nhân hóa rất hữu ích trong các hệ thống trả lời câu hỏi vì chúng cung cấp thông tin được cá nhân hóa.
  6. Sử dụng các hệ thống tóm tắt tự động hoặc bán tự động cho phép các dịch vụ tóm tắt thương mại tăng số lượng văn bản mà họ có thể xử lý.

— Pages 4-5, Automatic Text Summarization, 2014.

Bây giờ chúng ta đã biết tại sao ta cần tóm tắt văn bản tự động, hãy xác định rõ hơn ý nghĩa của Text Summarization.

Automatic Text Summarization là gì?

Automatic text summarization, hay text summarization,là quá trình tạo ra một phiên bản ngắn gọn và mạch lạc của một tài liệu dài hơn.

Text summarization is the process of distilling the most important information from a source (or sources) to produce an abridged version for a particular user (or users) and task (or tasks).

— Page 1, Advances in Automatic Text Summarization, 1999.

Chúng ta (con người) nói chung làm tốt loại công việc này vì nó liên quan đến việc đầu tiên hiểu ý nghĩa của tài liệu nguồn, sau đó chắt lọc ý nghĩa và liệt kê các chi tiết nổi bật trong một tóm tắt.

Như vậy, mực tiêu của tóm tắt văn bản tự động là viết ra được một đoạn tóm tắt giống hệt như con người

The ideal of automatic summarization work is to develop techniques by which a machine can generate summarize that successfully imitate summaries generated by human beings.

— Page 2, Innovative Document Summarization Techniques: Revolutionizing Knowledge Understanding, 2014.

Chỉ tạo ra các từ và cụm từ nắm bắt được ý chính của tài liệu nguồn là chưa đủ. Bản tóm tắt yêu cầu phải chính xác và đọc trôi chảy như một tài liệu mới.

Automatic text summarization is the task of producing a concise and fluent summary while preserving key information content and overall meaning

Text Summarization Techniques: A Brief Survey, 2017.

Một số ví dụ về Text Summaries

Có nhiều lý do và cách sử dụng cho việc bản tóm tắt của một tài liệu lớn.

Một ví dụ có thể dễ dàng nghĩ đến là tạo một bản tóm tắt súc tích của một bài báo dài, nhưng có nhiều trường hợp tóm tắt văn bản khác mà chúng ta có thể gặp hàng ngày.

  • tiêu đề
  • dàn ý (lưu ý cho học sinh)
  • biên bản (của một buổi họp)
  • previews (một bộ phim)
  • tóm tắt
  • reviews (một cuốn sách, một bộ phim,…)
  • hướng dẫn sử dụng
  • tiểu sử (sơ yếu lý lịch, cáo phó)
  • bản tin (dự báo thời tiết / báo cáo thị trường chứng khoán)
  • lịch sử (niên đại của các sự kiện nổi bật)

— Page 1, Advances in Automatic Text Summarization, 1999.

Rõ ràng là chúng ta đang đọc và sử dụng các bản tóm tắt nhiều hơn những gì chúng ta có thể tưởng tượng.

Cách để Summarize Text

Có hai cách tiếp cận chính để tóm tắt tài liệu văn bản:

  1. Trích xuất\
  2. Trừu tượng hóa

The different dimensions of text summarization can be generally categorized based on its input type (single or multi document), purpose (generic, domain specific, or query-based) and output type (extractive or abstractive).

A Review on Automatic Text Summarization Approaches, 2016.

Phương pháp chiết xuất bao gồm việc lựa chọn các cụm từ và câu từ tài liệu nguồn để tạo thành phần tóm tắt mới. Các kỹ thuật liên quan đến việc xếp hạng mức độ liên quan của các cụm từ để chỉ chọn những cụm từ phù hợp nhất với ý nghĩa của văn bản gốc.

Tóm tắt văn bản trừu tượng liên quan đến việc tạo các cụm từ và câu hoàn toàn mới để nắm bắt ý nghĩa của tài liệu nguồn. Đây là một cách tiếp cận khó hơn, nhưng cũng là cách tiếp cận tối ưu. Phương pháp cổ điển của trừu tượng hóa văn bản là chọn và nén nội dung từ văn bản gốc.

… there are two different approaches for automatic summarization: extraction and abstraction. Extractive summarization methods work by identifying important sections of the text and generating them verbatim; […] abstractive summarization methods aim at producing important material in a new way. In other words, they interpret and examine the text using advanced natural language techniques in order to generate a new shorter text that conveys the most critical information from the original text

Text Summarization Techniques: A Brief Survey, 2017.

Từ trước đến nay, hầu hết các phương pháp tóm tắt văn bản thành công đều là phương pháp trích xuất vì nó là một cách tiếp cận dễ dàng hơn, nhưng các phương pháp trừu tượng mang lại hy vọng về các giải pháp tổng quát hơn cho bài toán này.

Deep Learning cho Text Summarization

Các phương pháp deep learning gần đây đã cho thấy những kết quả đầy hứa hẹn cho việc tóm tắt văn bản.

Các cách tiếp cận dựa trên việc áp dụng deep learning để dịch máy tự động đã được đề xuất, cụ thể là bằng cách xem bài toán tóm tắt văn bản như một bài toán sequence-to-sequence.

Abstractive text summarization is the task of generating a headline or a short summary consisting of a few sentences that captures the salient ideas of an article or a passage. […] This task can also be naturally cast as mapping an input sequence of words in a source document to a target sequence of words called summary.

Abstractive Text Summarization Using Sequence-to-Sequence RNNs and Beyond, 2016.

Phương án deep learning cho automatic text summarization có thể được coi là một phương pháp trừu tượng hóa and và tạo ra một văn bản tóm tắt mới bằng cách học từ một language generation model nhất định từ văn bản gốc.

… the recent success of sequence-to-sequence models, in which recurrent neural networks (RNNs) both read and freely generate text, has made abstractive summarization viable

Get To The Point: Summarization with Pointer-Generator Networks, 2017.

Kết quả của phương pháp học sâu vẫn chưa tối ưu nhất so với các phương pháp trích xuất, nhưng đã đạt được những kết quả ấn tượng đối với các vấn đề hạn chế như tạo tiêu đề cho các bài báo, và cạnh tranh hoặc vượt trội hơn so với các phương pháp trừu tượng hóa khác.

Điểm hứa hẹn của phương pháp này là model có thể được train end-to-end mà không cần bước chuẩn bị dữ liệu đặc biệt hay sử dụng model con. Và model này hoàn toàn được chi phối bởi dữ liệu, không cần chuẩn bị từ vựng chuyên ngành hay tiền xử lý văn bản gốc.

… we propose a fully data-driven approach to abstractive sentence summarization. […] the model is structurally simple, it can easily be trained end-to-end and scales to a large amount of training data.

A Neural Attention Model for Abstractive Sentence Summarization, 2015

Đó là một vài giới thiệu về text summarization và phương pháp sử dụng deep learning cho text summarization. Ở bài sau, mình sẽ hướng dẫn một số cách thức tóm tắt văn bản từ đơn giản đến phức tạp. Cám ơn mọi người đã đọc bài.

Nguồn bài viết:

https://machinelearningmastery.com/gentle-introduction-text-summarization/

Người dịch:

Lưu Phan