自然言語処理の前処理を実装

July 14, 2022 | Translations:

Ja-Jp

This article is automatically generated from the original content

記事に対して機械翻訳を含む自然言語処理を行えるようにするため、人間が記述するMarkdownの自然言語部分のみを取り出す処理を書きます
正規表現で全て判別できたのでわりあい簡単にできた

要件

Markdownで記述している記事の内容を、機械翻訳を含む任意の自然言語処理に渡せるようにする

仕様

Markdownをある程度パースして自然言語の文のみを抽出する
直近で使うのは他言語コンテンツ自動生成における機械翻訳なので、生成処理の部分を置き換える

実装

Markdownパーサー
- 行ごとに分割したうえで、自然言語ではない以下の構文を取り除く
  - Hugoの制御構文である ^\n*---\n(\n|.)*?\n---\n
  - Markdownのprefixである ^(>|\s*(#####|####|###|##|#|- \[ \]|- \[x\]|-|\d+\.))
他言語コンテンツ生成処理の変更点
- 機械翻訳は未着手なのでとりあえず「機械生成の文ですよ」という一文を挿入する

Reference