This article is automatically generated from the original content
記事に対して機械翻訳を含む自然言語処理を行えるようにするため、人間が記述するMarkdownの自然言語部分のみを取り出す処理を書きます
正規表現で全て判別できたのでわりあい簡単にできた
要件
- Markdownで記述している記事の内容を、機械翻訳を含む任意の自然言語処理に渡せるようにする
仕様
- Markdownをある程度パースして自然言語の文のみを抽出する
- 直近で使うのは他言語コンテンツ自動生成における機械翻訳なので、生成処理の部分を置き換える
実装
- Markdownパーサー
- 行ごとに分割したうえで、自然言語ではない以下の構文を取り除く
- Hugoの制御構文である
^\n*---\n(\n|.)*?\n---\n
- Markdownのprefixである
^(>|\s*(#####|####|###|##|#|- \[ \]|- \[x\]|-|\d+\.))
- Hugoの制御構文である
- 行ごとに分割したうえで、自然言語ではない以下の構文を取り除く
- 他言語コンテンツ生成処理の変更点
- 機械翻訳は未着手なのでとりあえず「機械生成の文ですよ」という一文を挿入する