ひろこま Hack Log

プログラミングや機械学習などの知識を記録・共有します

言語処理

RTF形式 (rich text format) をUTF-8に変換

RTF形式 (rich text format) をUTF-8に変換 RTF形式とは rich text formatのことで、テキストのサイズやフォントを変えられたり、文字に装飾を付けたりできる形式です。 MicrosoftのWordやMacのテキストエディタなどを思い浮かべてみるとわかりやすいかもし…

Pythonでハイフンやマイナスなど類似文字の正規化

類似文字の文字コード 類似文字問題 ハイフンとダッシュのように、別の文字ではあるが、見た目が全く同じ文字というものが存在しています。以下がその例です。 # ハイフンに見える文字と、その文字コード - 0x2d ‑ 0x2011 ‒ 0x2012 – 0x2013 - 0xff0d ─ 0x2…

Koma Hirokazu 's Hacklog ―― Copyright © 2018 Koma Hirokazu