失眠网,内容丰富有趣,生活中的好帮手!
失眠网 > Python - 常用库 - OpenCC(中文繁简体转换)

Python - 常用库 - OpenCC(中文繁简体转换)

时间:2022-10-18 18:47:28

相关推荐

Python - 常用库 - OpenCC(中文繁简体转换)

1. OpenCC介绍

Open Chinese Convert(OpenCC)是一个开源的中文简繁转换项目,致力于制作高质量的基于统计预料的简繁转换词库。还提供函数库(libopencc)、命令行简繁转换工具、人工校对工具、词典生成程序、在线转换服务及图形用户界面。

OpenCC具体如下特点

严格区分「一简对多繁」、「一简对多异」和「地域用词差别」。支持异体字转换,兼容陆港澳台等不同地区用字差别。严格审校一简对多繁词条,原则为「能分则不合」,用户可自定义合并。

支持中国大陆、台湾、香港异体字和地区习惯用词转换,如「裏」「裡」、「鼠標」「滑鼠」。词库和函数库完全分离,可以自由修改、导入、扩展。支持C、C++、Python、PHP、Node.js等多种语言API,提供命令行直接调用,以及图形界面。兼容Windows、Linux、Mac等多种平台。

2. OpenCC-python

用法请详细参考OpenCC-python in pypi

2.1 安装

pip install opencc-python

2.2 使用示例

#!/usr/bin/env python #-*- coding: utf8 -*-import opencccc = opencc.OpenCC('t2s')print cc.convert(u'Open Chinese Convert(OpenCC)「開放中文轉換」,是一個致力於中文簡繁轉換的項目,提供高質量詞庫和函數庫(libopencc)。')

OpenCC有4种转换模式

t2s - 繁体转简体s2t - 简体转繁体mix2t - 混合体转繁体mix2s - 混合体转简体

3. Shell用法

opencc-python的文本处理效率很低。另外一种提高转换效率的方式是直接在linux下安装OpenCC,处理效率会有飞一般的提升。

3.1 OpenCC安装

安装过程及问题主要参考: CentOS安装OpenCC

3.1.1 检查下linux环境下是否已经安装cmake以及git,如果没有,那就通过yum安装好。

$ yum install cmake$ yum install git

3.1.2 克隆下OpennCC开源项目OpennCC开源项目。

git clone /BYVoid/OpenCC

3.1.3 编译OpenCC

$ cd OpenCC$ make$ make install

3.1.4 创建libopencc.so.2链接

如果不知道libopencc.so.2的路径,可以通过find / -name libopencc.so.2查找。

$ ln -s /usr/lib/libopencc.so.2 /usr/lib64/libopencc.so.2

3.1.5 通过查看 OpenCC 版本,检查OpenCC是否已经安装成功

$ opencc --version

3.2 OpenCC使用

#繁体转简体$ echo '歐幾里得 西元前三世紀的希臘數學家' | opencc -c t2s欧几里得 西元前三世纪的希腊数学家#简体转繁体$ echo '欧几里得 西元前三世纪的希腊数学家' | opencc -c s2t歐幾里得 西元前三世紀的希臘數學家#可以通过以下方式直接对文件进行繁简转换$ opencc -i zhwiki_raw.txt -o zhwiki_t2s.txt -c t2s.json

如果觉得《Python - 常用库 - OpenCC(中文繁简体转换)》对你有帮助,请点赞、收藏,并留下你的观点哦!

本内容不代表本网观点和政治立场,如有侵犯你的权益请联系我们处理。
网友评论
网友评论仅供其表达个人看法,并不表明网站立场。