技术,生活,随看 \随转
离线中英文词典数据库 | ECDICT | #数据库 #词典

这是一份英文->中文字典的双解词典数据库,根据各类考试大纲和语料库词频收录数十万条各类单词的英文和中文释义,并按照各类考试大纲和词频进行标注。 ​​​

“最初开发看书软件时需要给软件添加一个内嵌字典,在网上找到了一份别人提供的 EDictAZ.txt 的文本文件,里面有差不多两万英文单词的释义,于是开始用这个文件来提供字典查询,用着用着不够用了,又找到一份四六级到 GRE 包含释义的词汇表,但是缺少音标,于是写了个爬虫从各种资料里面把音标给爬下来,外加自己补充了一些组成了一份三万基本词汇的数据库。

其后数年根据各种资料和网友贡献词库增长到 10 万左右,又找到 Linux 下面的 cdict-1.0-1.rpm 这个开源字典数据(mdict 的主词库也是根据 cdict 转换得到),并按照英国国家语料库的前 16 万单词进行校对,补全很多语料库里词频较高但是却没有收录的词条。”
可视化英语词典,一次性get到近义词、反义词,甚至是从属关系和因果关系的词汇,并能形成一张清晰的单词关系脉络网。

类似词典还有一个叫:WordVis ​​​

Visuwords | #词典 #可视化
DomainWordsDict 一个专业 #词典 知识库

作者是刘焕勇,现任360人工智能研究院算法专家,前中科院软件所工程师,主要研究方向为知识图谱、事件图谱在实际业务中的落地应用。

项目涵盖68个领域、共计916万词的专业词典知识库,可用于文本分类、知识增强、领域词汇库扩充等自然语言处理应用。在利用学习模型进行自然语言处理任务时候,领域词汇可以作为一项重要的领域特征加入到模型当中,可以提升领域性模型的性能

项目由来
1、领域性是自然语言处理中十分重要的一类问题,不同的领域之间在文本形式、用词、表达上都存在差异。而领域词汇作为一个领域的表示是用来区分领域的常规手段,例如,在没有标注语料进行有监督的领域文本分类中,利用领域关键词进行匹配、计数、排序的方式即可以完成这一任务。
2、当前,纵观中文开放语言资源,并未有出现较大规模的领域性资源,如领域的wordembedding词向量、领域的关键词库。而这一资源在传统方法进行文本处理具有较大价值。

为了填补这一空白以及对领域性词库进行基础语言资源建设,本项目被提出
汉典
提供汉字的动画书写,发音和用到的诗词,适合小孩子识字 #词典
程序员英语词汇宝典(github地址)收集了计算机书籍、文档、文章中高频常见的英文技术词汇,最终目的是希望 #程序员 集合自身的英语基础,在掌握列表中的词汇后,可以无障碍阅读英语技术文章和文档 #词典
 
 
Back to Top