双语癌症平行语料库构建
投稿时间:2018-12-09    点此下载全文
引用本文:马鹤桐,任建松,王序文,等.双语癌症平行语料库构建[J].医学信息学杂志,2019,40(9):77-82
摘要点击次数:
全文下载次数:
作者单位
马鹤桐 中国医学科学院/北京协和医学院医学信息研究所/图书馆 北京 100020 
任建松 国家癌症中心, 中国医学科学院/北京协和医学院肿瘤医院 北京 100021 
王序文 中国医学科学院/北京协和医学院医学信息研究所/图书馆 北京 100020 
方安 中国医学科学院/北京协和医学院医学信息研究所/图书馆 北京 100020 
孙月萍 中国医学科学院/北京协和医学院医学信息研究所/图书馆 北京 100020 
李姣 中国医学科学院/北京协和医学院医学信息研究所/图书馆 北京 100020 
基金项目:中国医学科学院医学与健康科技创新工程服务“一带一路”战略先导科研专项“卫生信息服务研究”(项目编号:2017-I2M-B&R-10);国家重点研发计划“精准医学本体和语义网络构建”(项目编号:2016YFC0901901)
中文摘要:介绍美国国家癌症研究所提供的英文版癌症综合信息库以及国内外有关平行语料库构建相关研究、技术、流程等。通过研究源数据结构,进行数据分析与处理,设计双语语料对齐策略,完成癌症领域中英双语平行语料库构建并就相关设计机制及语料质量进行讨论。
中文关键词:癌症综合信息库  医学平行语料  癌症
 
The Building of Bilingual Parallel Corpus of Cancer
Abstract:The paper introduces the English version of Physician Data Query(PDQ) provided by U.S. National Cancer Institute and study, technologies, processes, etc. of the building of relevant bilingual parallel corpus at home and abroad. By studying the structure of source data, it conducts data analysis and processing, designs alignment of bilingual corpus, and explicates ways to build bilingual parallel corpus of cancer in English and Chinese. It discusses relevant design mechanisms and the quality of the corpus.
keywords:Physician Data Query (PDQ)  medical parallel corpus  cancer
查看全文  查看/发表评论  下载PDF阅读器

京公网安备 11010502037823号

美女meinvmeinvmeinvmeinvmeinv