중국시가넷 - 고서 복원 - 전체 텍스트 데이터베이스에는 무엇이 포함되어 있습니까
전체 텍스트 데이터베이스에는 무엇이 포함되어 있습니까
전체 텍스트 데이터베이스에는 중국 지식망, 위프 정보, 만방데이터베이스, springerlink, IEEE, OCLC, ProQuest, JSTOR, ScienceDirect, Wiley 등이 포함됩니다.
전체 텍스트 데이터베이스, 즉 전체 텍스트 필드 데이터베이스는 전체 텍스트 문서의 정보 컨텐츠를 특정 구조 및 구성 방식으로 저장 및 구성하여 사용자가 전체 텍스트 문서의 컨텐츠를 검색 포털로 사용하여 보다 자세한 문서 정보를 얻을 수 있도록 합니다.
개발 단계
전체 텍스트 데이터베이스 개발 단계에는 데이터 준비, 텍스트 사전 처리, 데이터 로드, 데이터 검색 및 데이터 유지 관리가 포함됩니다.
① 데이터 준비는 전체 텍스트 데이터베이스에 로드할 데이터를 수집, 정리 및 분류하는 사전 처리 프로세스입니다. 전체 텍스트 데이터베이스에 로드된 데이터는 여러 가지 방법으로 얻을 수 있습니다. 일반적인 데이터 소스로는 컴퓨터 타자로 생성된 파일, 전자 인쇄로 생성된 스크립트, 컴퓨터가 인터넷에서 전송하는 파일, 전자 출판, 그래픽 처리로 생성된 파일, 전문 조직 수동 입력 데이터베이스 등이 있습니다.
데이터를 수집한 후에는 간단한 분류를 해야 한다. 일반적으로 데이터 컨텐츠별로 분류되며, 같은 종류의 컨텐츠가 같은 라이브러리에 로드되어 쉽게 찾을 수 있습니다. 분류는 큰 데이터에 더 효과적입니다.
② 텍스트 전처리에는 표준 형식과 색인이 포함됩니다. 문서 형식이 다양할 때는 정리와 사양을 해야 한다. 이 사전 처리 단계에서 완료된 배치 인덱스는 전체 텍스트 데이터베이스 구조에 의해 제한되지 않으며 효율적입니다. 전체 텍스트 데이터베이스를 구축하기 전에 워드 프로세싱 소프트웨어와 전용 자동 인덱싱 소프트웨어를 통해 데이터를 인덱싱하는 것입니다.
색인 어휘를 설정하는 방법에는 여러 가지가 있습니다. 시스템 빌더가 텍스트를 찾은 후 작성하거나, 편집자가 컴퓨터를 통해 텍스트의 단어에 특수 기호를 추가한 후 전용 소프트웨어를 통해 수집, 병합, 정리, 중복 제거 또는 위의 기초 위에 속성 색인을 추가할 수 있습니다.
③ 데이터가 준비되면 데이터베이스 파일에 로드 (복사, 입력) 할 수 있습니다. 데이터는 단일 프로젝트에 로드하거나 일괄 로드할 수 있습니다. 한 번에 한 편씩, 언제든지 문서를 로드하는 경우에 적합한 단일 방식으로 로드됩니다. 배치 모드는 한 번에 여러 프로젝트를 로드하므로 중앙 로드에 적합합니다.
(4) 데이터베이스가 구축되면 전체 텍스트 검색 시스템에서 제공하는 검색 기능에 따라 검색할 수 있습니다.
⑤ 전체 텍스트 데이터베이스가 구축되면 데이터베이스의 실용성, 유효성 및 무결성을 보장하기 위해 데이터베이스의 내용을 색인, 업데이트, 추가 및 정렬해야 합니다. 전체 텍스트 데이터베이스의 유지 관리에는 일반적으로 전체 텍스트 데이터베이스의 구조 정의, 전체 텍스트 데이터베이스의 데이터 내용, 전체 텍스트 시스템에서 사용되는 어휘, 스토리지 공간의 활용도 통계 및 조정이 포함됩니다.