DocumentSearch

뉴스, 공시, IR, 증권사 보고서, 특허 문서를 검색합니다.

Function specification

DocumentSearch(category, section, query, count=10, page=None,
                date_from=None, date_to=None, use_score=False, summary=True,
                clustering=False, clustering_category=None, sample_size=None,
                uniquify=True, highlight=False, fields=None, format=None)

Parameters

Parameter

Type

Description

category

string or list of string

국내뉴스 : news

증권사 보고서: research

공시,IR : company

특허 : patent

section

string or list of string

Category가 news 일 경우

정치: politics

경제: economy

사회: society

문화: culture

세계: world

기술/IT: tech

연예: entertainment

사설: opinion

Category가 research일 경우

시장 전망: market

투자전략: strategy

기업 보고서: company

산업 보고서: industry

경제 보고서: economy

채권 보고서: bond

Category 가 company 인 경우

IR : ir

공시 : disclosure

Category 가 patent 인 경우

특허 : patent

query

string

검색 쿼리

count

integer

한 페이지에 표시할 문서의 최대 개수

page

integer

페이지 번호

date_from

string

검색 시작 시점 (YYYYMMDD)

date_to

string

검색 종료 시점(YYYYMMDD)

use_score

boolean

summary

boolean

1: 문서 요약, 0: 문서 요약하지 않음 (기본값: 1)

clustering

boolean

1: 문서 클러스터링 사용, 0: 문서 클러스터링 사용 안 함 (기본값: 0)

clustering_category

boolean

sample_size

integer

클러스터링 시 사용할 샘플 문서 개수 (기본값: 30)

  • count option을 10으로 설정하고 sample_size를 50으로 지정하면 50개의 문서를 10개의 클러스터로 분류한다는 의미이다.

uniquify

boolean

1 : 중복 문서를 제거, 0: 중복 문서 제거 안함. (기본값: 1)

  • 기준 : content_url이 동일한 뉴스의 경우, 동일한 뉴스로 판단하고 제외

highlight

boolean

1: 하이라이트 사용, 0: 하이라이트 사용 안 함 (기본값: 0)

fields

list of string

결과값으로 어떤 항목을 노출한 것인지 지정한다.

예를 들어, fields=title, content_url 로 설정하면, 결과 내역에서 제목 및 원문링크값을 리턴한다.

format

Result Layout

Result:DocumentSearchResult

검색 쿼리 예시 - 국내 뉴스

경제 뉴스 검색
> DocumentSearch(["news"],["economy"],"딥서치")

...
meta: {
score: null,
version: 1
},
uid: 894663826614653200,
uid_str: "894663826614653135",
category: "news",
section: "economy",
publisher: "매일경제",
author: "김경택",
title: "딥서치-카이스트, 여의도 금융대학원 운영 기관 선정",
content: "AI 기술기반 금융 빅데이터분석 기업 빅데이터 분석 역량 적극 공유 서울시와 금융위원회는 올해 9월 개관을 앞두고 있는 여의도 금융대학원의 운영기관에 'KAIST 디지털금융 교육그룹'을 선정했다고 26일 밝혔다. 한국과학기술원(KAIST) 디지털금융 교육그룹은 KAIST 경영대학이 주관하고, AI 기술기반 금융 빅데이터분석 기업인 딥서치(DeepSearch) 등으로 구성된 컨소시엄이다. 금융 빅데이터 분석 전문 기업 딥서치는 빅데이터 및 AI 기술을 기반으로 금융·기업의 주요 의사결정을 자동화하고 있는 빅데이터 스타트업이다.",
highlight: null,
securities: [
{
type: "company",
exchange: "KRX",
market: "KOSPI",
symbol: "005940",
name: "NH투자증권",
company_rid: "110111-0098130",
business_rid: "116-81-03693"
}
],
entities: [
{
type: "company",
name: "NH투자증권"
}
],
tags: [ ],
industry: {
label: "P85",
name: "교육 서비스업",
score: 0.712
},
polarity: {
label: "0",
name: "중립",
score: 0.767
},
content_url: "http://news.mk.co.kr/newsRead.php?no=314410&year=2020",
image_urls: [ ],
attachments: [ ],
attributes: {
query_name: "딥서치",
query_string: ""딥서치""
},
created_at: "2020-03-26T13:55:00.000000",
updated_at: "2020-03-26T13:55:00.000000"
...

검색 쿼리 예시 - 공시

삼성전자 공시문서 검색
>>> DocumentSearch(["company"],["disclosure"],"securities.name:삼성전자")

공시문서 중 제목이 사업보고서인 공시문서만 검색
>>> DocumentSearch(["company"],["disclosure"],"title:사업보고서")

공시문서 중 제목이 사업보고서인 공시문서에 내용이 (2차전지 혹은 이차전지)가 있는 문서검색
>>> DocumentSearch(["company"],["disclosure"],"title:사업보고서 and content:(2차전지 or 이차전지)")

공시문서 중 제목이 임원ㆍ주요주주특정증권등소유상황보고서 이면서, 내용에 장내매수라는 단어가 있는 문서 검색
>>> DocumentSearch(["company"],["disclosure"],"title:임원ㆍ주요주주특정증권등소유상황보고서 and content:장내매수")

검색 쿼리 예시 - 특허

삼성전자 보유 특허 검색
>>> DocumentSearch(["patent"],[""],"securities.name:삼성전자")

반도체 관련 특허 검색
>>> DocumentSearch(["patent"],[""],"반도체")

검색 쿼리 예시 - Clustering 사용하기

특정 키워드 및 검색식으로 뉴스를 검색하고, 그 뉴스로 딥서치 clustering 알고리즘을 이용해서 문서를 군집화할 수 있습니다.

한국은행 키워드의 뉴스를 군집화
>>> DocumentSearch("news","economy","한국은행",clustering=true)

한국은행 키워드의 뉴스를 30개로 군집화
>>> DocumentSearch("news","economy","한국은행",clustering=true,count=30)

한국은행 키워드의 뉴스 50개 문서를 30개로 군집화
>>> DocumentSearch("news","economy","한국은행",clustering=true,count=30, sample_size=50)

Last updated