DocumentAggregation

문서를 기반으로 다양한 조건으로 집계하여 처리한다.

Function specification

DocumentAggregation(category, section, query, groupby, 
date_from=None, date_to=None, min_count=0)

Parameters

Parameter

Type

Description

category

string or list of string

국내뉴스:news

증권사 보고서: research

공시,IR : company

특허 : patent

section

string or list of string

Category가 news일 경우

정치: politics

경제: economy

사회: society

문화: culture

세계: world

기술/IT: tech

연예: entertainment

사설: opinion

Category가 research일 경우

시장 전망: market

투자전략: strategy

기업 보고서: company

산업 보고서: industry

경제 보고서: economy

채권 보고서: bond

Category 가 company 인 경우

IR : ir

공시 : disclosure

Category 가 patent 인 경우

특허 : patent

query

string

검색 쿼리

groupby

string

어떤 조건으로 집계할 것인지 여부. 개별 문서의 결과 항목들을 기준으로 집계가 가능하다. 예를 들어, named_entities.entities.company.symbol:100 로 지정하면, 문서를 named_entities 의 심볼을 기준으로 최대 100개까지 집계한다는 의미이다.

date_from

string

검색 시작 시점 (YYYYMMDD)

date_to

string

검색 종료 시점(YYYYMMDD)

min_count

int

최소 결과 개수 ( 기본값 : 0 )

Result Layout

Result:DataFrame

활용 예시

DocumentAggregation 을 이용한 특정 주제와 관련된 기업 리스트 추출

  • DocumentAggregation("news", None, "키워드", "named_entities.entities.company.name:100", date_from=2020-01-01)

예시 ) 코로나
뉴스 문서를 기반으로, 코로나가 언급된 기업 리스트를 100 추출

> DocumentAggregation("news", None, "코로나", "named_entities.entities.company.name:100", date_from=2020-01-01)

...
key	count
더불어민주당	57,206
페이스북코리아	28,729
연합뉴스	27,555
삼성전자	25,733
현대자동차	24,515
한국은행	16,667
네이버	15,271
LG전자	13,823
대한항공	12,623
디지털타임스	10,461
한국방송공사	10,315
케이티	9,590
SBS	9,248
롯데쇼핑	9,136
기아자동차	9,036
SK	8,812
롯데지주	8,506
이데일리	8,306
애플코리아	8,047
...

DocumentAggregation 을 이용한 ESG 이슈가 발생한 기업 리스트 추출

  • DocumentAggregation("news", "economy", "ESG검색조건", "securities.name:100", date_from=2020-01-01)

예시 ) ESG 활용 1
뉴스 문서를 기반으로, 환경(E) & 긍정(1)으로 분류 기업 리스트를 100 추출

> DocumentAggregation(”news”,“economy”,"esg.category.name:환경 and esg.polarity.name:긍정","securities.name:100",date_from=2020-01-01)

...
key	count
POSCO	115
SK	106
롯데케미칼	90
SK이노베이션	70
현대제철	61
삼성전자	60
현대차	56
LG화학	52
대한항공	36
한국조선해양	35
한국전력	34
한화솔루션	32
DB	29
GS건설	28
두산중공업	28
풀무원	28
LG전자	27
SK케미칼	25
한국가스공사	25
...

예시 ) ESG 활용 2
뉴스 문서를 기반으로, 사회(S) & 부정(-1)으로 분류 기업 리스트를 100 추출


> DocumentAggregation(”news”,“economy”,"esg.category.label:S and esg.polarity.name:부정","securities.name:100",date_from=2020-01-01)

...
key	count
CJ대한통운	284
HDC현대산업개발	117
삼성전자	73
한국전력	53
SK	51
HDC	43
POSCO	37
삼성생명	36
현대차	31
CJ	26
NAVER	24
한화솔루션	24
일동제약	23
대한항공	22
현대중공업	21
KT	17
DB	16
오스템임플란트	15
SK텔레콤	14
...

DocumentAggregation 을 이용한 특정 주제에 대한 워드 클라우드 표시

  • DocumentAggregation("topic-news",%20None,%20"키워드",groupby="keywords.keyword:100",%20date_from=2010-01-01)

예시) 삼성전자
토픽 문서를 기반으로, 삼성전자와 관련된 키워드 100개 추출

> DocumentAggregation("topic-news",%20None,%20"삼성전자",groupby="keywords.keyword:100",%20date_from=2010-01-01)

결과 : 
key: [
"삼성전자",
"출시",
"스마트폰",
"공개",
"확대",
"1위",
"글로벌",
"올해",
"가능",
"국내",
"애플",
"강화",
"LG전자",
"세계",
"미국",
"제품",
"시장",
"시작",
"본격",
"코스피",
"최고",
"최대",
"예상",
"전망",
"돌파",
"외국인",
"규모",
"반도체",
..
]

Last updated