ここがポイント
- ポイント1
テキストデータから価値を見出す「テキストマイニング」へは近年期待が高まっており、帝国データバンクの信用調査報告書のフリーテキスト欄へ適用することで、日本経済を反映する情報を抽出できるかを検証した。
- ポイント2
売上に大きな変動があった企業の信用調査報告書の特徴的な単語から、震災以後の建設投資の高まりや原油価格の高騰のようなマクロデータで裏付けられるような単語が抽出できた。
- ポイント3
売上が5倍以上になった企業の80%はグループ企業であり、売上の伸びが小さいあるいは売上が落ちた企業ほどその割合は小さかった。グループ企業の方がビジネス上有利である傾向がみられた。
- ポイント4
売上高が5倍以上となるような企業の信用調査報告書には自社のポジションを着実に高めていくような「攻めワード」が、2~5倍になるような企業には堅実に業績を上げていくような「守りワード」が見られ、これらの雰囲気の違いから爆発的な伸びをする企業の予測可能性が示唆された。
1. はじめに:テキストマイニング
帝国データバンクの信用調査報告書は、企業間の円滑な取引を促すべく、業績や主要取引先、資本関係などといった、企業の経営状況を知るために押さえておきたいポイントとなる複数の項目で構成されています。多くは、数量データや質的データですが、「現況と見通し」という項目をはじめとして、調査員によるフリーテキストの項目も存在します。ここには、その企業の主力商品や市場の動向、強みや経営課題など、その企業を立体的な理解のヒントとなるような情報が詰まっており、信用調査報告書の項目の中でも、重点的に読まれやすい項目といえます。
一方で、テキストデータは売上高や従業員数のような量的データと異なり、「昨年の○倍」、「○%増」というように、そのままのデータでは定量的な比較ができないという難点もあります。また、調査員の力量や調査時の状況等により、ヒアリングできる情報にバラつきも考えられます。そのため、定性情報には優れていますが、量的データと異なりデータの解釈が難しいという問題点があります。
このような膨大なテキストデータから統計学や情報学を用いて有用な情報を見つけ出す、さながらテキスト(文章)の山から宝を探し当てる作業を、発掘という意味の「マイニング」を用いて「テキストマイニング」と呼び、近年その取り組みは多方面で行われています。そこで本レポートでは、テキストマイニングを通じて帝国データバンクが保有する信用調査報告書の「現況と見通し」から、日本経済を反映した情報が抽出できるかを検証します。その上で、テキストデータならではの数値化しにくい「雰囲気」を表すような単語群の抽出を試みます。特に、企業の成長の予兆を表すような単語が抽出できれば、ある企業の急成長する確率を求められるかもしれません。
2. 成長の引き金は震災需要? -売上高2倍以上vs.1/2以下企業-
「業績が伸びる企業の信用調査報告書に多い単語とは?」という観点から分析を行ってみましょう。2時点の売上高を比較し、大幅に変化があった企業が変化前の調査報告書にどのような単語が特徴的に出現していたのかを調べます。具体的には、2017年の売上高が2009年の何倍になったかを求め1、2倍以上や1/2以下など、大きな変動があった企業グループについて、2009年から2011年の間の調査報告書の単語の出現頻度を調べます。表記揺れ2・類義語・多義語の対応やどのような文脈で書かれたかについて考慮しておらず、また前述のとおり言及される情報は統一的ではないため、単語出現と売上高の変化との因果関係の断定はできません。しかし、信用調査報告書のテキストデータを何千社単位のビッグデータとして束ねて解析することで、見えてくる傾向について検証してみましょう。
帝国データバンクが保有するデータ3によると、売上高が2009年に対して2017年が(A)2倍以上となった企業は5969社、(B)1/2以下となった企業は7958社ありました4。それぞれから、2009年から2011年の間で調査報告書が存在する企業5のうち、最新分の報告書に出現する単語より、統計解析6を用いて各グループ特有の単語を抽出した結果は図表1です。

図表1 (A)売上高2倍以上企業と(B)売上高1/2以下企業の「現況と見通し」の出現単語を比較したときの各グループ特有の単語。文字の大きさは、同じグループの他の単語に比べて、よりそのグループ特有の単語であることを示す。(A)には「拡大」などポジティブな単語に加え、震災関連・公共工事など建設業をイメージする単語が見られる。(B)は「急落」などネガティブな単語に加え、「リーマン」「中国」「原油」など海外の影響をイメージする単語が見られる。
(A)は「拡大」「増」「順調」「増収」「伸長」など、売上高の増加に関連しそうなポジティブな単語が多くみられます。それに加えて、「岩手」「宮城」「福島」「改修」「公共」「工事」など、震災に関連した公共事業関連だと思われる単語も含まれています。実際、震災によりインフラ復旧などの建設需要が高まり、人手不足も問題視されました。震災による建設業への影響を示すデータとして、図表2をご覧下さい。

図表2 建設投資の推移。(国土交通省発表データ を元に帝国データバンクが作成。2016年から2018年は見込み値。)
建設投資は2000年以降単調減少が続いていましたが、2011年の東日本大震災以降、復興需要や民間投資の回復、また東京オリンピック開催決定も後押しとなり、増加傾向となっています。このことからも、建設業において売上高を伸ばしやすい業界的背景があったことがわかり、テキストにもそのことは反映されていました。
次に、図表1の(B)をご覧ください。「下落」「危機」「欠損」「減収」「減産」「減少」「低迷」「低調」「落ち込み」「赤字」「縮小」など、売上高の減少に繋がりそうなネガティブな単語が多く見られます。それに加えて、「リーマン」「リストラ」「原油」「価格」などがみられます。「リーマン」はリーマンショックについての文脈においての出現だと考えられ、この頃までリーマンショックの影響を受けていた企業は、その後も売上高を落とす傾向があったのかもしれません。更に、「原油」については、原油価格の高騰がコスト高を招いたのではないでしょうか。世界の原油価格の推移を確認するために図表3を見てみましょう。

図表3 世界の原油価格推移(IMF発表データ8を元に帝国データバンクが作成。)世界の原油価格の指標であるドバイ原油・WTI原油・ブレント原油の平均値。
2000年以降、徐々に高まっていた原油価格は2008年にピークを観測した後、翌年に下がったものの、再度上昇し、2011年から2014年までは高い水準を維持しており、2011年は2000年の実に4.3倍です。原油価格の高騰はコスト高など幅広い業界に影響を及ぼし、売上を大きく落とす要因となりえたのでしょう。これらを踏まえて、(A)と(B)の企業の業種分布を図表4で確認してみましょう。

図表4 (A)と(B)の企業の業種分布。(A)は建設業が、(B)は卸売業、小売業が最も高い割合を占めている。
すると、(A)は、建設業が第一位となり、図表2の建設業の好調を反映した結果となっています。また、(B)は卸売業、小売業・製造業といった、原油価格の高騰がコスト高に響きやすい業種が高い割合を占めていることがわかります。これらのことから信用調査報告書のテキストマイニングから、売上の増減という「結果」につながる「文脈」の候補が抽出され、それはマクロデータからも裏付けられるということが確認できました。
3. 爆発的な伸びは「攻め」ワードのあるグループ企業で起こりやすい?-売上高5倍以上vs.2~5倍企業-
続いて、売上高が2倍以上になった企業の中でも、(C)5倍以上になった企業と(D)2~5倍になった企業を比較し、5倍以上になるような爆発的な伸びをみせる企業の特徴を探ってみましょう。(C)5倍以上になった企業は555社、(D)2~5倍になった企業は469社ありました。図表 5は、先ほどと同様に(C)と(D)の単語出現を比較し、各グループ特有の単語を抽出した結果です。

図表5 (C) 売上高5倍以上企業と(D)売上高2~5倍企業の「現況と見通し」の出現単語を比較したときの各グループ特有の単語。文字の大きさは、同じグループの他の単語に比べて、よりそのグループ特有の単語であることを示す。(C)にはグループ企業であることを示唆する単語に加えて、「成功」「公式」「グローバル」といった「攻めワード」が、(D)は建設業を示唆する単語に加えて、「得意」「小口」「要請」といった「守りワード」が見られる。(C)の単語の一部は日経ビジネス10/1号9にも掲載された。
(C)では「グループ」が最も目立っており、更に「持株」「配当」「連結」「分割」といったグループ企業をイメージする単語が目につきます。自社が持株会社側であるのか、子会社側であるかに寄らず、グループ会社の一員であることを示唆する単語がみられます。実際に、(C)のように売上高が5倍以上に伸びた企業にはグループ企業10が多いのでしょうか。調べた結果は図表6です。

図表6 売上変動毎のグループ企業割合。売上変動毎の企業数を100%としたときの、グループ企業・独立企業の割合。大きく売上が伸びた企業ほどグループ企業割合が多い。
実に5倍以上となった企業の80%がグループ企業であり最も多く、次いで2~5倍企業は71%、そして1/2以下企業においては58%という結果でした。この結果から、売上高が爆発的に伸びる企業ほど、グループ企業である確率が高いということが言えます。取引先や他社からの信頼構築において独立企業よりも有利であるため、売上高にも反映されやすいといえるのでしょう。
再び、図表 5に注目し、(D)を見てみましょう。文字の大きな単語には「営業」「利益」「売上」「損益」といった経営に関する一般的な単語が挙がりながらも、「工事」「設備」「土木」「建設」など建設業を示唆する単語も散見されます。先ほどの図表 4の結果と合わせて、売上を伸ばす企業には建設業が多いことからも納得がいきます。
さらに、図表 5に含まれる単語が実際にどのような使われ方をしているのか見てみましょう。例えば、(C)に含まれる「成功」は、「新規ルート確立に成功」、「管理費の削減に成功」といった文脈で見られ、(D)と比較すると、文中に含まれている企業割合は2.7倍になります。「公式」は、「公式サービス化し」、「公式コンテンツが堅調に推移」など、社内的・社外的に公式的なポジションを獲得し、成長している文脈があり、(D)の8倍の出現割合です。また、「グローバル」は、「グローバル最適生産体制の構築」「グローバルでの成長につなげていく」など、グローバル化への前向きな取り組みを示唆する文脈で使用されており、(D)の約5.6倍の出現割合でした。
他方、(D)の特徴単語の例として、「得意」は、「新規得意先開拓が比較的順調」「既存得意先との取引継続」というように、「得意先」という単語として使われることがほとんどであり、(C)の2.1倍の出現割合でした。得意先は、取引先の中でも販売先、すなわち顧客であり、例えば自動車産業において自動車の部品を作っている会社にとって、受注先である自動車メーカーを得意先と呼ぶことが多いといえます。また、「小口」は、「小口受注」「小口案件」「小口工事」など、さらに「要請」も「コストダウン要請」「顧客からの値引き要請」など、両者共に受注先の存在を示唆する単語が見られました。
このように、(C)は「成功」「公式」「グローバル」といった、自社のポジションを着実に高めていくような文脈であり、「攻めワード」と言えます。それに対し、(D)は「得意」「小口」「要請」といった、受注先との関係性の元で堅実に業績を上げていくような文脈として取ることができ、「守りワード」と言ってもよいのかもしれません。やはり、爆発的な伸びの背景には、「攻め」の雰囲気があり、報告書にも反映されるのでしょう。このように、(C)(D)共に売上が大きく伸びた企業ではありますが、その伸び方のレベルによって、特徴的な単語には雰囲気の違いが見えてくるのです。すなわち、出現単語から業績の伸びの予測につなげられる可能性があるといえます。
本レポートにおいて報告したテキストデータの解釈は一例にすぎず、他にも様々考えられます。図表1と図表5をじっと眺めていると、それを見る人の経験値により、その背景にあるものの仮説は様々に生まれるのではないでしょうか。人間が読むことのできる文章量には限界がありますが、このように統計的な手法とそれを可視化する技術を合わせることにより、直感に訴え、議論を発展させる材料となります。帝国データバンクの調査報告書は、企業の方々のご協力と、調査員の努力のどちらかでも欠けたら生み出されないものであり、信用取引を支える情報として経済活動に貢献しています。これらの多くの人々によって紡がれてきたデータは、ビックデータ解析を通じて再び料理されることにより、社会のムードを映し出す新たな情報として、私たちに今後のヒントを提供してくれるでしょう。
----------------------------------------------------------------------------------------------------------------------
1.金融業・保険業・公務は売上高の概念が他の業種と異なり特殊であるため除外した。
2.「引っ越し」「引越し」「引越」など、同じ単語でも表記にばらつきがあること。
3.企業概要ファイルCOSMOS2を使用。
4.1年間の売上高を比較するため、決算月が前期と同一である企業に限定した。
5.(A)は約85%、(B)は約75%の企業の報告書が存在した。
6.高安美佐子、東京工業大学、平成27年度経済産業省「ビッグデータとその解析技術を活用した新指標の開発事業報告書」による手法を活用した。
7. 国土交通省. “報道発表資料:平成30年度建設投資見通し”. 国土交通省.
http://www.mlit.go.jp/report/press/joho04_hh_000771.html, (参照 2018-11-26).
8. Internatiolan Monetary Fund. “World Economic and Financial Surveys: World Economic Outlook Database”. Internatiolan Monetary Fund.
https://www.imf.org/external/pubs/ft/weo/2018/02/weodata/index.aspx, (参照 2018-11-26).
9. 日経BP社. 特集, 日本企業の新事実: Part4 分析すべきデータはそこにある. 日経ビジネス. 2018, (1960), p.40.
https://www.nikkeibpm.co.jp/item/nb/661/bn/NB1960.html, (参照 2018-11-26).
10. 自社への出資会社もしくは関係会社のいずれかが存在する企業を「グループ企業」、いずれも存在しない企業を「独立企業」と定義した。
----------------------------------------------------------------------------------------------------------------------
株式会社帝国データバンク プロダクトデザイン部 プロダクトデザイン課
髙木英美子

Contact Usお問い合わせ先
担当部署
プロダクトデザイン部 プロダクトデザイン課 TEL:03-5775-1092 FAX:03-5775-3168 E-mail:bigdata@mail.tdb.co.jp