ビッグデータ




県外出身者が起業率を引き上げる?〜スタートアップ企業の占有率と地域性〜

ここがポイント!

  • ポイント1

    スタートアップ企業が全企業に占める割合(占有率)の都道府県別分布について深掘り分析を行った。

  • ポイント2

    弊社データベースを基にした分析からは高い占有率を示した香川県は、四国の他の3県に比べて県外出身の経営者が多い。県外出身者がとどまり、起業する風土がありうることが示唆される。

  • ポイント3

    業種別の占有率を県ごとにみてゆくと、占有率の高低に地域特性があらわれる。この地域特性は、各地域の産業構造と労働集約性にもとづいて説明できる可能性がある。

  • ポイント4

    業種別の占有率の高低パターンから、全国の都道府県を大都市型・郊外型・沖縄北陸型の3つの類型に分けることができる。香川県は郊外型に属し、地方における起業パターンの典型例とみなすことが可能である。

1. はじめに:スタートアップ企業の多さvs業種のバラエティ

日本の企業風土の特徴のうちのひとつに開業率の低さがある。2018年版中小企業白書によれば、欧米諸国(英米独仏の4か国)と開業率を比較したとき、日本では開業率が4〜5%で推移しているのに対し欧米諸国は開業率が最低のドイツでも7%前後、最高のイギリスでは14%を超える水準であるという1。また、海外の研究によれば、企業の成長の指標として雇用の拡大を取った場合、企業年齢の若い企業の方が雇用拡大に寄与しやすいという2。欧米諸国と日本での開業率の定義に違いがあることを考慮に入れても、スタートアップ企業が日本の経済成長に対して重要な役割を果たしうるといえるだろう。

日経ビジネス10月1日号では、スタートアップ企業を「創業または設立から10年以内で、事業を継続している企業」と定義し、都道府県別に全企業に占めるスタートアップ企業の占める割合に注目した3。この結果、スタートアップ企業の割合の高い都道府県は順に香川県・沖縄県・東京都であることや、取材による深掘りの結果、それぞれに起業の多さの背景となる環境に違いがあることが明らかになった4。例えば、香川であれば起業を希望する人々を対象とした勉強会があり、実際に起業までつながる例も少なくないという。沖縄県であれば県外からの移住者の多さ、東京都では人、モノ、カネの一大集積地であることが起業の好条件のひとつといえそうだという。

このように、スタートアップ企業の占める割合が高い地域といえども、その背景となる「土壌」はそれぞれである。本稿では、「土壌の違い」がスタートアップ企業の割合に現れると仮定し、代表者の特性や、地域での業種を考慮にいれて分析を行った。「土壌」は都市型・郊外型・北陸沖縄型の3つの類型に分けることができること、上掲の3都県はちょうどそれぞれ類型にぴったり収まることが示される。


2. スタートアップ企業の代表者特性と地域性:県外出身者が多い香川県

スタートアップ企業の占める割合5(以下スタートアップ占有率と呼ぶ)が高かった香川県について考えたい。スタートアップ占有率と関係の深い要因として、代表者の特性が考えられる。ビジネスのタネとなるものを探し出し、起業という形で具体的に行動できる人物像として、

1. 若者

2. 他県出身者

3. 他県に住んだことのある者

が仮説として考えられる。与えられた環境に対して通常と異なる反応をしやすいのは、その環境において経験の浅い若者か、他の環境を経験したことがある人々だろうと考えられるからだ。以下、企業概要データベースの代表者特性からこれらの仮説を支持しうるかを考えたい。仮説を検証するため、四国の他県(徳島県・愛媛県・高知県)と比較した。

まず、年齢についてみてみよう(図表1左)。四国4県のスタートアップ企業の代表者年齢においては特に香川県が若いということはなかった。むしろ、平均年齢においても年齢の中央値においても高知県の高齢化が観察された。



図表1(左)スタートアップ企業における代表者年齢の代表値。(右)スタートアップ企業における代表者の県外出身者率。(出典:帝国データバンク作成)




図表2 四国4県におけるスタートアップ占有率の推移(左)とスタートアップ企業における県外出身者率の推移(右)。(出典:帝国データバンク作成)





つぎに、他県出身者の割合についてみてみよう(図表1右)。四国4県で見た場合、香川県の県外出身者率が突出していることが分かった。スタートアップ占有率の高かった東京都と沖縄県でも、隣県と比較して高い県外出身者率を示している。県外出身者であることがスタートアップ占有率の高さと関係があることが示唆される。四国4県は全て、近年は人口が社会減の様相を呈しているが、香川県のみが四国ブロックからの流入超過であり6、これが県外出身者の増加に寄与している可能性がある。

さらに四国4県について、この仮説に関する時系列推移を見たのが図表2である。徳島県を除き、スタートアップ占有率(左)とスタートアップ企業の県外出身経営者比率(右)がほぼ連動していることが分かるだろう。県外出身者の比率がスタートアップ企業の数と何らかの関係があることはもっともらしいことといえる。



図表3 スタートアップ企業の代表者の出身大学上位3校。同率の場合、四国に最も近い大学を抽出した。(出典:帝国データバンク作成)



最後に他県に住んだかどうかを示す指標として代表者の出身校をみてみよう(図表3)。高知県を除き、代表者の出身校上位3校のうち第一位は県内の学校であった。必ずしも学生時代を県外で送ったかどうかはスタートアップ占有率とは関係がないことが示唆される。

ここまでの結果をまとめれば、県外出身者のスタートアップ企業の割合が、スタートアップ占有率を高さと何らかの関係があることが示唆されたといえる。

3. スタートアップ企業の業種多様性と地域性

つぎに、業種ごとのスタートアップ占有率を都道府県別にみてみよう。図表4は、スタートアップ占有率を都道府県と業種に関してクロス集計したものである7。スタートアップ数を指標とすると都道府県の人口規模に結果が左右されてしまうため、割合を指標としている。割合の高低に応じて色をつけている(高:赤/低:青)。具体的な数字よりも、色から読み取れる全体的な傾向にご注目頂きたい。どの地域でも共通する傾向と地域特有の傾向が見えてくるだろう。:

1. どの地域でもスタートアップ占有率が高い(赤味が強い)業種:「電気・ガス・熱供給・水道業」と「農業、林業」。「電気・ガス・熱供給・水道業」では2016年の電力小売り自由化の開始から電気事業所などの増加が確認されている8。「農業、林業」については近年進行している法人化の流れが見えているといえる9

2. どの地域でもスタートアップ占有率が低い(青味が強い)業種:「建設業」、「製造業」、「運輸業、郵便業」、「卸売業、小売業」、「複合サービス事業」。

3. 地域ごとの特徴:スタートアップ占有率が高い東京都、香川県、沖縄県では多くの業種で他県よりスタートアップ占有率が高めに出てくる傾向がある。東京都は「学術研究、専門・技術サービス業」、「宿泊業、飲食サービス業」、「生活関連サービス業、娯楽業」の占有率が高い。香川県は「農業、林業」、「情報通信業」、「学術研究、専門・技術サービス業」、「宿泊業、飲食サービス業」、「生活関連サービス業、娯楽業」、「教育、学習支援業」、「医療、福祉」、「複合サービス事業」、「サービス業(他に分類されないもの)」の占有率が高い。沖縄県では「農業」、「情報通信業」、「宿泊業、飲食サービス業」、「医療、福祉」の占有率が高い。


図表4 スタートアップ占有率(単位:パーセント)の都道府県と業種に関するクロス集計表。赤いほど割合が高く、青いほど割合が低い。全地域で現れる特徴(赤枠)と地域特性が現れる特徴(青枠)がある。(出典:帝国データバンク作成)



4. 業種多様性を説明する2つの指標:労働集約性と産業特性

ここまでの分析では、スタートアップ企業占有率の地域特性を、業種ごとの傾向やバラつきを「目で見て」判別してきた。一方で、産業分類は大分類で20業種、都道府県は47あることを考えると、目で見た判別は、系統的な理解のためにはいささか心細い手法であることは論を待たないであろう。

このような多数の項目のあるデータを理解するには、データの特徴を説明できる、より少数の指標を見つけておくと便利だ。身近な例でいえば、国語・社会・数学・理科・英語の5教科のテストの得点分布を説明する「学力」という指標を見つけることに対応する。もちろんたったひとつの指標で元のデータの説明が十分可能な保証はなく、「理系学力」と「文系学力」というように、2つ以上の指標が必要な場合もある。

膨大なデータ項目を、データの特徴をできるだけ維持しながらより少ない項目に落とし込むことを次元圧縮という10。本稿では、次元圧縮手法の中でも、最も典型的なもののひとつである主成分分析を行った11

図表4のデータを主成分分析にかけたところ、業種ごとのスタートアップ占有率のバラつきのかなりの部分が2つの指標で説明できることが分かった:

1. 労働集約性に関する指標:「農業、林業」や「情報通信業」、「医療、福祉」など一般に労働集約的といわれる業種のスタートアップ占有率が高いと高い値を示す。

2. 産業構造に関する指標:傾向として、1次産業のスタートアップ企業占有率が高いと低い値を示し、2次産業、3次産業とより経済が発展してから発生した業種のスタートアップ企業占有率が高いと高い値を示す指標。

この2つの指標でデータのバラつきの約63%を説明できる12

ひとことでまとめれば、主成分分析の結果からは、都道府県ごとのスタートアップ企業占有率の業種によるバラつきを説明するには、「労働集約性」と「産業構造」を補助線とするのが便利だといえそうだ。

5. 労働集約性と産業特性で見た都道府県特性

ここまでの分析で、各都道府県におけるスタートアップ企業の占める割合の業種によるバラつきが、「労働集約性」と「産業構造」で理解しうることが分かった。では、各都道府県はそれぞれ「労働集約性」と「産業構造」で見たときに、どのように位置付けられるだろうか?

図表5は47都道府県を、前節で導入した労働集約性に関する指標と産業構造に関する指標でスコアリングした散布図だ。各都道府県が点で表わされている。スタートアップ企業占有率が高い3都県(東京都・香川県・沖縄県)についてはオレンジ色の点で表わし、都県名を添えた。

全体として、左側やや下に点が密集している傾向が見て取れるだろう。この傾向を踏まえたとき、東京都は左上に、沖縄県は右側にいるため例外的な立ち位置にあり、しかもお互いに対極的な性格であるといえる。これとは対照的に、香川県は左下にいるため、典型例に近い立ち位置にあるといえるだろう。

実際、この3都県では前述のとおり、スタートアップ企業占有率が高い業種が異なり、確かに労働集約性と業種特性でまとめ上げることができる。

1. 東京都:左側にいるため労働集約性から見た場合のスタートアップ企業占有率は典型パターンに近い。一方、上側にいるため、第二、第三次産業に属する産業でスタートアップ企業占有率が高い。実際、「学術研究、専門・技術サービス業」や「宿泊業、飲食サービス業」など、典型的な第三次産業でのスタートアップ企業占有率が高い(図表 4で他の道府県に比べて該当産業の部分が、赤みがかっている)。

2. 沖縄県:右側にいるため労働集約性が高い産業のスタートアップ企業占有率が高い。一方、中央やや下側にいるため、産業構造としては典型的である。実際、「農業、林業」、「情報通信業」、「宿泊業、飲食サービス業」、「医療、福祉」など、労働者に依存する産業でのスタートアップ企業占有率が高い。

3. 香川県:左側にいるため労働集約性から見た場合のスタートアップ企業占有率は典型パターンに近い。一方、中央より下側にいるため、産業構造としては第一次産業や第二次産業に高いスタートアップ企業占有率が見られる。実際、「農業、林業」、「電気・ガス・熱供給・水道業」でスタートアップ企業占有率が高い。


図表5 労働集約性と産業構造から見た都道府県の特長(出典:帝国データバンク作成)



以上の例のように、労働集約性と産業構造という分析軸が、統一的にスタートアップ企業占有率を説明しうることが分かった。一方で、この2つの指標は業種間でのスタートアップ企業占有率のバラつきを説明するための指標であることに注意されたい。例えば香川県では、図表 4からは、他の都道府県に比べると、どの産業でもスタートアップ企業占有率が高めの傾向が見える。これらのうち、特に占有率が高い(県内産業のスタートアップ企業占有率の典型値からの離れている)産業が「農業、林業」や「電気・ガス・熱供給・水道業」であることが労働集約性と産業構造という分析軸での説明が可能なのである。これは、これら2つの指標が各都道府県内のスタートアップ企業占有率の業種多様性を理解するという本節での目的に適うように設計されたためである13

6. スタートアップの多様性に関する3つの類型


図表6 スタートアップ占有率の業種分布パターンから導出した都道府県の3類型。大都市近傍(緑)、郊外(青)、北陸及び沖縄(赤)に分かれる(出典:帝国データバンク作成)



前節の散布図(図表5)からは、各都道府県のスタートアップ占有率の業種パターンがどの程度似ているかを見て取ることができる。近い点どうしは業種パターンが似ており、遠い点どうしはパターンが異なる。似ている地域は政策立案の事例研究の参照先となるであろう。

図表6は、クラスタリングと呼ばれる手法を用いて、都道府県を業種パターンが似ている3つのグループに分類したものだ14。以下にグループとその特徴を示す:

1. 北海道・東京・愛知・大阪・福岡という大規模政令指定都市を持つ都道府県とその近郊からなるグループ。産業構造に関する指標の値が高いため、第二次産業や第三次産業のスタートアップ占有率が県内平均より高い。

2. 新潟県・富山県・石川県および沖縄県からなるグループ。労働集約性に関する指標が高いため、農業や宿泊業、飲食サービス業でスタートアップ占有率が県内の平均より高い。

3. 上記以外の府県からなるグループ。全国平均に近いスタートアップ占有率パターンを持つ。


スタートアップ占有率のトップ3であった、東京都・沖縄県・香川県はそれぞれ別のグループに属しており、各グループでの特徴的な事例と捉えることも可能であろう。

また、このグルーピングの使い道として、スタートアップ占有率と併用することが考えられる。新潟県はどの業種でもスタートアップ占有率が低い傾向にある。比較対象として同グループにある石川県や富山県を選び、起業に関する施策の異同を調べることで、占有率を高めるためのヒントが得られる可能性がありそうだ。

7. まとめ

本稿では、スタートアップ占有率に注目し、地域ごとの差異の特徴や原因について深掘り分析を行った。香川県を事例にとると、四国の他の3県に比べ県外出身代表者の割合が高く、占有率の高さと関連が示唆された。

また、業種ごとのスタートアップ占有率パターンは労働集約性と産業構造を手がかりに整理することが可能であった。この結果3つのグループに分けることができ、それぞれに業種ごとのスタートアップ占有率に特徴があることが示された。

スタートアップ企業は経済の活性化のためになくてはならない存在である。この稿で試みたグルーピングと要因分析が、スタートアップ企業誕生メカニズムに関して何らかのヒントとなれば幸いである。


----------------------------------------------------------------------------------------------------------------------

1.中小企業庁編. 中小企業白書〈2018年版〉: 人手不足を乗り越える力 生産性向上のカギ. 日経印刷, 2018.
2.脚注1. およびJohn Haltiwanger, Ron S. Jarmin, Javier Miranda. Who creates jobs?: Small versus large versus young. The review of economics and statistics. 2013, 95(2), p.347-361.
3.中沢康彦, 山田宏逸, 庄司容子. 日本企業の新事実. 日経ビジネス. 2018, (10月1日号).
4.開業率の都道府県別データとして、平成29年版中小企業白書がある。中小企業白書では開業率のトップ3は沖縄県、埼玉県、千葉県であり、前掲の日経ビジネス記事とは異なっている。これは開業率の定義とデータセットに違いがあるためと思われる。
中小企業白書では、厚生労働省の「平成27年度雇用保険事業年報」での開業率データを採用している。開業率を「新規に雇用関係が成立した事業所数を前年度平均の雇用保険の適用事業所数」と定義しているため、従業員を雇用している事業所が母集団となる。一方で、日経ビジネス記事及び本稿で用いるデータは帝国データバンク企業概要データベース「COSMOS2」である。COSMOS2では「日本国内で営業している内国法人および個人事業主」であり、必ずしも従業員を雇用しているかどうかで母集団を限定しているわけではない。スタートアップ企業の定義も、「創業または設立から10年以内の企業で、事業を継続しているもの」と長めに取っている。日経ビジネス記事及び本稿の結果は、「企業概要に関する電話調査に応じた、個人事業主も含む企業」についてのものとご理解頂きたい。
5.定義は「帝国データバンク企業概要データベース「COSMOS2」の2018年1月現在のデータに登録されている企業のうち、創業または設立から10年以内で、事業を継続している企業」としている。
6.「地域経済分析システム(RESAS):人口マップ:人口の社会増減」より。
7. 分析にあたっては、帝国データバンク企業概要データベース「COSMOS2」の2018年1月現在のデータを使用した。業種は日本標準産業分類の大分類を用いている。ただし、「金融業」と「公務」に関するデータは除いている。
8. 帝国データバンク. “第4回:「新電力会社(登録小売電気事業者)」の実態調査”. 帝国データバンク. 2018-09-07.
https://www.tdb.co.jp/report/watching/press/p180901.html, (参照 2018-11).
9. 農林水産省. “(3)農業経営体数等の動向”. 農林水産省. , (参照 2018-11-26).
http://www.maff.go.jp/j/wpaper/w_maff/h27/h27_h/trend/part1/chap2/c2_0_03.html, (参照 2018-11).
10. 次元圧縮についての近年の総合報告に、例えば以下のものがある。C. O. S. Sorzano, J. Vargas, A. Pascual Montano. A survey of dimensionality reduction techniques.arXiv:1403.2877.
11.本稿で用いた主成分分析の手順は以下のとおり。
  1. 欠損値の処理:データに欠損のある業種(「漁業」、「複合サービス事業」、「鉱業、採石業、砂利採取業」)を取り除いた。これは主成分分析が元データのバラつきに対して敏感であるため、欠損値を別のデータ(他の業種の平均値など)で置き換えると、バラつきに分析者の恣意性が混じる可能性があるためである。
  2. 標準化:都道府県ごとに各業種のスタートアップ企業の占める割合の平均値と分散を算出し、標準化を行った。都道府県ごとに、各業種のスタートアップ企業の占める割合が、その県の平均値から分散を基準としてどの程度乖離しているかを測ることに対応する。
  3. データ分析:Pythonの機械学習ライブラリscikit-learnを用い主成分分析を行った。
12.主成分分析では、生成された指標の性能評価指標として、どの程度データのバラつきを説明できるかをあらわす寄与率が出力される。労働集約性指標の寄与率は41.5%、産業構造に関する指標の寄与率は21.5%であった。
13.技術的には、主成分分析で標準化を行ったことに起因する。
14.分類は階層的クラスタリングを用いて行った。距離は労働集約性指標と産業構造指標で張った空間内のユークリッド距離にとり、ウォード法を用いている。ウォード法は、実務上解釈がしやすいグループが生成されやすいことが知られている。(朝野熙彦. 入門 多変量解析の実際. 筑摩書房, 2018.)

----------------------------------------------------------------------------------------------------------------------

株式会社帝国データバンク プロダクトデザイン部 プロダクトデザイン課
市川 翼
八鍬 崇正

お問い合わせ先

プロダクトデザイン部 プロダクトデザイン課
TEL:03-5775-1092 FAX:03-5775-3168
E-mail:bigdata@mail.tdb.co.jp