2020 年にデータ サイエンスで従うべき 10 のトレンド
公開: 2020-08-22さまざまな大学の多くの研究者が NLP 研究に力を入れています
データ サイエンス プロジェクトの最大の障害の 1 つは、関連するトレーニング データが不足していることです。
2020 年と今後数年間は、データ サイエンスを採用する企業やチームにとって非常にエキサイティングなものになるでしょう。
今日、人工知能はホットな話題です。別の冬が来るかもしれないと主張するグループもありますが、より多くの人々 (私を含む) は、今度は夏が来て、1 つの大きなパーティーになるだろうと強く感じています。 実際、ハードウェアとソフトウェアの両方の進歩により、長い間冬が見えないかもしれません。 以下は、2020 年に私がワクワクするトップ 10 のトレンドです。
量子コンピューティング
2019 年末に向けて、標準的なスーパーコンピューターを 10 億倍以上も上回る量子コンピューティング能力に関する Google の発表は、メディアに波を引き起こしました。 今日、実際のアプリケーションで量子コンピューティングを直接使用することはないかもしれませんが、Google や IBM などの企業の研究所では、量子コンピューティングに広く注目されています。 したがって、2020 年以降、私たちは量子コンピューティングで決定的な飛躍を遂げることが確実であり、間もなく実用化される可能性があります。
自然言語処理 (NLP) の進歩
自然言語処理 (NLP) は、しばらくの間重要な注目を集めてきました。最近では、トランスフォーマーとアテンション モデルが登場し、物事は全速力で進んでいます。 数か月前、Elon Musk の OpenAI が GPT-3 モデルをリリースしました。 このモデルは、最大 175B のパラメーターでトレーニングされたトランス アーキテクチャ モデルに基づいています。 これがすべてを変えました。 このモデルは、さまざまな言語モデル タスクで SOTA を達成し、多くのプライベート タスクでそれを続けています。
さまざまな大学の多くの研究者が NLP 研究に力を入れています。 新しいコンテキスト化された単語表現からシーケンス ツー シーケンス モデリングまで、多数のリソースが NLP に充てられており、マシンが人間と同じように言語を理解して応答できるようになっています。
データ リポジトリとマーケットプレイス
データ サイエンス プロジェクトの最大の障害の 1 つは、関連するトレーニング データが不足していることです。 多くのチームは、適切なトレーニング データの収集に時間の 80% を費やすことになります。 この 1 年間で、多くの独立したチーム、オープンソース プロジェクト、および公的資金によるプロジェクトが、多くの構造化されたデータセットへのアクセスを開始しました。 組織は、アクセスできるデータ、または他のデータ サイエンス チームが使用できる形式でデータを収集、正規化、および構造化するデータ アグリゲーターとして機能しているデータを収益化するビジネスにも参入しています。 この新しい事業分野は、今後数年間で上昇傾向を目の当たりにするでしょう。
ビジネスとしての注釈
データの収集と集計は並行して行われますが、同じデータにタグを付け、注釈を付け、トレーニングの準備を整えるという重要な部分も大きな勢いを増しています。 アノテーションのクラウドソーシングを可能にする Mechanical turk のようなツールやサービスはすでに存在しますが、これが実際に実行可能なビジネスになり得るという認識が高まっています。 多くの開発途上国、特に労働力が安い国では、入力データを選択、タグ付け、ラベル付けし、すぐに使用できるようにする大規模なチームによるデータのタグ付けに関するビジネスを展開しています。
拡張現実 (AR)
過去数年間の他のアプリケーションを含め、Google Glass および Microsoft HoloLens アプリケーションのリリース以来、AR には大きな進歩がありました。 今年は、現実世界のシミュレートされた環境で人々が対話し、作業できるようにする AR メガネに関するさまざまな企業からの特許と発表が見られました。 2021 年のスマートグラスは、世界の働き方とコミュニケーションの方法を変えるでしょう。
あなたにおすすめ:
サービスとしてのデータ分析
大規模なデータ分析には、ソフトウェアとハードウェアの適切なセットアップが必要です。 機械学習クラスターをセットアップし、必要なソフトウェア (「プラグ アンド プレイ」のものであっても) をインストールする必要があり、最初のデータ セットを分析する前に多額の初期費用が発生します。 ただし、1 ドルで始めることができる多くの SaaS およびセルフサービス ソリューションが利用可能です。 さらに、ほぼすべてのプロバイダーで利用可能な AutoML などのツールと手法により、強力なデータ分析を誰でも利用できるようになりました。

AIの説明可能性
AI モデル、特に、より大きな派生次元のデータやさまざまなタッチポイントから収集されたデータを扱うモデルは、大部分がディープ ラーニング モデルのブラック ボックスです。 データが入り、決定(出力)が出ます。 特定の決定が下された理由の背後にある理由はほとんどありません。 医療診断、自動運転車、自動取引、さらには採用やその他の意思決定機能などのアプリケーションで AI が使用される未来に移行するにつれて、特定のマシンがなぜ使用されるのかについて透明性と可視性を確保することが重要になります。 -学習したモデルが特定の決定に達した。 AI モデルの解釈において初期の段階で優れた結果をもたらしたオープンソースのツールやフレームワークは数多くあります。
責任ある倫理的な AI
自動運転車が 2 つの選択肢に直面し、どちらも人間に何らかの害を及ぼす場合、モデルはどちらの決定を下す必要がありますか? データに基づいている必要がありますか、それともオーバーライドルールが必要ですか?
AI の非常に斬新な進歩が行われた場合、最終的に戦争で使用される軍事アプリケーションで使用しても問題ないでしょうか?
これらは、偏見、データ保護、差別などとともに、責任ある倫理的な AI が対処しようとする問題の一部です。 AI の倫理的な使用をめぐる大きな動きがあり、多くの企業がこれに対処するための専門のタスク フォースや連合を作成しています。
データ ウェアハウジングおよびデータ管理プラットフォーム
ウェアハウジングは長い間存在しており、組織がデータを収集して構造化して意味をなすようにするための主要なステップとして機能してきました。 ここ数年で、データ エンジニアリング チームがデータ ウェアハウジングとデータ レーキングの旅を開始するために使用できる、多くのウェアハウジング サービスとプラットフォームが出現しました。
組織の基本的な能力としてのデータ サイエンス
何年も前、統計およびビッグデータ分析は、分析チームに委託された「専門家」のスキルと見なされていましたが、これは数年前に変わりました. 現在、多くのビジネス チームは、チーム メンバーに分析ツールを使用してデータを分析してもらうことを好みます。
同様に、今日、ビジネス チーム内でデータ サイエンスのスキルを構築する動きがあります。 ビジネス チームは、データ サイエンス プロジェクト、期待、タイムラインを管理する方法、およびスキルとチーム管理が従来のソフトウェア開発チームとどのように異なるかを学んでいます。
要するに、2020 年と今後数年間は、データ サイエンスや関連する作業分野を採用する企業やチームにとって非常にエキサイティングな年になるでしょう。






