close
1.

図書

図書
Tom White著 ; 玉川竜司, 兼田聖士訳
出版情報: 東京 : オライリー・ジャパン , 東京 : オーム社 (発売), 2011.7  xxviii, 642p ; 24cm
所蔵情報: loading…
2.

図書

図書
Holden Karau [ほか] 著 ; 玉川竜司訳
出版情報: 東京 : オライリー・ジャパン , 東京 : オーム社(発売), 2015.8  xx, 289p ; 24cm
所蔵情報: loading…
目次情報: 続きを見る
Sparkによるデータ分析への招待
Sparkのダウンロードと起動
RDDを使ったプログラミング
キー/値ペアの処理
データのロードとセーブ
Sparkの高度なプログラミング
クラスタでの動作
Sparkのチューニングとデバッグ
Spark : SQL
Spark : Streaming〔ほか〕
Sparkによるデータ分析への招待
Sparkのダウンロードと起動
RDDを使ったプログラミング
3.

図書

図書
Jimmy Lin, Chris Dyer著 ; 玉川竜司訳
出版情報: 東京 : オライリー・ジャパン , 東京 : オーム社 (発売), 2011.10  xi, 194p ; 24cm
所蔵情報: loading…
4.

図書

図書
Eric Sammer著 ; 玉川竜司訳
出版情報: 東京 : オライリー・ジャパン , 東京 : オーム社 (発売), 2013.11  xviii, 342p ; 24cm
所蔵情報: loading…
目次情報: 続きを見る
HDFS
MapReduce
Hadoopクラスタの計画
インストールと設定
アイデンティティ、認証、認可
リソース管理
クラスタのメンテナンス
トラブルシューティング
モニタリング
バックアップとリカバリ
非推奨となった設定プロパティ
Cloudera Manager
Hue / Hadoop用のGUIツール
高可用性ネームノードのアーキテクチャと動作詳細
HDFS
MapReduce
Hadoopクラスタの計画
概要: 本書はHadoopの管理と運用に焦点を当てた本です。Hadoopのクラスタ計画から、認証、リソース管理、またクラスタのメンテナンス、モニタリング、バックアップとリカバリなど、Hadoopを使う際に必要なトピックについて網羅しています。日本語 版ではClouderaの川崎達夫氏と小林大輔氏による「Cloudera Manager」、「Hue」、「高可用性ネームノードのアーキテクチャと動作詳細」についての記事を加筆。 続きを見る
5.

図書

図書
Tom White著 ; 玉川竜司, 兼田聖士訳
出版情報: 東京 : オライリー・ジャパン , 東京 : オーム社 (発売), 2013.7  xxx, 704p ; 24cm
所蔵情報: loading…
目次情報: 続きを見る
Hadoop事始め
MapReduce
Hadoop分散ファイルシステム
HadoopのI/O
MapReduceアプリケーションの開発
MapReduceの動作
MapReduceの型とフォーマット
MapReduceの機能
Hadoopクラスタの構築
Hadoopの管理〔ほか〕
Hadoop事始め
MapReduce
Hadoop分散ファイルシステム
概要: 『Hadoop』の第3版の登場です。今回の改訂では、Hadoop0.22系、2.x系の記述を大幅加筆。次世代Hadoopの特徴であるYARN(Hadoop 2.x系におけるジョブ実行フレームワーク)やMapReduce2について詳述しました 。Hadoop1.x(旧0.20)の情報もカバーしているので、これまでのバージョンを使う新旧のユーザに対応しています。第3版の日本語版付録として、Clouderaの小林大輔氏による「最新の高可用性HDFSの紹介」を掲載。Hadoopの基礎から応用までを網羅し、最新の情報をカバーした本書は、Hadoopに関心のあるすべての開発者必携の一冊。 続きを見る
6.

図書

図書
トマズ・ドラバス, デニー・リー著 ; 玉川竜司訳
出版情報: 東京 : オライリー・ジャパン , 東京 : オーム社 (発売), 2017.11  xxii, 303p ; 24cm
所蔵情報: loading…
目次情報: 続きを見る
1章 : Sparkを理解する
2章 : 耐障害性分散データセット
3章 : DataFrame
4章 : データのモデリングの準備
5章 : MLlib
6章 : MLパッケージ
7章 : GraphFrames
8章 : TensorFrames
9章 : Blazeによるポリグロットパーシステンス
10章 Structured : Streaming
11章 : Sparkアプリケーションのパッケージ化
1章 : Sparkを理解する
2章 : 耐障害性分散データセット
3章 : DataFrame
概要: PythonからSparkを利用するための機能、PySparkを使いこなすテクニックとノウハウ。はじめに高速になったSpark2.0の特徴とアーキテクチャを解説し、構造化及び非構造化データの読み取り、PySparkで利用できる基本的なデータ 型、MLlibとMLパッケージによる機械学習モデルの構築を説明。GraphFramesを使ったグラフの操作、ストリーミングデータの読み取り、クラウドへのモデルのデプロイなどの方法を豊富なサンプルと一緒に学ぶ。ローカルでのSpark+Python+Jupyter環境の構築方法も紹介。 続きを見る
7.

図書

図書
Edward Capriolo, Dean Wampler, Jason Rutherglen著 ; 玉川竜司訳
出版情報: 東京 : オライリー・ジャパン , 東京 : オーム社 (発売), 2013.6  xxiii, 397p ; 24cm
所蔵情報: loading…
目次情報: 続きを見る
始めてみましょう
データ型とファイルフォーマット
HiveQL:データの定義
HiveQL:データの操作
HiveQL:クエリ
HiveQL:ビュー
HiveQL:インデックス
スキーマの設計
チューニング
その他のファイルフォーマットと圧縮〔ほか〕
始めてみましょう
データ型とファイルフォーマット
HiveQL:データの定義
概要: Hadoop上でSQLライクなクエリ操作を可能にするHiveについて、基礎から応用までを詳細に解説。データ型とファイルフォーマット、またHiveQLのデータ定義、操作などの基礎的な事柄から、関数、ストリーミング、Thriftサービス、さらに AWSやHCatalogなどの応用まで、Hiveについて必要な事柄を豊富なサンプルとともにわかりやすく解説します。日本語版では、Microsoftの佐藤直生氏による「Windows Azure HDInsight Service」、Clouderaの嶋内翔氏による「Cloudera Impala」、「Hive 0.10の新機能」、「HiveServer2」を追加。 続きを見る
8.

図書

図書
Sandy Ryza [ほか] 著 ; 玉川竜司訳
出版情報: 東京 : オライリー・ジャパン , 東京 : オーム社 (発売), 2016.1  xviii, 309p ; 24cm
所蔵情報: loading…
目次情報: 続きを見る
ビッグデータの分析
ScalaとSparkによるデータ分析の紹介
音楽のレコメンドとAudioscrobblerデータセット
決定木を使った森林被覆の予測
K平均クラスタリングを使ったネットワークトラフィックにおける異常の検出
潜在意味解析を使ったWikipediaの理解
GraphXを使った共起ネットワークの分析
ニューヨーク市のタクシーの移動データに対する地理空間及び履歴データ分析
モンテカルロシミュレーションによる金融リスクの推定
ゲノムデータの分析とBDGプロジェクト
PySparkとThunderを使った神経画像データの分析
Sparkの詳細
MLlib Pipelines : API
SparkRについて
SparkのJVM、OSレベルのチューニングによる高速化
ビッグデータの分析
ScalaとSparkによるデータ分析の紹介
音楽のレコメンドとAudioscrobblerデータセット
概要: 本書は、データサイエンスの4人のエキスパートがSparkでの高度な分析方法を解説するとともに、より実践的なデータサイエンスを学ぶ書籍です。ビッグデータ分析におけるSparkの位置づけを紹介し、ベストな結果を得るためのデータの準備やモデルのチ ューニングについて解説します。またデータクレンジングのユースケースを通じてSparkとScalaによるデータ処理の基本を学習し、Sparkを使った機械学習の基礎や応用分野における広く使われる一般的なアルゴリズムを紹介します。日本語版では付録として高柳慎一氏と牧山幸史氏による「SparkRについて」と千葉立寛氏、小野寺民也氏による「SparkのJVM、システムレベルのチューニングによる高速化」を掲載。高度なデータ解析を習得したいデータサイエンティスト必携の一冊です。 続きを見る
9.

図書

図書
Martin Kleppmann著 ; 玉川竜司訳
出版情報: 東京 : オライリー・ジャパン , 東京 : オーム社 (発売), 2019.7  xxiii, 634p ; 24cm
所蔵情報: loading…
目次情報: 続きを見る
第1部 データシステムの基礎 : 信頼性、スケーラビリティ、メンテナンス性に優れたアプリケーション
データモデルとクエリ言語
ストレージと抽出
エンコーディングと進化
第2部 分散データ : レプリケーション
パーティショニング
トランザクション
分散システムの問題
一貫性と合意
第3部 導出データ : バッチ処理
ストリーム処理
データシステムの将来
第1部 データシステムの基礎 : 信頼性、スケーラビリティ、メンテナンス性に優れたアプリケーション
データモデルとクエリ言語
ストレージと抽出
概要: 現代の分散システム設計においてデータの扱いは重要な課題です。本書は、データを処理し、保存するさまざまなテクノロジーの特性を詳述することで、ツールの長所と短所を理解し、システムの課題と使用するアプリケーションに適した選択肢の発見を助けます。本 書では、データの量や複雑さ、変化が課題となるアプリケーションを「データ指向」と名づけ、データ指向アプリケーションの設計を支える基本的な概念を解説します。そしてレプリケーション、パーティション、トランザクションなど分散データベースについて扱い、さらにバッチ処理、ストリーム処理など、データセットの取り出しや結合について解説します。データ処理のテクノロジーを総覧し、特性やトレードオフを詳述する本書はソフトウェアエンジニア、アーキテクト必携の一冊です。 続きを見る
文献の複写および貸借の依頼を行う
 文献複写・貸借依頼