ぽん太
2010-03-21 14:20:22 ( ID:va4d7m00qjh )
[ 削除 / 引用して返信 ]
現在phentom IIのみでバッチ3スレッドを処理しています。
もう少し処理速度を上げようかと思い、CUDA機能の実施を検討しています。
最新のXPressでは今どうなっているのかわかりませんが、ここの過去ログでは、
・nVidiaの中でもハイエンドグラボが必要(低グラボでは効果なし?)
・CUDAを併用すると不具合が起こりやすい
・CPUのみと比べて効果がなかった
などの書き込みがありました。
そこで、次の事項についてクリアしていたなら、CUDA対応グラボの導入をと考え
ております。助言がありましたら、よろしくお願いします。
1.CUDA機能を導入して、現在のCPUコア分3スレッドに加え、GPU分のスレッド
処理を増やしても速度はCPUのみの場合と変わりないかどうか。
(CPU3スレッドとGPUスレッド分を同時に実行できるかどうか)
2.CUDA機能でエンコするのと、CPUだけでエンコするのでは、エラーが頻発
するのはどちらでしょうか?(現在CPUでバッチ中に時たまエラーが発生、
恐らくDivxが競合。ソースフォーマットのせいではなく、再実行でエラー
なし変換完了する)
3.お勧めのグラボはありますか?(3Dゲームとはかやらず、エンコ占有として)。
安上がりだと助かります。
*今の環境*
CPU:phentom II
MEM:2GB
OS: WinXP SP3
GPU:マザボオンボード
XPressエンコ運用: 3スレッドバッチ実行
fay
2010-03-21 15:01:50 ( ID:xaejhl/ek7l )
[ 削除 / 引用して返信 ]
TMPGEnc 4.0 XPressのCUDAはフィルタ処理を速くします。エンコード処理を速くする
ものではありません(フィルタ処理が高速化された結果としてエンコードの実時間が
短くなります)。あなたは映像フィルタを利用していますか?
ノイズ除去やスマートシャープや色調補正、輪郭強調などの映像フィルタを利用しない
なら、全く意味がありません。バッチで同時に3つのエンコードを実行しているなら、
映像フィルタは使用していないのではないでしょうか?
また、映像フィルタでも比較的処理が重いものを使っていなければ、CPUで実行した
ほうが速いということになりかねません。GPUは計算は速いようですが、CPUからGPUへ、
またGPUからCPUへデータ転送が必要なので、その時間を考慮してそれ以上計算が速く
なければ意味がありません。
CUDAが利用できそうということなら、GPUは最低でも9600GTクラス、お勧めは9800GT以上、
理想はGTX260以上でしょうか。私はC2Q 6600に8500GTですが、全く効果はありません。
会社のPCはCore i7 920に9800GTXですが、効果は出ています。
下記URLにGPUのスペック一覧がありますので参考に。
http://pc.watch.impress.co.jp/docs/topic/spec/gpu_spec.html
ぽん太
2010-03-21 16:49:52 ( ID:va4d7m00qjh )
[ 削除 / 引用して返信 ]
fayさん、ご回答とアドバイスありがとうございました。
>短くなります)。あなたは映像フィルタを利用していますか?
映像ノイズ除去、輪郭強調、映像シャープネス、スマートシャープ等をテンプレに
登録しているので、バッチ処理すべてに同じ映像フィルタを掛けています。
そういう意味では、フィルタ処理の負荷があるのでしょうね。
なお、現在ソース26分に対してphentomII ではいつも1:40分(Q66では2:20分)は
掛かっています(1時間(CUT後46分)ドラマについてはその倍)。
ですので、グラボ導入の効果はありそうな感じでしょうか。
>CUDAが利用できそうということなら、GPUは最低でも9600GTクラス、お勧めは9800GT以上、
最低でも1万円、最速を求めるなら3~5万円ということなのですね。
心配なのは12V電源不足(現行は500W)と廃熱処理です。
あと、CUDA処理にグラボのメモリ実装サイズは関係ありますか?
とりあえずマルチモニタは必要ないので1GBは不要かな、と思っています。
2スロット潰すけど、GIGABYTE GV-N26SO-896Iぐらいが無難なのかなあと。
SEN
2010-03-23 01:07:00 ( ID:9iddgxf2awl )
[ 削除 / 引用して返信 ]
参考までに
http://blog.livedoor.jp/signal_ein/archives/50922932.htmlより(自分のブログです)
------------------------------------------------
TMPGEnc 4.0 XPressVer.4.7.3.292
フィルタにノイズ、輪郭強調、映像シャープネス、インターレース解除(24fps化)
MPEG2 1440*1080からAVC 1280*720へのエンコードです。
フィルタをかけない場合,11~12fps程度でエンコードできます。
9800GTGE:5619s(6.053fps)
260GTX:3929s(8.657fps)
となり,9800GTGEに比べ、260GTXは約68%になりました。
それに伴い、CPU使用率も15%程度増加していました。
環境
CPU:Core i5 750@3.4GHz
CPU Cooler:NEPARTAK S983
MB:P7P55D
MEM:SMD-4G88HP-13H-D(SanMax 2GB*2 hynix)
VGA:NH-98GT512E32、Inno 260GTX GOLD
HDD:WD WD10EADS
PCケース:Antec Three Hundred
電源:Antec TP-650AP
OS:7 32bit
------------------------------------------------
fayさんが言ってるように、フィルタを併用しないと意味ないです。
上の中で特に重いのがスマートシャープです。
260は500Wの電源では厳しいと思います。
廃熱をあまり気にしないでいい、9800GTGreenEdtion(9800GTの補助電源の無いタイプ)を個人的には勧めておきます。
SP数は260より少ないですが、廃熱処理を考えない分ほかでの自由度は増します。
ぽん太
2010-03-23 23:09:35 ( ID:va4d7m00qjh )
[ 削除 / 引用して返信 ]
SENさん、ご回答とアドバイスありがとうございました。
>260は500Wの電源では厳しいと思います。
現在3スレッド実行中の消費電力は約200Wです(コンセント型ワットチェッカの値)。
9800GTGモデルでも500W(ピーク550Wx30秒間まで)ではきついでしょうか?
>廃熱をあまり気にしないでいい、9800GTGreenEdtion(9800GTの補助電源の無いタイプ)を個人的には勧めておきます。
結構、物がないようですが、MSIのN9800GT-MD1G ECO V2あたりがいいんでしょうか?
安くてお勧め、メジャーなものがあれば教えてください。
ちなみにグラボは大昔にバルク品で痛い目にあったため、メーカ品(リテール)を買うようにしています。
また、なんとなく主ボード類は GIGABYTE品に偏っています。
SEN
2010-03-24 00:41:58 ( ID:9iddgxf2awl )
[ 削除 / 引用して返信 ]
>9800GTGモデルでも500W(ピーク550Wx30秒間まで)ではきついでしょうか?
語弊があったようなので、
260でも電源の品質によっては動きます。
しかし、動かしてみないと供給不足に陥るかは分かりません。
以前、Abeeの電源550Wで動かしたところ、経年劣化の性もあると思いますが、
供給不足に陥り、電源のキャパシタが破裂した経験があったので、
MBからの供給電力だけで動く9800GTGEを勧めました。
よほど電源とMBが悪くなければ500Wで十分です。
>安くてお勧め、メジャーなものがあれば教えてください。
9800GTGEは1年以上前にメインで売られてたものですから、選択肢があまりないのですが、
初期不良に当たったら面倒ですが
玄人志向のGF9800GT-E512HD/GE
を勧めておきます。
玄人志向は余分なもの(サポートやアプリケーション)ないので安いです。
ぽん太
2010-03-27 16:40:51 ( ID:va4d7m00qjh )
[ 削除 / 引用して返信 ]
>玄人志向のGF9800GT-E512HD/GE
>を勧めておきます。
お勧め、ありがとうございます。
早速ポチってみました。
・アイドル時
消費電力:110W->145W (35W増)
・フィルタあり変換(26分MPEG->26分AVI)
変換時間:101分->66分
消費電力:200W->220W (20W増)
※電源や廃熱構成はそのまま。
という結果になりました。
ちょっと気になるのは、Xpress を複数起動すると時たまエラーが起きる
ことくらいですが、CUDA 導入で処理時間が 2/3となり、消費電力は増え
たものの、かなりフィルタ処理で効果があったようです。
どうもありがとうございました。
いづみ
2010-04-02 15:51:00 ( ID:s233rvuk/nl )
[ 削除 / 引用して返信 ]
購入後の遅いレスで申し訳ないですが、CUDA処理でもVRAMは多少なりとも影響するようです。
環境
CPU:PhenomⅡ955BE@3.2GHz
CPU Cooler:NINJAⅡ
MB:GA-MA790FX-DQ6
MEM:UMAX Pulser DDR2-1GBx4
VGA:ZOTAC Geforce9600GT-GDDR3-512MB(GEではありません)
HDD:Samsung SpinpointF1 HD103UJ 1TBx2
DVD:DVR-112L,LH20-A1S
電源:ENERMAX MODU82+ EMD425AWT
OS:Windows7Ultimate 32bit
FAN:12cm4基、14cm1基
他:SE-200PCI,PxVC1100
GPU-ZにてVRAM使用量を見てみると、バッチで1個ずつエンコードしている時でも400MB程利用していました。
2個同時にエンコードしていると約500MB目一杯使われているのを確認しました。
それから、バッチでCUDAエンコード中にTMPGEncを複数起動して編集画面で映像のシークを行ったり来たりさせてると、バッチ側がエラーでエンコードを中止している事があります。
私の場合はそれらの事があるのでバッチツールでも常に複数同時にはせず、CPU4コア分+CUDAを一極集中で1個の対象を連続エンコードさせています。
終了時間は同時2個でやっても、連続2個でやっても殆ど変わりませんでしたよ。
ちなみにPhenom9950BE+9600GTでは明らかにフィルタ処理が速くなりましたが、
CPUをPhenomⅡ955BEにしたらCPUだけの方が速いケースが多くなりました。
9600GTでは力不足のようなので、9800GTを選ばれたのは間違いではないと思います。
電力はMin135W→Max286W
425W電源(22ヶ月使用)でも問題なく動いています。この電源の場合、320W前後が最も効率が良いらしいので。
個人的にはTMPGEncがATI Streamにも対応してくれるのを願っているのですが・・・
ぽん太
2010-04-04 10:12:57 ( ID:va4d7m00qjh )
[ 削除 / 引用して返信 ]
いづみさん、レポートありがとございます。
>GPU-ZにてVRAM使用量を見てみると、バッチで1個ずつエンコードしている時でも400MB程利用していました。
CPU-Zを起動してVRAMの消費量の情報が見つからないと思ったら、「GPU-Z」なんてツールもあるんですね。バッチ処理が終わったら導入してみます。
>それから、バッチでCUDAエンコード中にTMPGEncを複数起動して編集画面で映像のシークを行ったり来たりさせてると、バッチ側がエラーでエンコードを中止している事があります。
私の例では、バッチ実行中のPCに、ローカルネットワーク内の別PCからリモートログインすると、3回に1回は終了してしまいます。
このときだけはMICROSOFTへの障害報告ダイアログは表示されないで即終了しています。
(残った中途半端ファイルのタイムスタンプから、リモートログインのタイミングだと判断していますが、別のエラーで落ちているかも知れません)
>私の場合はそれらの事があるのでバッチツールでも常に複数同時にはせず、CPU4コア分+CUDAを一極集中で1個の対象を連続エンコードさせています。
>終了時間は同時2個でやっても、連続2個でやっても殆ど変わりませんでしたよ。
ちょっと操作の手順(「CPU4コア分+CUDAを一極集中」のやり方)がわからないのですが、例えば1本30分掛かる奴を8個として、
これは
A.「CUDAフィルタ処理あり」+「基本動作設定:同時出力バッチ処理数=1」に設定して1ファイルずつ順に処理するのと、
B.「CUDAフィルタ処理あり」+「基本動作設定:同時出力バッチ処理数=4」に設定して4ファイル平行に処理するのでは、
AとBの処理時間が殆ど変わらないということでしょうか?
Aが約4時間で、Bが2時間強程度だと思います。CPUコアの処理を強制的に1つにする設定がわかりませんでした。orz
>9600GTでは力不足のようなので、9800GTを選ばれたのは間違いではないと思います。
2万円前後の投資を覚悟していましたが、8000円強のものでこれだけ効果があったので、十分満足しています。
ぽん太
2010-04-04 11:18:54 ( ID:va4d7m00qjh )
[ 削除 / 引用して返信 ]
>Aが約4時間で、Bが2時間強程度だと思います。CPUコアの処理を強制的に1つにする設定がわかりませんでした。orz
訂正します。
GPUを4処理で時分割するのと、1処理で占有するのでは大差ないということですね。
不正終了の後や再起動でCUDA機能がオフになるのはちょっといただけませんよね。
次回の起動でパフォーマンス情報を更新するだけでなく、1編集画面だけ使う人用に「毎起動ごとに再更新」みたいなオプションがあってもいいかもしれません。
いづみ
2010-04-05 14:46:57 ( ID:s233rvuk/nl )
[ 削除 / 引用して返信 ]
そう、AとBの事です。AとBでそんなに差が出ましたか。
私の環境でそれ程の差が出なかったのはフィルタ適用が少ないからかもしれませんね。
また、普段はx264にてAVI出力にしていまして、x264vfw側の設定を1処理4スレッドにしているのが理由かもしれません。(1個の出力に対して全力運転状態?)
確かに以前DivX6.0で出力していた頃には2個同時出力すると時間が短縮されていた記憶があります。
当時はDivXが2スレッドしかCPUを使っておらず、残る2コアが遊んでいる状態だったので2個同時出力をしていました。
記憶が不確かですが、MainConceptのMP4もそうだったような気がします。
複数同時出力の方が劇的に速いという事であれば、使われているコーデックが1スレッド、または2スレッドまでの対応なのかもしれませんね。
私は最近ではSpursを使う機会が増えてしまっているため、どうしても1ファイルずつの出力が強制されてしまいますが・・・
|