複数のRSSフィードを高速でまとめる方法

DSC_2723

クライアントさんからの依頼で、数十個のブログのRSSフィードをまとめて、日にち順にソートして記事をリスト表示するプログラムコードを書きました。

当初はYahoo!Pipesを利用していたのですが、フィード数が多すぎたのか、急にエラーを吐くようになってしまいました。そこで、フィード取得のコアの部分も一から作り直しました。

スポンサーリンク

並列読み込みで高速化

数十個のRSSフィードを1から順に読み込んでいては、時間がかかりすぎてしまいます。こういうときは、PHPでは「cURL multi」を利用すると、複数のフィードを一気に並列で読み込むことが可能です。

フィードのURLリストを渡すとフィードの生データをすべて出力してくれる関数を見つけたので、ありがたくそのまま利用させて頂きました。関数の中身には深く触れず、ブラックボックス的に利用しています。

今回はhtmlリストで出力しました。jsonなどのデータ形式で出力したりすれば、色々な用途に使えます。

複数のRSSフィードを高速でまとめるPHPコード

[php]
<?php

//表示記事数
$hyojiNum = 30;

//フィード登録
$data[‘feedurl’][] = ‘http://rss.dailynews.yahoo.co.jp/fc/rss.xml’;
$data[‘feedurl’][] = ‘http://netafull.net/index.rdf’;
$data[‘feedurl’][] = ‘https://www.wakatta-blog.com/feed’;// ※最後に「/」は付けないでください
//$data[‘feedurl’][] = ”; いくらでも追加してください

$rssList = $data[‘feedurl’];

//キャッシュ準備
require_once(‘Cache/Lite.php’);
$cacheDir = ‘rsscache/’;
$lifeTime = 60*60;
$automaticCleaningFactor = 100;
$options = array(‘cacheDir’ => $cacheDir ,’caching’ => true, ‘lifeTime’ => $lifeTime, ‘automaticSerialization’ => ‘true’,’automaticCleaningFactor’ => $automaticCleaningFactor);
$cacheData = new Cache_Lite($options);

$outdata = $cacheData->get(‘rsscache’);

if(!$outdata) {

//同時呼び出し
$rssdataRaw = multiRequest($rssList);

for($n=0;$n<count($rssdataRaw);$n++){
//URL設定
$rssdata = simplexml_load_string($rssdataRaw[$n]);

if($rssdata->channel->item) $rssdata = $rssdata->channel;

if($rssdata->item){

foreach($rssdata->item as $myEntry){

$rssDate = $myEntry->pubDate;
if(!$rssDate) $rssDate = $myEntry->children("http://purl.org/dc/elements/1.1/")->date;
date_default_timezone_set(‘Asia/Tokyo’);
$myDateGNU = strtotime($rssDate);
$myDate = date(‘Y/m/d’,$myDateGNU);
$myTitle = $myEntry->title; //タイトル取得
$myLink = $myEntry->link; //リンクURL取得

//出力内容(CSSOK)
if(preg_match(‘/PR:/’,$myTitle)) continue;

$outdata[$myDateGNU] = ‘<p style="margin:0px">’ . $myDate . ‘ ’;
$outdata[$myDateGNU].= ‘<a href="’ . $myLink . ‘" target="_blank">’ . $myTitle . ‘</a></p>’;

}
}
}

//ソート
krsort($outdata);

$cacheData->save($outdata,’rsscache’);
}

$nn = 0;
$html = ”;

foreach($outdata as $outdata) {

$nn++;
$html.= $outdata;

if($nn == $hyojiNum) break;

}

$html = ‘<html lang="ja" style="overflow-x:hidden;"><head><META http-equiv="Content-Type" content="text/html; charset=utf-8"></head><div style="width:600px;font-size:13px">’.$html.'</div></html>’;

echo $html;

//同時呼び出し関数
function multiRequest($data, $options = array()) {

// array of curl handles
$curly = array();
// data to be returned
$result = array();

// multi handle
$mh = curl_multi_init();

// loop through $data and create curl handles
// then add them to the multi-handle
foreach ($data as $id => $d) {

$curly[$id] = curl_init();

$url = (is_array($d) && !empty($d[‘url’])) ? $d[‘url’] : $d;
curl_setopt($curly[$id], CURLOPT_URL, $url);
curl_setopt($curly[$id], CURLOPT_HEADER, 0);
curl_setopt($curly[$id], CURLOPT_RETURNTRANSFER, 1);

// post?
if (is_array($d)) {
if (!empty($d[‘post’])) {
curl_setopt($curly[$id], CURLOPT_POST, 1);
curl_setopt($curly[$id], CURLOPT_POSTFIELDS, $d[‘post’]);
}
}

// extra options?
if (!empty($options)) {
curl_setopt_array($curly[$id], $options);
}

curl_multi_add_handle($mh, $curly[$id]);
}

// execute the handles
$running = null;
do {
curl_multi_exec($mh, $running);
} while($running > 0);

// get content and remove handles
foreach($curly as $id => $c) {
$result[$id] = curl_multi_getcontent($c);
curl_multi_remove_handle($mh, $c);
}

// all done
curl_multi_close($mh);

return $result;
}

?>
[/php]

上記コードのデモはこちら

もっと良い方法があれば、ぜひ教えてください!

※お行儀よくフィードを取得するため、キャッシュ(Cache/Lite.php)を入れてます。もしお使いのサーバーにインストールされていなかったら、Package Information: Cache_Liteからダウンロードして、同じ階層にCache/フォルダーをアップロードしてください。そして、キャッシュファイルを保存するrsscacheディレクトリを同階層に置いてください。

【参考】
複数APIの読み込みを高速化させる

今日のわかった

フィードをまとめてくれるサービスはどんどん閉鎖されています。マネタイズが難しく、サーバー負荷増に対応できないのだと思います。

自前のサーバー上でまとめてしまうのが一番確実かなと思います。

PHP
スポンサーリンク
管理人かん吉をフォローする
わかったブログ

コメント

  1. コンヤガヤマダ より:

    色んなサイト見てきましたが一番参考になり、エラーも出ずに出来ました。
    どうもありがとうございます。
    他のサイトはコードをコピーしたらエラーがあり、
    やはりデモページがあると動く安心感があります。

タイトルとURLをコピーしました