Subscribe: blog.bulknews.net: Bulkfeeds
http://blog.bulknews.net/mt/bulkfeeds.xml
Added By: Feedage Forager Feedage Grade B rated
Language: Japanese
Tags:
api  blog spam  blog  bulkfeeds bulkfeeds  bulkfeeds net  bulkfeeds  dnsbl  fake blog  net app  net  search  spam blog  spam     
Rate this Feed
Rate this feedRate this feedRate this feedRate this feedRate this feed
Rate this feed 1 starRate this feed 2 starRate this feed 3 starRate this feed 4 starRate this feed 5 star

Comments (0)

Feed Details and Statistics Feed Statistics
Preview: blog.bulknews.net: Bulkfeeds

blog.bulknews.net: Bulkfeeds



RSS feed for Bulkfeeds updates.



Last Build Date: Thu, 15 Dec 2005 07:58:12 +0900

Copyright: Copyright 2012
 



Bulkfeeds Search module for Google HomePage

Thu, 15 Dec 2005 07:58:12 +0900

Google Homepage のモジュール (Widget) を定義できる API が公開 というわけで、さっそく Bulkfeeds のサーチボックスをつくってみました。

(image)

http://bulkfeeds.net/googleig.xml を Create a Section のフィールドにいれれば追加できます。HTML をいれるだけなのでカンタン。Widget 上で HTTP でデータをやり取りしたければ、GreaseMonkey っぽい HttpRequest をつかって javascript でゴリゴリかけるようです。




Happy Birthday, Bulkfeeds!

Mon, 31 Oct 2005 15:27:57 +0900

Bulkfeeds が 10/30 で、2003年のローンチから数えて2歳になりました。

(image)

今後ともよろしくおねがいします。




Bulkfeeds is unavailable now

Thu, 27 Oct 2005 12:16:22 +0900

Bulkfeeds が本日 9:45 ごろよりアクセスできない状態となっています。ホストしているマシンが物理的にダウンしているためで、現在 iDC の方に復旧をお願いしています。なお、DNSBL (rbl.bulkfeeds.jp) は別ホストで運用していますので影響はありません。

UPDATE: 12:24 復旧しました。




Bulkfeeds: DNSBL の登録状況を RSS でトラック

Mon, 17 Oct 2005 01:21:40 +0900

Bulkfeeds の DNSBL と SPAM Submission を開始して5日がたちますが、おかげさまで多くの方に利用していただいているようです。tDiaryNucleus でも DNSBL のプラグインが出ているようですね。

現状 DNSBL への登録は、SpamSubmission や SPAM フィルタから自動的にキューイングされたデータを、半自動的にフィルタリングした後、マニュアルでチェックして反映しています。十分注意して運用していますが、SPAM ではないサイトが登録されてしまう可能性がないともいえません。そこで、RSS フィードを利用して DNSBL への登録状況をトラックできるようにしてみました。

(image)

Lookup Blacklist の検索結果に RSS フィードのアイコンが用意されています。たとえばこの Blog の登録状況は この URL でトラックできます。Blacklist に登録されているかどうかによって、生成される RSS の item:title や item:description が変化しますので、RSS リーダーで Subscribe しておけば、間違って登録されることがあってもすぐ気づくことができます。(そのような場合は bulkfeeds at bulknews.net までご連絡ください)




Bulkfeeds: SPAM ブラックリストの公開、Submission API と MT プラグイン

Wed, 12 Oct 2005 03:43:57 +0900

Bulkfeeds では、ボランティアによる SPAM サイト登録 と、自作の SPAM フィルタによるブラックリストの強化を行ってきましたが、API による公開の準備ができたのでお知らせします。

今回の API および機能拡充は以下のリストから構成されます。

1. DNS によるブラックリスト問い合わせ API の公開(ベータ)
2. Movable Type の JunkFilter フレームワークと連携した自動登録
3. REST による ブラックリストへの URL 登録 API の公開





Bulkfeeds Bot on FeedBurner

Sun, 09 Oct 2005 15:20:15 +0900

先日 GMO アフィリエイトとの提携で来日していた FeedBurner の Steve Olechowski (CEO) と Eric Lunt (CTO) に会う機会がありました。Eric とは以前からメールで何度かやりとりしたことがあったのですが、2人ともナイスガイで、日本での取材やミーティングを楽しんでいるようでした。

Eric とは頻繁にメールをやりとりするようになり、FeedBurner で Bulkfeeds のクローラを Bot として登録したと教えてくれました。Bulkfeeds では現在 Atom を未サポートなので、SmartFeed を利用時には RSS 2.0 が返るように登録してあるようです。

(image)

というわけで FeedBurner を利用している方は、Readership 画面で ↑ のように Bulkfeeds のクローラがきているか確認できます。もしうまくきていない場合には、http://bulkfeeds.net/rpc まで update ping を打ってみてください。




Bulkfeeds: Update Log 2005.10.08

Sun, 09 Oct 2005 15:09:51 +0900

ひさしぶりに Blog サービスプロバイダのアグリゲートを見直した結果、新着がうまく拾えていないサービスがいくつか見つかったので、もろもろ修正を行いました。Livedoor が1週間ほど拾えてなかったのはちょっと痛いですね。Stats の新規追加フィードにも如実にあらわれてます。(Livedoor Blog は SPAM の率も高いのでその分はよかったかもしれませんが。。。)

また、韓国・中国系のサイトがいくつかひっかかってくる事例がみつかっていますのでフィルタを組み込みました。

r1663: search2 検索結果の「検索にかかった秒数」を小数点以下2桁表示に変更
r1661: 中国・韓国系サイトをフィルタするモジュールを SPAM フィルタに追加
r1659: JUGEM, ラブログのアグリゲートを高速化; goo Blog, AOL Diary, ヤプログのアグリゲートを修正
r1658: Livedoor Blog の新着 RSS が変更されていたのに対応
r1657: FAQ の ping 送信ドキュメントを更新
r1656: ブログ人のアグリゲートロジックを修正
r1655: TypePad Japan をアグリゲートサイトに追加




Bulkfeeds: Update Log 2005.10.07

Fri, 07 Oct 2005 21:06:32 +0900

Bulkfeeds のアップデートフィードを http://blog.bulknews.net/bulkfeeds.xml に作成するように変更しました。以前の更新フィードを登録していた方は、自動で 301 Redirect されるはずです。今後 bulkfeeds カテゴリに日々の更新情報をポストしていくことにします。

以下は subversion (公開してませんが)のリビジョンのうち、サイト機能にかかわるもののリストです。

r1654: report_spam ページで url パラメータを canonical URL に変更
r1652: アサブロ http://asahi-net.jp/asablo/ をアグリゲートに追加
r1651: Developer 登録プログラムのメール送信部のバグを修正
r1650: report_spam ページで TypeKey login ができないバグを修正
r1649: バージョン番号を svn の Revision から取得するように変更 クローラの User-Agent: を修正
r1648: クエリがない場合の search2 ページと index を統合、whatsnew の再表示
r1647: rssitem のタイトル・本文取得メソッドの不具合を修正
r1643: SpamReport bookmarklet の追加、rssad.jp の広告を strip するモジュール追加




Bulkfeeds: SPAM Blog / Fake Blog のレポートを開始

Thu, 06 Oct 2005 16:50:40 +0900

Bulkfeeds で、SPAM Blog / Fake Blog の URL 登録を開始しました。Bulkfeeds の検索結果に SPAM Blog っぽいのを見つけたり、Google など他の検索エンジンで見つけたサイトも SPAM サイトとして登録することができます。

Bulkfeeds をふだん利用している場合には、検索結果画面のリンクにある [!] をたどる(スクリーンショット参照)か、Report SPAM ページから URL を登録することができます(*1)。

(image)

また、API ページBookmarklet を用意しておきました。ブラウズしているページの URL を Spam として簡単にレポートすることができます。

登録していただいた URL は手動でチェックし、SPAM blog / Fake Blog と判断された場合には、Bulkfeeds のブラックリストに登録されます。すでに SPAM Blog 検知のフィルタ は開発・動作済みでかなりの精度を出していますが、それでも対策しきれない SPAM サイトも存在しています。Blog 検索精度の向上にぜひご協力をお願いします。もちろん、今後サブミットしていただいたデータやフィルタリングによる検出結果をなんらかの形でユーザのみなさんに還元できる形を検討しています。

*1) 検索結果の RSS 内 content:encoded にリンクを含めることもできるのですが、余計なメタデータを配信することで remix のさまたげになるのは好ましくないため、現状は bulkfeeds:reportSpamLink というエレメントにリンク先を追加してあります。




Bulkfeeds: Fighting with SPAMs

Thu, 15 Sep 2005 13:24:05 +0900

Google Blog Search や Ask.jp の参入で盛り上がりを見せている Blog 検索ですが、Bulkfeeds も地道にバージョンアップしています。

スケールや速度で Google などに真っ向勝負するのはちょっと無理があるので、

* ノイズのすくない検索結果を
* リーズナブルな速度 (エントリの反映は更新から1時間以内、検索レスポンスは 3秒以下)

で提供する、あたりをリーズナブルな目標にしようかなとチューニングしています。フィードリーダーでキーワードを追いかけたり、ちょっといま流行しているキーワードを調べる(安達, のまネコ など)といった用途に特化しようかな、と。

ということでいま一番力をいれているのがいわゆる Fake Blog や、SPAM Blog, API によるアフィリエイト自動生成 Blog への対策です。かなり経験則重視ですが、ドメイン名・URL・本文・リンク数・文字キャラクタセットなどをベースにしたフィルタルールをつくって、極力こうした Blog をはじくように先ほどバージョンアップしました。いまのところかなりイイ感じで動いています。

実際には、このフィルタの副作用として、SPAM ではない Blog も SPAM 判定されてしまうこともあるかと思いますが、先にあげた目標を実現するにはこちらの方針のほうがよいと判断しました。

また、上記の目標の実現のため、より多くの Blog をクロールするようにアグリゲータも改良していますが、ストレージの限界もあるため、1週間以上古いエントリはインデクスしないように修正しています。なので検索結果の件数だけで比較されると困ってしまうのですが、直近3日以内などの条件で比較してもらうとかなり有意な数字が出るのではないかと思います。




Bulkfeeds のフィードが100万件を突破

Mon, 16 May 2005 09:33:22 +0900

Bulkfeeds: Home - RSS Directory & Search

2005/05/16 09:27 現在 1,001,148 件の RSS が登録され、3,273,950 件の item がインデクスされています。

Bulkfeeds の登録フィードが100万件を突破しました。

また連休中にいくつかソフトウェアのバージョンアップをしています(あまりユーザに見える部分での変化はないんですが)。

* 検索結果の時刻に「2時間前」などを付加
* クローラ・インデクサのロジックを改良・最適化(現状15分〜2時間ほどでインデクスされます)
** RSS パーサの一部を LibXML 化
** ホスティングサービスの RSS Auto-Discovery を行わずヒューリスティックに URL 変換
* 携帯版に Buzzwords を掲載
* アフィリエイト SPAM ブログへの対策を強化(まだ完全ではありません)




Bulkfeeds is down (again)

Sun, 03 Apr 2005 21:09:09 +0900

現在マシンの IP アドレス変更に伴うトラブルのため Bulkfeeds にアクセスができない状態となっています。4/4 11:00 以降に復旧の予定です。たびたびで申し訳ありません。

→ 2005/04/04 14:00 復旧しました。




Bulkfeeds メンテナンス中

Thu, 24 Mar 2005 22:08:22 +0900

Bulkfeeds ですがサーバの HDD に障害が発生していて、断続的にアクセスできない状態となっています。現在対応およびインデクスの再構築などを行っておりますが、復旧の見通しはたっておりません。

ご迷惑をおかけしますがご了承ください。

UPDATE: 現在ハードウェアおよびOSの入れ替え作業を行っております。3/31 ごろには復旧できるかと思います。→ 3/31 17:30 ごろ復旧しました。




Bulkfeeds モバイル: 京ぽんのデフォルトをモバイルテンプレートに変更

Sun, 12 Dec 2004 08:33:12 +0900

Bulkfeeds モバイル対応: blog.bulknews.net

うまくいかない場合や、PC から携帯版にアクセスしたい場合には http://bulkfeeds.net/app/index.mob で見ることができます。

京セラの AH-K3001V Opera バージョンで、モバイル版がデフォルトで出るようにしました。PC 版を見たい場合には、http://bulkfeeds.net/app/index.html へアクセスしてもらえれば大丈夫だと思います。




Bulkfeeds モバイル対応

Fri, 10 Dec 2004 13:06:21 +0900

Bulkfeeds で携帯電話ブラウザからのアクセスに対応しました。URL は そのまま http://bulkfeeds.net/ です。User-Agent を見て自動的にテンプレートを切り替えています。うまくいかない場合や、PC から携帯版にアクセスしたい場合には http://bulkfeeds.net/app/index.mob で見ることができます。

機能的には、現在RSS記事の検索、および検索結果の記事本文(content:encoded や description) のブラウズが可能です。RSS に本文が含まれない場合は、元ページへのリンクと、Google の WAPProxy 経由のリンクを提供しているのでそちらでブラウズするとよいかと思います。

現在 iモードのみ対応を確認していますが、vodafone, au, AirH" Phone でもアクセスできるかと思います。何か不具合等ありましたらお知らせください。

QR コードもはっておきます。

(image)