1998年07月31日

gooで数調べ

 「ここかしこ」と「そこかしこ」。

 「そこかしこ」の方が遥かに多い(9倍ほど)のにびっくり。



岡島昭浩 さんからのコメント

( Date: 1998年 7月 31日 金曜日 17:04:11)


 「すいません」が2万超、「すんません」が4千超。「すんまっせん」はわずかに17。勿論九州に多い。「すんまっしぇん」は7。

 「すびばせん」(39)よりも少ないとは。



岡島昭浩 さんからのコメント

( Date: 1998年 7月 31日 金曜日 17:08:54)


 「どぎゃん こぎゃん そぎゃん あぎゃん」(いずれか)54

 「どがん こがん そがん あがん」(いずれか)137

 「どげん こげん そげん あげん」(いずれか)358

 「どぎゃん・どがん・どげん」の単独対決では「どがん」の勝利であったのに。



岡島昭浩 さんからのコメント

( Date: 1998年 7月 31日 金曜日 17:11:14)


 前々項、「すいまっせん」でもマッチしました。6件。「すいまっしぇん」は無し。



岡島昭浩 さんからのコメント

( Date: 1998年 8月 02日 日曜日 0:51:01)


 テレビで米原万里氏(ロシア語通訳)が、「口を糊する」と言ったのをきっかけに検索。

「口に糊 口にのり」16件に対して、
「口を糊 口をのり」が13件。



岡島昭浩 さんからのコメント

( Date: 1998年 8月 02日 日曜日 1:37:44)


「狐につままれ 狐に摘まれ」144に対して、
「狐につつまれ 狐に包まれ」11。

この言い方は、学術雑誌『国語学』の論文中でも使われたことのある(はずの……捜し出せず)言い方です。

キツネとカタカナにすると、78対5。村上朝日堂もヒットしますが、これは今はもう無くなって、CD-ROM『夢のサーフシティー』になってますね。読者からの投稿で、「海のもずく」と共にあがっています。



Yeemar さんからのコメント

( Date: 1998年 8月 02日 日曜日 17:04:53)


こんにちは。

>> テレビで米原万里氏(ロシア語通訳)が、「口を糊する」と言ったのを
>>きっかけに検索。

NHK総合のドラマを見ておったので米原万里さんの話は聞いていな
いのですが、「口を糊する」の形は一般的ではないのでしょうか?



岡島昭浩 さんからのコメント

( Date: 1998年 8月 02日 日曜日 18:34:00)


 言葉足らずで失礼いたしました。
 米原氏の言い方をおかしな言い方だ、と感じたわけではなく、氏の発話をテレビで聞いたことによって、「口に糊・口を糊」の併存を思い出し、「gooで数調べ」できる、と思ったのでした。

 「gooで数調べ」は今後もぼちぼちやってみるつもりですが、今回の場合は私にネタを提供してくれたのが公共の電波のものだったので書き留めたのでした。



岡島昭浩 さんからのコメント

( Date: 1998年 8月 03日 月曜日 18:14:52)


濡れ手に粟51
濡れ手で粟21

おまけ
濡れ手に泡12
濡れ手で泡8



Yeemar さんからのコメント

( Date: 1998年 8月 03日 月曜日 23:42:04)


ボーボワール   47
ボーヴォワール 107
ボーボアール    2
ボーヴォアール   4

 ●「ボーヴォワール」が得票多数。

ベートーベン  2821
ベートーヴェン 3042

 ●これは伯仲しています。なじみ度の問題でしょうか。



「b」と「v」(拙ページ)



後藤 斉 さんからのコメント

( Date: 1998年 8月 04日 火曜日 10:57:54)


>ベートーベン  2821
>ベートーヴェン 3042

ヴェートーヴェン 31
ヴェートーベン   21

ウーマン・リブ   64
ウーマン・リヴ    1

デビュー   45571
デヴュー     261

セルバンテス   205
セルヴァンテス    7

ベネズエラ   1654
ヴェネズエラ   654

ボリビア    2021
ボリヴィア    338




益山健 さんからのコメント

( Date: 1998年 8月 04日 火曜日 15:27:03)


>>ベートーベン  2821
>>ベートーヴェン 3042
>
>ヴェートーヴェン 31
>ヴェートーベン   21

ベートウベン 4
ベートーフェン 2 (宮沢賢治「小岩井農場」の引用)
ベートホーフェン 1
ヴェートーフェン 1
ベートオフェン 1
ベイトウヴェン 1
ベイトーヴェン 1 (英語では...という話)
ビートーヴェン 1 (同上)



益山健 さんからのコメント

( Date: 1998年 8月 04日 火曜日 15:53:46)


.... さらに
ベートヴェン 105
ベートベン 43
ヴェートベン 3
ベトーヴェン 3
ベトーベン 1
ベエトオヴェン 4
ベエトーベン 2



岡島昭浩 さんからのコメント

( Date: 1998年 8月 04日 火曜日 18:16:35)


外来音の表記の多様性、面白いですね。過剰矯正も。

アロマセラピー 939
アロマテラピー 4683

タジクスタン 443
タジキスタン 7

ハイフィールは流石にゼロでした。



satopy さんからのコメント

( Date: 1998年 8月 05日 水曜日 19:37:48)


ヒエラルキー 858
ヒエラルヒー 89

私は後者を使うのでちょっとさびしい。



岡島昭浩 さんからのコメント

( Date: 1998年 8月 06日 木曜日 17:03:25)


ちょっと使われ方が異なりますが、
ハイアラーキー 64
ハイアラキー 39
というのもありますね。

さて、
ハンググライダー 1081
ハングライダー 424

 キングコング・ホンコン問題と関連しますが、両方あったページ35の中から一つリンクしておきます。


なぜ、ハングライダーなんていうのだ?(ハングメジャー化計画 むらまつさん)



後藤 斉 さんからのコメント

( Date: 1998年 8月 06日 木曜日 19:38:18)


>外来音の表記の多様性、面白いですね。過剰矯正も。

ミルフィーユ   667
ミルフィユ     30
ミルフイユ     10
ミルフイーユ     1(誤記か)

ドン・ファン   512
ドン・フアン    14
ドン・フワン     2



後藤 斉 さんからのコメント

( Date: 1998年 8月 06日 木曜日 20:09:36)


ハイブロー   60 (絞り込みが足りない)
ハイブラウ    1

ブローニング  71 (これも絞り込みが足りない)
ブラウニング 177 (絞り込みが足りなすぎる)

「ブローニング AND ブラウニング」でヒットする唯一のページ

ブローニング・ハイパワー



岡島昭浩 さんからのコメント

( Date: 1998年 8月 13日 木曜日 17:56:14)


 これは誤用に関するものですが、下のページで、「的を得る」「的をいる」のかずしらべをしています。

じぶん更新日記(長谷川さん)98.8.1



岡島昭浩 さんからのコメント

( Date: 1998年 10月 01日 木曜日 18:02:14)


でんぐり返り 53
でんぐり返し 74
and      2

京都国立博物館



岡島昭浩 さんからのコメント

( Date: 1998年 10月 23日 金曜日 18:06:16)


 どうもgooは、あきまへんね。

infoseekでやりました。
 アステリスク 87
 アスタリスク 661
 and 3
おまけ
 アスタリスタ 3
アステリスタはさすがに0



池田証寿 さんからのコメント

( Date: 1998年 10月 25日 日曜日 11:39:59)


こういうのもあります。
竈 0
竃 19698



後藤斉 さんからのコメント

( Date: 1998年 10月 29日 木曜日 17:34:55)


>どうもgooは、あきまへんね。

不具合のせいで、バージョンダウンするそうです。「完全復旧」には
時間がかかるのではないでしょうか。

goo不具合発生のお詫びとお知らせ



kazii さんからのコメント

( Date: 1998年 10月 30日 金曜日 3:04:17)


これは目からうろこ。検索エンジンにはこういう使い方もあるんですね。
前々から気になっていた、「視線」と「目線」を調べてみました。

視線 29596
目線 6298
視線+目線 880

『日国』によれば、「目線」はもともとは演劇用語ということですが、
『広辞苑』の5版には、のってるのでしょうか?
(手元にあるのは3版にはのってない。4版にもなかったはず。)



岡島昭浩 さんからのコメント

( Date: 1998年 11月 02日 月曜日 14:43:54)


 kaziiさん、ようこそ。
 『三国』は、〈写真で、人相がはっきり分からないように目を隠す黒い線〉、というような意味も記していましたが、web上にもあるでしょうか。

 調べてみようかと思いましたが、今どこにもつながりません。

 ライコスという検索エンジンも使ってみました。


http://www.lycos.co.jp/



kazii さんからのコメント

( Date: 1998年 11月 08日 日曜日 19:22:29)


やっぱり、記憶でものを言っていてはだめ。広辞苑の第4版に
「目線」は載ってました。80年代後半以降の辞書にはほぼ載っているようです。

>『三国』は、〈写真で、人相がはっきり分からないように目を隠す黒い線〉、というような意味も記していましたが、
>web上にもあるでしょうか。

web上にあるかどうかは確認できていませんが、辞書を数種類みたかぎりでは、この用法を載せているものは他にないようです。
参考までに「視線」と「目線」が同一文章内で使用されている例を一つ挙げておきます。



視線によるゲームの影響



後藤斉 さんからのコメント

( Date: 1998年 11月 08日 日曜日 22:12:19)


>>『三国』は、〈写真で、人相がはっきり分からないように目を隠す黒い線〉、というような意味も記していましたが、
>>web上にもあるでしょうか。
>web上にあるかどうかは確認できていませんが、

「目線 盗撮」でヒットする13件は大抵この意味での用例でしょう。



後藤斉 さんからのコメント

( Date: 1998年 12月 02日 水曜日 17:40:40)


>不具合のせいで、バージョンダウンするそうです。「完全復旧」には
>時間がかかるのではないでしょうか。

gooは「完全復旧」したと言っていますが、本当でしょうか。リニューアル
(10月16日)以降のファイルがヒットしますか?

Infonavigatorだと「江沢民 小渕 歴史認識」で29件ヒットし、10月末や
11月のデータも含まれているのに対して、gooでは18件ヒットするうち
最も新しいものでも10月9日付けです。ほかの時事ネタや一般的な
キーワードをいれても、ヒットするファイルに10月16日以降の日付のものは
含まれていないように思うのですが。


完全復旧のお知らせ



Yeemar さんからのコメント

( Date: 1998年 12月 02日 水曜日 20:58:39)


 私個人としては、どうもgooは好きませぬ。
 ごく私的なことですが、自分のウェブページを登録しても、
いっこうに反映されません。何度登録してもだめです。
その点、Infoseekは数日で反映され、うれしく思います。
これを逆から言えば、Infoseekで検索すれば、常に新しい
多様な情報が得られるということでもあります。
 私は当面「Infoseekで数調べ」にシフトしようと思います。




後藤斉 さんからのコメント

( Date: 1998年 12月 03日 木曜日 16:51:37)


個人的には、私もgooには大いに恨みがありますが。

>gooは「完全復旧」したと言っていますが、本当でしょうか。リニューアル
>(10月16日)以降のファイルがヒットしますか?


今やってみると「江沢民 小渕 歴史認識」で28件ヒット。昨日とはうってかわって、
10月中旬以降のものがほとんどです。一番新しいのが11月16日付け。昨日ヒットした
18件の大部分が消えているのが腑に落ちませんが、サーチエンジン部分だけでなく
データベース部分も総入れ換えしたのでしょうか。

ともかく、これなら「完全復旧」と認めてあげよう。ただし、12月3日付けで。



岡島昭浩 さんからのコメント

( Date: 1998年 12月 03日 木曜日 17:37:08)


 先日、ラジオで「それからというものの」という言い方を耳にしたもので、面白く思い、gooで検索したら、50件ばかりヒットしました。たしかに使っています。

 ところがinfoseekではフレーズ検索にしてもうまく絞ってくれませんでした。数万件になってしまいます。

 ライコスのフレーズ検索ではうまく行きました。59件。



Yeemar さんからのコメント

( Date: 1998年 12月 04日 金曜日 16:49:29)


Infoseekでいろいろやってみましたが、「数調べ」までは
無理なのですね。やはり目的ごとに検索エンジンを使い分け
なければならないようです。



後藤斉 さんからのコメント

( Date: 1998年 12月 19日 土曜日 12:00:45)


> ごく私的なことですが、自分のウェブページを登録しても、
>いっこうに反映されません。何度登録してもだめです。
>その点、Infoseekは数日で反映され、うれしく思います。
>これを逆から言えば、Infoseekで検索すれば、常に新しい
>多様な情報が得られるということでもあります。


さきほど「アジア大会 バンコク」で検索すると。gooでは232件ヒットする
うち、最新のものは11月18日付けのものです。一方、Infoseekは382件で、
12月17日付けのデータも含まれています。

この二つのサーチエンジンのデータベースの更新のしかたに大きな違いが
あることはこれで証明されたと言えるのではないでしょうか。Infoseekは
取得したデータをこまめにデータベースに追加していくのに対して、
gooでは、取得したデータを貯めておいて、一ヶ月に一度程度一挙にデータ
ベースを更新するのでしょう。



後藤斉 さんからのコメント

( Date: 1998年 12月 22日 火曜日 10:52:54)


「数調べ」から「gooウォッチング」になってしまっていますね。この辺で
やめにしますが。

>さきほど「アジア大会 バンコク」で検索すると。gooでは232件ヒットする
>うち、最新のものは11月18日付けのものです。一方、Infoseekは382件で、
>12月17日付けのデータも含まれています。

昨晩から今朝の間にgooのデータベースが一挙に更新された模様で、今は
「アジア大会 バンコク」で940件のデータがヒットします。これは
さすがにチェックしきれないので、「アジア大会 バンコク 金メダル」で
ヒットする72件を見ると、最新のものは12月9日付けです。Infoseekの方は
「アジア大会 バンコク」で382件と、19日と変わっていません。

gooのデータ量はさすがですが、その分2週間から1ヶ月内外のタイムラグが
生じていることを理解しておくべきでしょう。


ところで、この会議室は以前からgooでヒットしていましたっけ。



岡島昭浩 さんからのコメント

( Date: 1998年 12月 22日 火曜日 16:18:23)


>ところで、この会議室は以前からgooでヒットしていましたっけ。

いいえ。「bbs?」を使わずに、直接メッセージを読みに行くリンクを「雑文」のところから貼っておいたので、gooの検索対象になったものと思われます。


雑文



益山健 さんからのコメント

( Date: 1998年 12月 23日 水曜日 17:26:48)


goo がどの情報を無視しているか/どこまでを一区切りとみているか, というのはなかなか謎ですね。
(連続する片仮名を 1語とみているらしいことはわかったのですが)
今日「ゲョエテ」を検索したら 3件(ゲヨエテは 2件)あったのですが, 茅野蕭々で検索してもヒットしません。
「ゲョエテ」の検索結果のページにちゃんと茅野蕭々の名前が出ているにもかかわらず, です。



益山健 さんからのコメント

( Date: 1998年 12月 23日 水曜日 18:53:59)


「蕭」一字でも見つかりません。「萬」とかもだめなので, どうやら第二水準の文字は無視しているようですね。
「々」も無視するので, 結局「茅野蕭々」を探すためには「茅野」で探して一個ずつ中身を見るしかない?



後藤斉 さんからのコメント

( Date: 1998年 12月 25日 金曜日 10:11:14)


週刊誌で本の紹介を見て、気になったものですから。

タブー      4769
タヴー        4 (1例は別の固有名詞。1例は意図的な表記か?)

インセストタブー  31
インセストタヴー   1

>連続する片仮名を 1語とみているらしいことはわかったのですが

「インセストタヴー」の1例
http://tohan-w3.gsquare.or.jp/common/today/news9811/index.html
が「タヴー」でヒットしていないことにも現れていますね。

書名としては画像にあるように「タヴー」で「正しい」らしい。
#自分のところで出している本の紹介なのだから、題名を間違えないでほしい。


ラブピースブック



Yeemar さんからのコメント

( Date: 1998年 12月 26日 土曜日 16:45:31)


書名で「ブ」「ヴ」を取り違えているというのは
珍しいですね。

阿川佐和子さんが小学館から出した近著の広告に
檀ふみさんが推薦文を寄せていました。ところが
名前が「壇ふみ」と大きく出ている。
「あれ、土偏でいいのだっけ」と思い検索してみ
ると

「檀ふみ」 検索結果 159 件
「壇ふみ」 検索結果 123 件

伯仲しています。書店を歩くと、集英社から出た
「檀ふみ・阿川佐和子」共著の本があるので、本
当は木偏なのでしょう。

ついでに

「檀一雄」 検索結果 123 件
「壇一雄」 検索結果 59 件



kazii さんからのコメント

( Date: 1999年 1月 14日 木曜日 0:28:21)


気になったので調べてみたのが

「用語典(8201)」と「用語典(1177)」

以外に「用語事典」は多い。

日々の雑感



後藤斉 さんからのコメント

( Date: 1999年 2月 03日 水曜日 10:26:57)


「やめる」といっておきながら自分で蒸し返すのは恐縮ですが。

>「数調べ」から「gooウォッチング」になってしまっていますね。この辺で
>やめにしますが。
>
>昨晩から今朝の間にgooのデータベースが一挙に更新された模様で、今は
>「アジア大会 バンコク」で940件のデータがヒットします。これは
>さすがにチェックしきれないので、「アジア大会 バンコク 金メダル」で
>ヒットする72件を見ると、最新のものは12月9日付けです。Infoseekの方は
>「アジア大会 バンコク」で382件と、19日と変わっていません。
>
>gooのデータ量はさすがですが、その分2週間から1ヶ月内外のタイムラグが
>生じていることを理解しておくべきでしょう。

gooのデータベースは、12月22日に12月上旬頃までのデータが加わってから、今日まで
変更されていないと思われます。現時点では2ヶ月近いタイムラグと言えるでしょう。

「アジア大会 バンコク 金メダル」でヒットするのは依然として同じ72件です。
「紅白歌合戦 久保純子」は45件で、最新は1998年12月9日。(Infoseekで同じキーワードで
検索すると、84件のヒットで、最新は1999年1月30日です。)
Infoseekは早くも「仁科亜季子」で1999年2月2日のファイルが1件ヒットしますが、
gooはもちろんだめです。

gooでヒットする私のサイトのファイルは12月3日付けのものです。gooのロボットは
12月22日と1月8日に私のサイトを訪れていますが、そのデータはどこかで眠っている
のでしょうね。




kazii さんからのコメント

( Date: 1999年 2月 04日 木曜日 10:03:47)



これって、キーワードによるんでしょうか?「用語事典」と「用語辞典」、1999/1/14からの変化は次の通り。
用語事典:1177(1999_0203wed現在では1159)→1143
用語辞典:8201(1999_0203wed現在では8170) →8834

なんと一晩で変化してる。1月中は変化なかったはずなんですが。(それとも私がねぼけてたか。)

ちなみに、「視線」と「目線」、1998/10/30からの変化は以下の通り。

視線」:29596→34951
目線」:6298→7546
視線+目線」:880→1104

ところで、まさかと思って検索してみたのが「用語時点」。何と7件もヒット。いずれも変換ミスのようです。
で、「用語字典」は0件。
また、「用語次点」も0件。
さらに、「用語自転も0件。
やっぱり、誤変換しやすいものとか、しても気がつきにくいものとかあるんでしょうねぇ。

日々の雑感(1999/01/14とは若干urlが変わってます。)



kazii さんからのコメント

( Date: 1999年 2月 04日 木曜日 10:11:53)


すいません。↑、アンカーの打ち間違いとurlの貼り付け間違いがあります。
正しくは、
用語辞典:8201(1999_0203wed現在では8170) →8834
視線+目線」:880→1104
でした。すいません。



後藤斉 さんからのコメント

( Date: 1999年 2月 04日 木曜日 10:50:17)


>これって、キーワードによるんでしょうか?

ああ、その可能性はあまり考えていませんでした。時事ネタなら新しいデータの
追加状況の指標になるだろうと思っていただけです。キーワードによる違いと
いうより、検索対象のデータの違いではないでしょうか。つながらないURLを
データから削除している可能性が思い浮かびますが。

ともかく、昨日から今日にかけて大更新があったことは確かです。
「アジア大会 バンコク 金メダル」は180件。「紅白歌合戦 久保純子」で
73件。いずれも最新は1999年1月13日。3週間のタイムラグですね。

私のページは1月8日取得のファイルにアップデートしてもらえたようです。
「後藤斉」で検索すると403件中第4位に次のページか挙がるのですが、
どうしてでしょうか。ソースを見ても隠しキーワードがあるわけでもないし、
このページに過去に「後藤斉」に似た文字列があったとも考えにくいのですが。



住所検索:愛知県 名古屋市 北区 中丸町



後藤斉 さんからのコメント

(Date: 1999年 2月 04日 木曜日 12:14:49)


>「後藤斉」で検索すると403件中第4位に次のページか挙がるのですが、
>どうしてでしょうか。

あれ、なくなっている。



後藤斉 さんからのコメント

( Date: 1999年 3月 01日 月曜日 11:38:37)


>Infoseekでいろいろやってみましたが、「数調べ」までは
>無理なのですね。やはり目的ごとに検索エンジンを使い分け
>なければならないようです。

2月23日にInfoseekが「春のチャンネル強化」とやらをしたのにともない、
Infoseekの検索結果から私のサイトを訪れる人が急増しました。
「国内言語学関連研究機関WWWページリスト」のトップページだけで
1日に数十人です。

「言語学」を検索するとInfoseekは私のページを第一に挙げます。「電子辞書」
「東京外国語大学」などでも、私のページは随分優遇されているようです。
このことは、Infoseekがランク付けにおいて内容の上からなんらかの判断をしている
ことを予測させます。もっとも、この「判断」には理解しかねるところもあります。
「神戸」を検索すると20位前後におもしろそうなページがまとまって挙げられ
ますが、当該サイトのトップページをみる限りでは特に神戸と関係がありそうにも
見えません。

一方、gooではそのようなことはなく、ファイルサイズが比較的小さく
キーワードが目立つ位置にあるページを上位に挙げるようです。

一般的に言ってInfoseekはことがらを調べるのに向いており、その性格を一層
強めている、と言えるでしょう。ことば調べにはやはりgooが向いているようです。

gooの更新頻度は相変わらずのようです。前回の大更新からそろそろ1ヶ月ですが、
あまり変化はありません。「アジア大会 バンコク 金メダル」で181件、
「紅白歌合戦 久保純子」は67件。微減するのはつながらないURLをデータから
削除しているからかと思ったのですが、微増しているものもあるとすると
その理由は何でしょうね。



infoseek Japan 最新プレスリリース



後藤斉 さんからのコメント

( Date: 1999年 3月 01日 月曜日 16:05:57)


>もっとも、この「判断」には理解しかねるところもあります。
>「神戸」を検索すると20位前後におもしろそうなページがまとまって挙げられ
>ますが、当該サイトのトップページをみる限りでは特に神戸と関係がありそうにも
>見えません。

なるほど、隠しキーワードがありましたか。でも、まだよくわからない。

「上智大学」に対して私のページを一番に挙げてもしかたないと思う。

下にリンクした検索なんて、一体誰が何の目的で行ったのでしょうか。ここから
私のページに飛んできても、困ったでしょうに。
私の方で思い当たるのは「日本笑い学会」へのリンクがあることくらいですが。



笑わせろ > 3月8日 > 千葉



後藤斉 さんからのコメント

( Date: 1999年 3月 01日 月曜日 16:16:34)


>私の方で思い当たるのは「日本笑い学会」へのリンクがあることくらいですが。

この検索は逐次絞り込みをかけた結果のようです。
念のために申し上げると、ヒットする私のページには「千葉」と「笑い」はありますが、
「3月8日」や「笑わせろ」はありません。
つまりInfoseekは単純に文字列を検索しているのではありません。ここからも
ことば調べには不適当だという結論になります。



後藤斉 さんからのコメント

( Date: 1999年 4月 14日 水曜日 17:53:44)


あるところで「画像をクイックする」という表現に出会って驚いたのですが、私が世間知らずだったのですね。
それほど高い比率ではありませんが、空海を研究する会とか大分県海洋水産研究センターとかも含めて
使用層は広い範囲に及んでいるようです。96年8月あたりが古い使用例のようです。

をクイックす OR をクイックし   337件
をクリックす OR をクリックし 241347件

近くに「クリックする」もあるものはキーの押しそこねだろうと推測できますが、「クイックする」が続けて出てくる
場合もあって、どうもそれだけではなさそうです。「押す」という意味の新しい他動詞でしょうか。それとも、
「クイック」(quick)との交差で「押してすばやく移動・送信する(?)」という意味の他動詞が発生しかけているのでしょうか。


クイックしてください



岡島昭浩 さんからのコメント

( Date: 1999年 4月 20日 火曜日 16:04:30)


 今週の日曜日、「ラジオ名作劇場」で森繁久弥氏が、「さいなまされる」と言ったのに違和感を覚えました。原作が有るようですが、それは失念。

gooでは、「さいなまされ」50、「さいなまれ」857。

「さいなむ」と似た意味で「さいなます」を使う、ということでしょうか。

おまけ
「うちひしがられていた」というのをずっと昔に聞いたことが有るのですが、これはgooではヒットせず。



岡島昭浩 さんからのコメント

( Date: 1999年 4月 20日 火曜日 16:13:54)


 ちょっと別の話題に成りますが、その晩ラジオをつけていたのは、第2放送の山口明穂氏を聞き忘れないように、でした。

その中で、山口氏は、「わかりたい」と言った後、「知りたい」と付け加えました。
なお、来週もこの番組は山口氏です。

気になることば「分かりたい」(佐藤さん)



後藤斉 さんからのコメント

( Date: 1999年 5月 12日 水曜日 19:33:16)


gooが模様替えしたようです。通常の検索結果にはこれまでとあまり違ったくせは
ないように見受けられますが、どうでしょうか。(少し反応が鈍かったり、「おまえの
IPアドレスはアクセスさせないよ」と拒絶されたりしましたが、一時的な現象で
あることを望みます。)

ロボットの振る舞いにも改善は見られないようです。昨日あたり、データベースが
更新されましたが、それまで3月15日付けだった私のファイルは4月1日付けのものに
なっただけです。1ヶ月以上の遅れです。gooのロボットはそれ以降私のサイトから
ファイルを持っていっていませんから、次の更新はよほど先になるものと予想されます。



後藤斉 さんからのコメント

( Date: 1999年 5月 17日 月曜日 14:35:50)


誤変換・誤入力がどのくらいの頻度で発生するかの目安になるでしょうか。

ペン      51158
ぺン       143

ペア      29017
ぺア        70

キャンペーン  66362
キャンぺーン    83

ページ    3130353
ぺージ     29142

ホームページ 1583494
ホームぺージ  11515

「ページ」の誤変換・誤入力率は目立って高いようですが、その訳は?


>gooのロボットはそれ以降私のサイトからファイルを持っていっていませんから、
>次の更新はよほど先になるものと予想されます。

#gooのロボットは現在当サイトを訪問中。とすると、データの大更新は3週間ほど
#先でしょうか。



後藤斉 さんからのコメント

( Date: 1999年 5月 18日 火曜日 15:01:23)


>誤変換・誤入力がどのくらいの頻度で発生するかの目安になるでしょうか。

多くのものは1〜4パーミルくらいに収まりそうなのですが、まだ結論を出すのは早そうです。

一石二鳥   3604
一石ニ鳥     5

二枚目    2968
ニ枚目      8

二者択一   2074
ニ者択一     2

二塁打    71405
ニ塁打      4

二の次    2233
ニの次      8

異様に高率なので驚き。

ニ長調   1928
二長調   207

ニ短調   1899
二短調   199



岡島昭浩 さんからのコメント

( Date: 1999年 5月 19日 水曜日 12:25:29)


OCRで入力することが結構多いのですね。そして誤認識をチェックできない、という現状なのですね。

さて、私の方は学内の文書で「○月○日付けでもって」という言い回しを目にしましたので、gooで「付けでもって」を検索したのですが0件。「付けをもって」は24件ありました。

「日でもって」は15件。
「日をもって」は5979件。



後藤斉 さんからのコメント

( Date: 1999年 5月 21日 金曜日 11:57:42)


>OCRで入力することが結構多いのですね。そして誤認識をチェックできない、という現状なのですね。

はい、それはわかるのですが、どの程度の頻度でそれがウェブ上に実際に現れるか、をちょっと
見てみたかったのです。

次のようなものはOCRの誤認識に由来するものであろうと推測でき、せいぜい1パーセントと
いう値を基礎的な頻度として得ることができます。

#コンサートのプログラムをOCRで読み込んでいるのかもしれませんね。

ロ長調    1364
口長調     11
ロ短調    1299
口短調     15

ハ長調    2002
八長調      6
ハ短調    1960
八短調      6

ト長調    1544
卜長調     14
ト短調    1528
卜短調      5

「ニ長調・ニ短調」はこれとは明らかに傾向が違いますが、それを字形の類似の程度の違いに
帰すこともできないように思えます。とすれば、「ニ長調・ニ短調」の場合の頻度の高さは
主としてキーボードからの入力の際の誤変換に起因すると考えられます。同音であることや
あらかじめ単語登録されていない可能性などの原因を考えても、結果として出てきた、ほぼ
1割という誤変換の頻度は異様に高い数値であるように思えるのです。



後藤斉 さんからのコメント

( Date: 1999年 5月 21日 金曜日 15:17:36)


「ヘ」に戻ると、誤変換どころか「ゆれ」とさえ言えるほどの高率になってしまいます。

ヘ長調    1224
へ長調     299
ヘ短調     767
へ短調     177



後藤斉 さんからのコメント

( Date: 1999年 5月 21日 金曜日 17:31:10)


「へ」は助詞の可能性もあるので、短い語句の検索では気をつけねばならなかったのですが、
「長調/短調」の前の「へ」が助詞である可能性は極めて低くて、全体の傾向を左右するほどでは
はないと思っています。以上、念のため追って書き。

#あれ、gooのロボットがまた来ている。4日前に来たばかりなのに。



岡島昭浩 さんからのコメント

( Date: 1999年 5月 21日 金曜日 18:12:39)


>「長調/短調」の前の「へ」が助詞である可能性は極めて低くて、
そうですよね。だからちょっとした校正ソフトのようなものがあれば、こうしたものは減るのでしょうがね。安手のOCRソフトについて来る、文章チェックなどは、つかうと却って変なことになってしまいそうですし。

ワープロに付いている文章チェックも、どの程度のものかは知りませんが、HTMLエディターの類にはあまり文章のチェック機能などはついていないでしょうね。



Yeemar さんからのコメント

( Date: 1999年 5月 21日 金曜日 20:29:31)


関連しますかどうか、不可解なページを見つけました。

冒頭のリーダー部分にご注目を。OCRで読み込んだ結果
こうなったものか、それとも、手書きの原稿をワープ
ロ清書させた結果なのか。

いずれにしても、目立つ個所なので、ふつうは誤字に
気づくはずだと思いますが。


肉縁関係



後藤斉 さんからのコメント

( Date: 1999年 5月 24日 月曜日 13:18:50)


「二格」と「ニ格」といった最小対もあるんですよね。

ところで、現在gooでは「カヴァー」「レヴァー」「コンヴァータ」
「ヴァージョン」「ヴァージニア」など、「ヴァー」のつく語がうまく
ヒットしないようなのですが、これについて何かお気づきの方は
いらっしゃるでしょうか。




小駒勝美 さんからのコメント

( Date: 1999年 5月 25日 火曜日 22:35:40)


思いつきで恐縮ですが

ヘ短調(かたかな)をへ短調(ひらがな)と書く率が非常に高いのは、

へ(無変換)たんちょう(変換)

と打ち込んでしまうことが多いからではないでしょうか。かたかなになら
なくても見た目はほとんど変わらないので見逃してしまいそうです。

同じことは「ページ」(かたかな)と「ぺージ」(ひらがな)でも言える
と思います。
ぺー(無変換)じ(かたかな変換)
とやってしまうケースがけっこうあるような気がします。

ニ短調(かたかな)を二短調(漢字)としてしまうケースは
に(変換)たんちょう(変換)とするのでしょうか。こちらはちょっと
苦しいのですが。



後藤斉 さんからのコメント

( Date: 1999年 5月 26日 水曜日 14:05:45)


他の方々がどういう使い方をしているのか、想像できないところもあるのですが、

>へ(無変換)たんちょう(変換)

もっと長い単位で一発変換したときにデフォルトで「へ」が出て、そのまま確定する、
ということではないかと推測していました。

>ぺー(無変換)じ(かたかな変換)

ううむ、こういうタイミングで変換/無変換キーを押す癖のある人もいるのでしょうか。


以下は、OCRや入力のミスではなく、そう思い込んでいるのでしょう。

ルリユール    21
ルリュール     2

ギヨーム     78
ギョーム     190 (!)

ぎやどぺかどる   6
ぎゃどぺかどる   3 (実質的には1)



後藤斉 さんからのコメント

( Date: 1999年 6月 03日 木曜日 12:55:18)


>ところで、現在gooでは「カヴァー」「レヴァー」「コンヴァータ」
>「ヴァージョン」「ヴァージニア」など、「ヴァー」のつく語がうまく
>ヒットしないようなのですが、

「ファースト」「オファー」「ウーファー」のように「ファー」のつく語もうまく
ヒットしないようなのですが、いかがでしょうか。また、Infoseekによれば
「グァー」「クァー」なども新語や人名としてあるいはオノマトペ(鳥の鳴き声)として
ウェブ上に実際に現れているのですが、gooではこれもヒットしませんね。


>gooのロボットはそれ以降私のサイトからファイルを持っていっていませんから、
>次の更新はよほど先になるものと予想されます。

月がかわって、gooのデータはほぼ2ヶ月遅れになってしまいました。
「松坂大輔」なんかを検索しても4月初めまでのページしかヒットしませんが、
こういうことに対する不満の声はあまり出ないものなのでしょうか。


団藤保晴の「インターネットで読み解く!」第65回「ネット検索に迫っている破綻」



後藤斉 さんからのコメント

( Date: 1999年 6月 03日 木曜日 14:11:28)


>月がかわって、gooのデータはほぼ2ヶ月遅れになってしまいました。

あれ、いつのまにか更新されている。私のファイルは5月21日取得のものになって
いますね。
#5月17日に持っていった分はどうしたのかな。
「松坂大輔」でヒットするのは5月27日あたりが最新でしょうか。



岡島昭浩 さんからのコメント

( Date: 1999年 6月 03日 木曜日 18:11:34)


 いろんなものを同一視してインデックスを小さくしようとしているのでしょうが、ファーが出ないのは困りますね。「ファ」が全部ダメ、というわけではないのが面白いですね。



後藤斉 さんからのコメント

( Date: 1999年 6月 03日 木曜日 19:30:29)


>「ファ」が全部ダメ、というわけではないのが面白いですね。

「ィー」「ゥー」「ぃー」「ぅー」などでは100以上のページがヒットするのに
「ァー」「ぁー」では何もヒットしません。原因はこの組み合わせでしょうね。

単独の「ー」では何もヒットしませんが、かな文字の後に来た「ー」は検索の際に
考慮されます。ここで、「かな文字」という条件が(不適切にも)「ア-ヶ」「あ-ん」として
判定されているのではないでしょうか。(「ヶー」や「んー」はヒットあり。)



岡島昭浩 さんからのコメント

( Date: 1999年 6月 04日 金曜日 10:42:38)


>「ァー」「ぁー」では何もヒットしません。原因はこの組み合わせでしょうね。
なるほど。読みが浅くて失礼しました。

>考慮されます。ここで、「かな文字」という条件が(不適切にも)「ア-ヶ」「あ-ん」として
>判定されているのではないでしょうか。(「ヶー」や「んー」はヒットあり。)
なるほどなるほど。ありそうなことですね。

シフトJISの1バイト片仮名で「ヲァィゥェォャュョッ」を使っている場合の長音符号「ー」との組み合わせはどうなのでしょうね。そもそも1バイトカタカナがどう扱われているのかを探る必要がありますが。自分で1バイト仮名のあるページを作って実験しようとしても、実験開始までに何ヶ月もかかるのであれば困りますね。どこかに変な1バイト文字列のあるページが無いものでしょうか。
直接1バイト仮名を入れると、EUCだと判断されるのかな? うまく検索してくれませんね。



後藤斉 さんからのコメント

( Date: 1999年 6月 04日 金曜日 11:41:23)


「ー」の取り扱い方に関するgooの基準は、なかなか深遠なもののようです。

亜  80819
亜ー    0
唖ー  6867 (「唖」と同数。同様に「娃」「阿」「哀」も後続の「ー」を無視する)
院  118745
院ー   0
陰ー 36682 (「陰」と同数。同様に「陰」「隠」「韻」も後続の「ー」を無視する)



後藤斉 さんからのコメント

( Date: 1999年 6月 04日 金曜日 12:45:52)


「A」で何もヒットしないものだから、アルファベット一文字は原則として検索対象に
しないのかと思っていたら、そうではなくて、「A, C, D, E, M, S」だけが一文字では
検索対象にならないのですね。

この6文字の共通点は何でしょうか。謎だ。

#おやおや、gooのロボットがまた来ている。前回から2週間か。この間隔も謎ですね。



佐藤@岐阜大 さんからのコメント

( Date: 1999年 6月 04日 金曜日 19:03:59)


ちょっと思い立ったので。(以前、どなたかが言及されていたら、ごめんなさい)

おこづかい 1397   貝塚(固有名を含む)かいづか 40
おこずかい 957                かいずか  6

「おこずかい」結構多いのでびっくり。貝塚は、「かいずか」で私のFEPだとゆらぎ変換offでも出て来た……

ここまで許容していたのでしたっけ?



Yeemar さんからのコメント

( Date: 1999年 6月 04日 金曜日 20:19:16)


「ずか」で思い出しましたのでメモとして。

「朝日新聞」は以前は「たからずか(宝塚)」「てずか・おさむ
(手塚治虫)」であり、1989年2月の手塚治虫死去の記事でもそう
なっていて魂消た覚えがあります。

 ところが、同紙はその年の11/11より(大阪本社による)書き方
を変更。その骨子:

 ・「冤罪」「筋腫」「腎臓」「竪穴」「拉致」→使用可能に
 ・「たからずか」→「たからづか」
 ・「黒衣」「語り部」「普段」「可愛い」は漢字を用いる
 ・「逆上る(遡)」「粉(扮)装」は評判が悪いのでやめる



佐藤@岐阜大 さんからのコメント

( Date: 1999年 6月 09日 水曜日 21:46:14)


Yeemarさん、御教示、ありがとうございます。どうも、言語政策まわりは手薄で……

「クイックする」で思い出したのですが、「エキスプローラ」というのもときどき見かけますね。沖縄で水のことを「ワタ」ということがあるということですが(<water)、同じような原音尊重なのかしら。



後藤斉 さんからのコメント

( Date: 1999年 6月 18日 金曜日 22:28:48)


「〇」(漢数字ゼロ)もなかなか不可思議な振る舞いをするようです。
単独ではなにもヒットしないが、数字(漢数字・アラビア数字)の後では
きちんと漢数字ゼロとして扱う。他の文字の後では、「〇」がないものと
してあつかうか、あるいは、なにもヒットしない。(区別の基準は不明。)
ただ、「娃〇」で韓国語ページが(ハングルのコードとたまたま一致したため)
1件ヒットするところをみると、検索対象から外しているわけではないようだ。
なにもヒットしないのは、実際に「亜〇」のような文字列がないからだろう。

「○」(白丸)は、たぶん、句読点と同様の扱いを受け、単独ではなにもヒットせず、
他の文字との組み合わせでは一切無視されているらしい。

#gooのロボットの訪問。また2週間の間隔。この間隔に落ち着くのだろうか。



後藤斉 さんからのコメント

( Date: 1999年 6月 21日 月曜日 11:15:00)


「々」も同様か。
単独では何もヒットしない。「あ々」などのつながりでは無視されて、「あ」と同じ結果が
得られる。大抵の漢字の後では繰り返し記号として扱われる。(でないと佐々木さんが困る。)
「亜々」でなにもヒットしないのは、ウェブ上にそういう文字列がないからなのかもしれない。
「唖々」だと、(意外にも)実際にこの文字列を含むページが数件ヒットする。

しかし、「次々」という文字列がウェブ上にないとはとても思えないのに、ヒット数はゼロ。
ううむ、不思議だ。


>#gooのロボットの訪問。また2週間の間隔。この間隔に落ち着くのだろうか。
と書いたばかりなのに、3日目でまた来ている。



ごとうひとし さんからのコメント

( Date: 1999年 6月 21日 月曜日 11:40:00)


「すず」のヒット数(19542)が「みすず」のヒット数(4167)や「いすず」(1090)より
多いのは当然。「すゞ」のヒット数(688)が「みすゞ」(521)より多いのも当然。
しかし、「いすゞ」の方がさらに多い(5001)のは、なぜ?

#gooのデータがいつのまにか(私のページだと)6月4日取得のものに更新されて
#いました。更新の間隔が短くなっているのならば喜ばしいことです。



岡島昭浩 さんからのコメント

( Date: 1999年 6月 22日 火曜日 13:01:18)


 昨日のニュースで聞いた「脳死になる」というのは、私にはやや馴染まない感じがして、検索したら71件。「脳死する」は20件。私の耳になじんでいる「脳死状態になる」はたった16件。



佐藤@岐阜大 さんからのコメント

( Date: 1999年 6月 25日 金曜日 22:33:34)


インフォシークの話題で、恐縮です。

私のホームページには、インフォシークのデータからキーワード検索ができるボックスをつけています。

「接続」「ケーブル」をそれぞれ検索すると、「インフォシークの日本語サイトデータベースに該当するページが見つかりませんでした」と返してきます。

でも、「ケーブル接続」だと「.日本語サイト 1 - 2( 2件中)」と表示します?!


ことばへの窓



後藤斉 さんからのコメント

( Date: 1999年 7月 06日 火曜日 16:58:03)


Infoseekは「々」を一切無視して検索しているのだろうか。「佐々木」を検索した結果は
「佐 木」を検索するのと同じになり、「We love 木佐彩子」というページが先頭に来る。
「大間々」を検索しても大量の「大間」に隠れてしまう。「野々市」を検索しても
見当違いのものが初めの方に挙がる。


>大抵の漢字の後では繰り返し記号として扱われる。
これは取り消し。「大抵の」とまで言えるかどうか分からない。後続の「々」を無視する
場合も多そう。例えば「明々」(140347)は「々」を無視していて「明」と同じ結果。
「得々」(479904)「夜々」(319371)なども同様。普通単語として使わない組み合わせでは
むしろこのように扱われるのが多いかもしれない。
「次々」の他、「漫々」もヒットなし。


関ヶ原  3801
関ケ原  1003
関が原   201
関ガ原    2


>>#gooのロボットの訪問。また2週間の間隔。この間隔に落ち着くのだろうか。
>と書いたばかりなのに、3日目でまた来ている。

>#gooのデータがいつのまにか(私のページだと)6月4日取得のものに更新されて
>#いました。更新の間隔が短くなっているのならば喜ばしいことです。

またまたいつの間にか6月21日取得のデータに更新されている。6月21日以降gooの
ロボットは来ていないのに。次回のロボット訪問以前に更新されるのは記憶にある
限りでは初めてのこと。gooの更新の間隔は実際に短くなっている!



池田証寿 さんからのコメント

(Date: 1999年 7月 09日 金曜日 13:27:42)


>Infoseekは「々」を一切無視して検索しているのだろうか。
1区1点の" "(和字間隔)から、一般記号の2区94点の◯までの
幾つかを試してみましたが、どれも検索できないようでした。
上の記号類はgooでも検索できないようです。全部試してませんが。



後藤斉 さんからのコメント

( Date: 1999年 7月 09日 金曜日 15:12:13)


>>Infoseekは「々」を一切無視して検索しているのだろうか。
>上の記号類はgooでも検索できないようです。

はい。単独では検索対象にならないようです。そして、このこと自体はごく自然であって、
不思議ではありません。私が問題にしたかったのは、他の文字と組合わさった場合です。

gooでは「時々刻々」「明々白々」などは、きちんと検索できているように見えます。
(少なくとも検索結果の先頭の方を見ている限りは。)他に、普通に単語として使うような
組み合わせも、大体うまく行くようです。

一方、Infoseekで「時々刻々」や「明々白々」を検索しても、それらしいファイルが
ヒットしているようには思えません。そしてヒット件数や先頭付近のページの紹介を
見る限り「時 刻」や「明 白」と同一の結果を出しているようなのです。「佐々木」は
「佐 木」の結果と同じで、「酒々井」も「酒 井」と同じであるように見えます。


ただし、gooの「々」の取り扱い方も一貫していないように思えます。

「上野々スキー場」(35)もきちんと検索されているようです。しかし、単に「上野々」では
「上野」と同じく57638件もヒットしてしまっていて、末尾の「々」を無視して検索している
ようです。

もっとも、Infoseekの方は「ファースト」はきちんと検索できているようです。




池田証寿 さんからのコメント

( Date: 1999年 7月 09日 金曜日 15:51:14)


>私が問題にしたかったのは、他の文字と組合わさった場合です。
なるほど、何を問題にされているかがよく分かりました。
ただ、単独では記号等を検索できないことを、私は
知らなかったもので、はずれてるかなとは思いつつ、
書かせていただきました。



後藤斉 さんからのコメント

( Date: 1999年 7月 09日 金曜日 18:56:13)


独立したメッセージと思われかねない分かりにくい表現をしてしまったようです。私としては
5月23日の「カヴァー」がヒットしないことの指摘からの流れで書いていました。

私の思考の流れを整理すると以下のようになるでしょうか。

(1) gooで「カヴァー」が検索できないことの原因は「ァー」が検索から除かれてしまっている。
(2) さらにその原因は、「ー」が他の文字と組合わさる場合に、検索での「ー」の取り扱い方を
変える条件を適切に指定できていないことによるのではないか。
(3) JISコード表で「ー」と同じ部類(附属書4表4)に属する「ゞ」「〇」「々」などにも
同様の現象があるのではないか。
(4) 他の検索エンジンにha類似の現象があるだろうか。

検索エンジンを運営する側の人が想定する使い方は、言葉を調べることではなく、ことがらを調べる
ことでしょうから、彼らが一般的でないと思う検索語は省いて、検索エンジンの「余分な」負荷を
なくそうとするのは、合理的な選択肢だと思います。一般の記号類は一切検索対象にしなくとも
文句を言う人の数は無視できるでしょうが、「仮名または漢字に準じるもの」は条件によっては検索文字列に
含めなければならないはず。ところが、その条件の指定が必ずしも適切ではない。少なくとも一部
(gooで「ファースト」が検索できないとか、Infoseekでの「々」の取り扱い方とか)はバグと
言ってもいいのないでしょうか。

gooで「a」のヒット数が0件なのに対して「b」は 1307765件だというのは「仕様」だと思うことに
してもいいけれども、なるべく直感に合う仕様が望ましいし、できれば仕様を明らかにして
してほしいものです。



後藤斉 さんからのコメント

( Date: 1999年 7月 09日 金曜日 19:00:46)


すみません。訂正です。。

(1) gooで「カヴァー」が検索できないことの原因は「ァー」が検索から除かれてしまっている
ことにある。
(4) 他の検索エンジンには類似の現象があるだろうか。



南堂久史 さんからのコメント

( Date: 1999年 7月 11日 日曜日 7:34:34)



 goo の検索対象についていろいろと議論がなされていますが、www 検索エンジンの
基本を知っておくことが必要です。
 検索エンジンは、いちいちデータを検索しているのではありません。「全文検索」
技術というものがあり、それを利用します。

 ・ いったんそのファイルの内容を取り込む
 ・ 手持ちの検索辞書の語彙にしたがい、それぞれの語について、検出の有無を
   調べる。
 ・ 検出された語については、index ファイルにURLを記述する。
   たとえば「馬鹿」という用語が私のホームページにあれば、index
   ファイルの「馬鹿」の項目に、そのURLを登録する。
    ( index ファイルは、項目[語彙]ごとの一覧表です。)
 ・ ユーザが調べるときは、index ファイルを見る。その「馬鹿」の項目
   のところにたくさんのURLがあれば、それを出力する。
 ・ 複数の検索語の and 検索では、結果を重ね合わせて、重複を調べる。


 そういうわけで、検索辞書にない単語は無視されます。

 たとえば、辞書にないメチャクチャな言葉は、分割されます。
  例  「馬猫」 → 「馬猫」という項目がない → 「馬」+「猫」の重複

 また、あまりにも多い文字や語は、検出が多すぎるので、項目からはずれます。
  例  「。」
  例  「接続」 (infoseek の場合。)

 上記の組み合わせも同様。
  例  「夢。」 → 「夢」+「。」 → 「。」を排除 → 「夢」

 その他、細かな処理では、検索エンジンのソフトのソフト処理や設定で差が出ます。
 特に、かなの処理や、複合語の処理で、いろいろと個性が出るようです。
 ただ、上の原則で、だいたいのことは説明できます。

   ※ カタカナ語については、いちいち辞書を作るのが大変なので、自動的に
     ひとつの単語と見なすこともあるでしょう。たとえば「ウソノコトバ」
     というカタカナ語をホームページに入れておくと、自動的に登録する
     こともありそうです。

 「々」については、検索用の辞書の設定に差があるのかもしれません。
 国語辞典でも「侃々諤々」は見出し語になく、「侃侃諤諤」が見出し語にあること
があります。このように、見出し語で「々」を使うかどうかは、辞書の設定いかんに
よるのでしょう。
 ただ、ソフト的に処理して同一視する方法もありますが、それはまた別の話。


>「A」で何もヒットしないものだから、アルファベット一文字は原則として検索対象に
> しないのかと思っていたら、そうではなくて、「A, C, D, E, M, S」だけが一文字では
> 検索対象にならないのですね。
> この6文字の共通点は何でしょうか。謎だ。

 アルファベットでは、この文字が頻出するからでしょう。
 本来ならば、ここに「N,T」が加わっていてもよさそうですね。ただ、「多すぎる
語を項目からはずす」のは、はずし方の設定次第で、恣意的ですから、若干の癖があ
るのでしょう。なお、英文で一番多く使われるのは、E です。日本語のローマ字では、
たぶん A でしょう。なぜなら、私のキーボードは A のところだけが酷使されて
壊れたからです。キートップの印刷が磨(す)れてきたのは、「A,K,L,N,M,O」です。

 ※ 全文検索技術はジャストシステムの「インターネットブーメラン」でも使われ
   ています。そばに使っている人がいるでしょうから、見てみるといいでしょう。



岡島昭浩 さんからのコメント

( Date: 1999年 7月 11日 日曜日 14:01:05)


 サーチエンジンに検索システムが有り、手元にあるファイルをgrepしているのとはわけが違う、ということは、ここに書き込んでいる皆さんも御承知のはずです。
 事柄を調べるためのサーチエンジンが、ことばを調べるのにも有効であることから、この会議室でもいろいろ検索して来たわけですが、辞書に載っていないだろう言い回しや、誤字まじりの熟語の類を検索することも可能であるのが、gooの現状であるようです。
 indexファイルを作りながら辞書をも作り上げていってはいるのでしょうが、そうした中で、何故これが検索出来ないのだろう、ということがあります。それを後藤さんが探っていらっしゃるのに……。

 「佐々木」「ファースト」が辞書に無いのに、「それからというものの」を辞書に載せてるとしたら、スゴイですね。



南堂久史 さんからのコメント

( Date: 1999年 7月 12日 月曜日 7:48:25)



 これは失礼しました。私はこの会議室になじみがありませんでしたが、
ここにいるみなさんは全文解析技術にも詳しい人たちばかりだったの
ですね。失礼の段は、お許しのほどを。……

 黙っていたほうがよさそうですが、以下、蛇足を小声で少々。
 (ただの駄弁ですから、読まないですっ飛ばしてください。)


> 「佐々木」「ファースト」が辞書に無いのに、
> 「それからというものの」を辞書に載せてるとしたら、スゴイですね。

 「ファースト」が辞書にないということは、あまり考えられませんが。
(もっとも、「カタカナ語をすべてはずす」ということはありうるが。)

 一例だけなら見落としも考えられますが、二例以上で「ファー」がすべて
ダメだとすると、「辞書にない」という以外の事情が考えられます。
 ちなみに、ネットスケープ3.0 で「ファースト」「レディーファースト」を
シフトJISで入力してから、goo で検索すると、結果画面で、「ファースト」
以下の文字がすべて文字化けします。
  ※ 必ずそうかは断定できず。私がやったときはそうだったが。

 このような事情は、正確に記述した方がいいでしょう。「検索できない」
のではなく、「文字化けして、検索結果が0件になる」のです。「検索でき
ない」というより、「異常な検索がなされる」「検索が異常になる」のです。
検索する以前の入力処理の段階で問題があるようです。
 システム上の問題であって、「辞書にない」以外の理由でしょう。たぶん。

 「佐々木」という人名については、辞書にあるか否かとは別の問題でしょう。
 人名については、辞書にすべてが登録されているわけではないので、たぶん
「辞書にない語」として扱った上で、その語を文字単位に分割して and 検索
してから、検出された対象ファイル内の「辞書にない連続漢字の列」(または
元のファイル全体……*)に対して、キーワードの有無を普通に検索している
のではないか、と推察されます。
 もしそうだとすれば、 and 検索の際に、「々」という記号が漢字と見なさ
れずに対象から漏れてしまえば、上記の操作は正常にできないことになります。
  ( 上の * については全文検索ソフトの実例が確認できました。
    マイナーな全文検索ソフトで、そういうものがあります。)

「それからというものの」を辞書に載せているということは、なさそうです。
先の文では面倒なので示しませんでしたが、日本語形態素解析が行なわれます。
「それから・と・いう・もの・の」または「それから・という・もの・の」という
ふうに解析されるのが普通ですから、あとは、漢字の熟語(「日本・政府」など)
と同様の扱いでしょう。たぶん。
 あるいは、上に述べた人名と同様の処理をしているのかもしれません。


 ※ 以上は推測なので、間違っているかもしれません。その旨、注記しておきます。

 ※ 実をいうと、 goo で問題なのは、カタカナだけではありません。検索で、
   さまざまな文字化けが頻発します。珍しい漢字をいろいろ検索してみると、
   文字化けした文字がいっぱい検出されます。(例「堋」で検索。)
   池田さんなら、たぶん何度も経験しているのではないでしょうか。

 ※ 余談。goo は以前、OSを WindowsNT に変更して、システム上のトラブルが
   続出したことがあった。それと何か関係があるのかもしれない。



後藤斉 さんからのコメント

( Date: 1999年 7月 12日 月曜日 17:32:45)


「蛇足」に対する蛇足。

>珍しい漢字をいろいろ検索してみると、
>文字化けした文字がいっぱい検出されます。(例「堋」で検索。)

「堋」の検索でヒットするページは主にGBコードで書かれた中国語のページのよう
ですが、ここでは奇妙なことに、GBコードの52区36点(「閲」に相当する簡体字)を検索して
いるように思えます。

このようなページ(しかも、jpドメイン内ならまだしも、cnドメインのものさえ)も検索対象に
含まれてしまうのはどうにかしてほしいと思いますが、表面上の文字化けにもかかわらず、
文字コードの「検索」自体としては成功しているとも言えるでしょう。



池田証寿 さんからのコメント

( Date: 1999年 7月 13日 火曜日 10:45:08)


インフォシーク カスタマーサービス担当の畠中陽一様より、
々〆仝等の記号類を単独で検索できない件につき、ご説明を頂戴しましたので、
ここに紹介します。(転載の許可を頂いております。)
---------------
>まれなことではありますが、インフォシークの文節、単語認識システムの都合
>上検索キーワードとして登録できない単語が存在します。
>
>そういった単語の例としては
>・一般的にはほとんど用いられない単語
>・一部の人名
>・一部の記号(特に全角文字)
>
>などがあげられます。
>
>「登録できない単語」は今後インフォシークの改良により減少する予定ですが、
>現状においては検索キーワードとして使用できません。
>大変申し訳ありませんが、ご了承ください。

他の文字と組み合わさる場合については特に質問しませんでしたが、
このBBSを紹介しておきましたので、いずれ、Infoseekの検索
システムに反映されるものと期待されます。



後藤斉 さんからのコメント

( Date: 1999年 7月 13日 火曜日 15:17:46)


私としてはInfoseekが単独の「々」を検索キーワードとして登録できない単語とする
ことはInfoseekの裁量の範囲内であって、ユーザの要望がきかれなくともしかたがないと
思います。

しかし、人は「奈々」を検索するとき、「美奈」や「怜奈」や「安奈」がヒットすることを
期待するでしょうか。このようなヒットのしかたは、Infoseekの本来の使い方から
しても変であって、バグの名に値すると思います。なお、gooは「奈々」については
おおむね期待通りにヒットしてくれており、いろいろな奈々さんのホームぺージや
関連のページが挙がります。


#gooのロボット、22日ぶりの訪問。今度は少し間隔があいた。このデータに更新されるのは
#いつか。




池田証寿 さんからのコメント

( Date: 1999年 7月 13日 火曜日 17:24:51)


細かいことで恐縮ですが、私はInfoseekに対して「々」などの記号類を
単独で検索出来るようにしなければならないと思っているわけではありません。

後藤さんが他の文字と組み合わさった場合について、バグがあるのではないか
と追求されていることは、以前記したとおり、了解したつもりです。

後藤さんが追求されている問いをそのままInfoseekに投げるのは、
僭越と考えまして、私なりに問題を単純化して問い合わせた次第です。
以下、問い合わせメールの内容。必要部分のみ。
>々仝〆などの記号類を単独で検索するとまったく
>ヒットしないのですが、どうしてなのでしょうか。
>ごくまれにですが、〆を持つ人名・地名もあるようで
>検索できるとうれしいのですが。

私の質問の仕方が悪いと言われればそれまでですが、
先に転載した回答は、他の文字と組み合わさった単語も念頭にして
お答え下さったと読めましたので紹介した次第。
そして、Infoseekの方から、このBBSをご覧頂いた旨のメールを
頂戴しましたので、明かなバグについては、近い将来に対応される
ことが期待できると申し上げたかったようなわけです。



後藤斉 さんからのコメント

( Date: 1999年 8月 05日 木曜日 22:08:33)


gooの私のページのデータが7月13日付けのものに更新。gooのロボットの来訪。
3週間以上あいたので、
>gooの更新の間隔は実際に短くなっている!
は取り消した方がよさそうか。

gooウォッチングはこれまでということにします。



後藤斉 さんからのコメント

( Date: 1999年 11月 15日 月曜日 8:47:47)


gooが「リニューアル」したそうですね。少しいじってみました。

「ファースト」「ヴァージニア」「グァー」などは、きちんと検索できるようになっています。
めでたし、めでたし。

「○」でヒットする338231件は、実際に「○」のあるページでしょうか。ここまでしなくともいいのに、
とも思います。

「次々」の検索では、80703件ヒットしていますが、(私の環境では)表示が乱れており、
ヒットしたページを見てもそれらしい文字列は見当たらないものが多いようです。どうなって
いるのでしょうか。

「堋」の検索では、あいかわらず中国語ページがヒットしています。ただし、表示のしかたが
以前と違うかもしれません。(記憶があやふや)



小駒勝美 さんからのコメント

( Date: 2000年 1月 26日 水曜日 13:01:11)


最近、Ringring という検索システムを重宝して使っています。

特長は以下の点です。
(1)検索結果一覧にそのページの先頭ではなく検索語の前後が出る。わざわざ
ページを開かなくても済む。
(2)手元にあるファイルを検索するのと同じように、言葉の一部や記号入りの
文など任意のもので検索できる。(例外があるかもしれませんが今のところ検索
できない例に出会っていません)
(3)アドレスで検索対象を絞れる。
(4)400ページ分まで一度に表示できる。

それに対して欠点は
(i).jp アドレスのページだけが対象なので .com で終わるページは検索でき
ない。
(ii)1文字では検索できない。
(iii)検索結果が大量だったとき400までしか見られない。

「言葉」や「表記」を検索するときには、(2)が特にありがたいです。
その点、私には goo や infoseek よりずっと便利です。

Ringring



小駒勝美 さんからのコメント

( Date: 2000年 1月 31日 月曜日 12:13:50)


青空文庫の検索のページでそれぞれの検索エンジンで「恰度」を検索
しました。検索エンジンによって全部違う結果になりました。

−−−−−−−−−−−−−−リ−シ−ナ−グ
1渡辺温:花嫁の訂正−−−−○−○−○−○
2渡辺温:象牙の牌−−−−−○−○−○−○
3渡辺温:或る母の話−−−−○−○−○−○
4赤い蝋燭・最後の胡弓弾き−○−○−○−○
5渡辺温:父を失う話−−−−○−○−○−○
6渡辺温:嘘−−−−−−−−○−○−○−×
7失楽園殺人事件−−−−−−○−○−×−○
8在りし日の歌−−−−−−−○−○−×−○
9手袋を買いに・童話にお…−○−×−○−○
10渡辺温:恋・兵隊の死−−−○−×−○−×
11怠惰屋の弟子入り−−−−−○−×−×−○
12骨を削りつつ歩む−−−−−○−×−×−○
13運命論者−−−−−−−−−○−×−×−○
14職工と微笑−−−−−−−−×−○−×−○
15石清虚−−−−−−−−−−○−×−×−×
16渡辺温:少女−−−−−−−○−×−×−×
17国木田独歩:恋をする人−−○−×−×−×
18狂童女の恋−−−−−−−−○−×−×−×
19銀河鉄道の夜−−−−−−−×−○−×−×
20虚構の春−−−−−−−−−×−×−×−○
ヒット数−−−−−−−−−−17−10−8−13

リ:Ringring
シ:infoseek
ナ:INFONAVIGATOR
グ:goo

検索の対象は全部同じなのに不思議ですね。

青空文庫検索ページ



後藤斉 さんからのコメント

( Date: 2000年 2月 02日 水曜日 9:33:17)


>検索の対象は全部同じ
とは言い切れないのかもしれませんね。

なお、「青空文庫検索ページ」を利用して「次々」を検索すると、
リ:29、シ:1、ナ:3、グ:4という結果が出ます。ここでも、Ringringの
性格が際だっているようです。

ところで、gooの4のうち、
http://www.aozora.gr.jp/cards/dazai/htmlfiles/sanetomo.html
はいいのですが、残りの
http://www.aozora.gr.jp/cards/htmlban/teikoku.html
http://www.aozora.gr.jp/cards/dazai/htmlfiles/souseiki.html
http://www.aozora.gr.jp/cards/kidou/htmlfiles/kaninookaku.html
には「次々」はなさそうです。どうしてこのようなことが起きるのでしょうか。



小駒勝美 さんからのコメント

( Date: 2000年 2月 02日 水曜日 18:40:44)


検索エンジン Ringring について「手元にあるファイルを検索するのと同
じように、言葉の一部や記号入りの文など任意のもので検索できる。」と
書きましたが、その後、いくつか検索できないケースを見つけました。

(1)スペースを検索条件の中に入れて「ま す」などで検索すると「0ペ
ージがヒットしました。」と出ます。
(2)「せん」「ん。」「です。」などものすごく結果が多くなりそうなも
ので検索すると「Abort trap」の表示が出て検索できません。
(3)「ありません」など、かなり多そうなもので検索すると「Cputime
limit exceeded」の表示が出るか、「ただいま大変混みあっています。」
と出るようです。
Ringring で「ただいま大変混みあっています。」が出るのは混雑度だけが
原因ではないような気がします。

ただし、このようなものが検索できなくても実用には差し支えないと思いま
す。



後藤斉 さんからのコメント

( Date: 2000年 2月 21日 月曜日 4:59:04)


Ringringは「ちかぢか閉鎖」の由。



小駒勝美 さんからのコメント

( Date: 2000年 5月 26日 金曜日 19:22:25)


ここ一月くらい閉鎖されていたRingringが5月21日から復活しました。
今までと違ってアドレスで検索対象を絞れなくなりましたが、一度に
1000ページを表示できるようになったのはのはありがたいです。

Ringring



後藤斉 さんからのコメント

( Date: 2000年 7月 27日 木曜日 12:26:26)


>「次々」の検索では、80703件ヒットしていますが、(私の環境では)表示が乱れており、
>ヒットしたページを見てもそれらしい文字列は見当たらないものが多いようです。どうなって
>いるのでしょうか。

ヒット数は格段に増加していますが、同様の症状が続いています。他に区点コードで01点に
位置する漢字と「々」の組み合わせでも同様の症状が発生するような気がします。
(EUCコードで二バイト目がA1というところに意味があるでしょうか。)

「亜々」、「院々」「押々」など、あまりありそうにない組み合わせもありますが、Ringringや
Infonavigatorは実際にこのような文字列が現れているページをヒットさせているようです。




後藤斉 さんからのコメント

( Date: 2000年 7月 29日 土曜日 18:08:40)


>(EUCコードで二バイト目がA1というところに意味があるでしょうか。)

ああ、BCA1A1B9でA1A1を全角スペースとみなしてはずしてしまっておかしくなる、という
可能性がありますか。以前「ファースト」などがうまく検索できなかったのも、これが原因かも
しれない。

いまでも「ふぁーすと」はヒットなし。(InfoseekやRingringによれば、ひらがな表記の
「ふぁーすと」もウェブ上に結構あるようです。)

ただ、異様な結果を返すのとヒットなしという違いがあるので、原因が同じではないのかも
しれない。




後藤斉 さんからのコメント

( Date: 2000年 8月 09日 水曜日 9:50:23)


>「次々」の検索では、80703件ヒットしていますが、(私の環境では)表示が乱れており、
>ヒットしたページを見てもそれらしい文字列は見当たらないものが多いようです。どうなって
>いるのでしょうか。

この表示の乱れは、EUCコードで書かれたページを無理やりShiftJISで表示していることに
よるように思えるのですが。コードからEUCと自動判別できず、x-euc-jpと宣言していないような
ページがShiftJISとして検索・表示されているのではないでしょうか(ただし、確証はない)。

>ああ、BCA1A1B9でA1A1を全角スペースとみなしてはずしてしまっておかしくなる、という
>可能性がありますか。

「次々」のヒットは「シ ケ」(半角のSJISコードはBCとB9)のヒットと同じ結果であるようです。
カタカナの全角と半角を同一視して検索すれば、ShiftJISとして解釈したEUCページが
カタカナの比率が多いものとして上位にランクされることになるのでしょう「異様な結果は
これで説明がつきそうです。

ただ、まだ疑問点はあります。

後藤斉 さんからのコメント

(Date: 2000年 8月 10日 木曜日 17:15:34)


>>ああ、BCA1A1B9でA1A1を全角スペースとみなしてはずしてしまっておかしくなる、という
>>可能性がありますか。
>「次々」のヒットは「シ ケ」(半角のSJISコードはBCとB9)のヒットと同じ結果であるようです。
>カタカナの全角と半角を同一視して検索すれば、ShiftJISとして解釈したEUCページが
>カタカナの比率が多いものとして上位にランクされることになるのでしょう「異様な結果は
>これで説明がつきそうです。

最後の部分は、「なるのでしょう。「異様な結果」は…」のつもりでした。

さて、EUCでA1A1の連続(区点コードで01点字と01区字の連続)がgooの検索の
「異様な結果」の原因であるとすれば、「次々」以外にも問題になる組み合わせが
あることが予測できます。

「一勝〇敗」「二勝〇敗」等々はRingringによればウェブ上にあるのですが、gooでは
ダメですね。

「鼻」       61
。ヨノ ラ    61 (同一結果であるらしい)

書名であることを明示しようとして「」や『』でくくると失敗する。
(01点字以外なら問題なく「」『』を含めて検索していると思われます。)

憲法 権利      0
憲法 権利    10511
権利 憲法    10512
権利 憲法    10512

警察 事件      0
警察 事件    43823
事件 警察    43822
事件 警察    43822

「 」(和字間隔、「全角スペース」)はgooでキーワードの区切りとして扱われているようですが、
01点字の後では問題が起きています。複数の文字コードに対応し、しかも、「全角スペース」も
キーワードの区切りとして許容しようとしているために、事態が複雑になっているのでしょう。

「日本語対応アルタビスタサーチ」は明示的に「全角スペースは区切り文字として使用できません」
と言っていますが、そう割り切れないという判断がgooにはあるのでしょうね。


#ところで、いつごろからか、gooのロボットは私のサイトを3日おきに訪問するようになったようです。
#他のサイトもこんなに頻繁に訪れているのでしょうか。それにしては、インデクシングがそれに
#追いつけないのか、データベースの更新は一ヶ月以上行われていないようですが。



後藤斉 さんからのコメント

( Date: 2000年 8月 11日 金曜日 16:50:57)


検索文字列についても、gooはSJISとEUCを取り違えておもしろい振る舞いをすることが
あるようです。

現在のgooは、記号類や第二水準漢字もおおむね検索文字として受け付けているようです。
例えば、以前話題になった「蕭」は、問題なさそうです。もちろん「茅野蕭々」や「蕭々」も
同様です。

しかし、「萬」はうまくいきません。これを検索すると、どういうわけか検索文字が「籟」と表示されて
ヒットはゼロです。そのまままた検索すると、今度は「瞼」に表示が変わって、ヒットは10599。
続けて検索すると「痊」に変わり、ヒット数234。これ以上は変化しません。

この現象は、「萬」のSJISコードがE4DD、「籟」のEUCコードがE4DD、SJISコードがE2DB、
「瞼」のEUCコードがE2DB、SJISコードがE1D9、「痊」のEUCコードがE1D9、SJISコードが
E178である、ということからその原因を推測することができそうです。
(「籟」のヒットなしというのは、字義通りに受け取っていいものやら)

一般に、検索文字列が、SJISで第一バイトE0以降、第二バイトA1以降の文字のみで
構成されているとき、gooは受け取った検索文字列をEUCと解釈してしまうようです。

鮟鱇        0 (「藥蛬」と表示される。)
鮟鱇鍋      58
鮟鱇なべ      1
あんこう鍋   556
あんこうなべ   19

他に、「珈琲」「蒟蒻」「魍魎」「蟷螂」「琥珀」「霹靂」等でも同様の現象が発生します。

奇妙なことに、「珈琲」と入力したとき実行される「獻琥」の検索でヒットするページには
実際にこの文字列が某コーヒー業者の社名の一部として現れています。当該のページの
作成の過程で起きたのでしょうが、どうしてこのような誤りが発生するのでしょうか。同種の
誤りは他にも見られるのですが。



速報! 大会リポート '99 ITU トライアスロン・ワールドカップ石垣島大会



後藤斉 さんからのコメント

( Date: 2000年 8月 11日 金曜日 16:51:45)


検索文字列についても、gooはSJISとEUCを取り違えておもしろい振る舞いをすることが
あるようです。

現在のgooは、記号類や第二水準漢字もおおむね検索文字として受け付けているようです。
例えば、以前話題になった「蕭」は、問題なさそうです。もちろん「茅野蕭々」や「蕭々」も
同様です。

しかし、「萬」はうまくいきません。これを検索すると、どういうわけか検索文字が「籟」と表示されて
ヒットはゼロです。そのまままた検索すると、今度は「瞼」に表示が変わって、ヒットは10599。
続けて検索すると「痊」に変わり、ヒット数234。これ以上は変化しません。

この現象は、「萬」のSJISコードがE4DD、「籟」のEUCコードがE4DD、SJISコードがE2DB、
「瞼」のEUCコードがE2DB、SJISコードがE1D9、「痊」のEUCコードがE1D9、SJISコードが
E178である、ということからその原因を推測することができそうです。
(「籟」のヒットなしというのは、字義通りに受け取っていいものやら)

一般に、検索文字列が、SJISで第一バイトE0以降、第二バイトA1以降の文字のみで
構成されているとき、gooは受け取った検索文字列をEUCと解釈してしまうようです。

鮟鱇        0 (「藥蛬」と表示される。)
鮟鱇鍋      58
鮟鱇なべ      1
あんこう鍋   556
あんこうなべ   19

他に、「珈琲」「蒟蒻」「魍魎」「蟷螂」「琥珀」「霹靂」等でも同様の現象が発生します。

奇妙なことに、「珈琲」と入力したとき実行される「獻琥」の検索でヒットするページには
実際にこの文字列が某コーヒー業者の社名の一部として現れています。当該のページの
作成の過程で起きたのでしょうが、どうしてこのような誤りが発生するのでしょうか。同種の
誤りは他にも見られるのですが。



速報! 大会リポート '99 ITU トライアスロン・ワールドカップ石垣島大会



後藤斉 さんからのコメント

( Date: 2000年 8月 11日 金曜日 16:53:19)


同文を二回書き込んでしまいました。失礼しました。



後藤斉 さんからのコメント

( Date: 2000年 8月 30日 水曜日 12:42:09)


昨日あたりgooのデータベースが更新されたのに伴い、検索の癖も大幅に変わったようです。

現在、当方の環境では、「電気」「電子」「新聞」「教室」「世界」「コンピュータ」などがいずれも
ヒット数ゼロになります。あまりにヒット数が多いので検索対象からはずしたのでしょうか。しかし、
サーチエンジンの普通の使い方から見てもこれはかなり不便だと思います。

その他にも単語の切り分け方に起因していそうな新しい癖があります。
gooも数調べには向かなくなってきています。



後藤斉 さんからのコメント

( Date: 2000年 8月 30日 水曜日 14:05:35)


>現在、当方の環境では、「電気」「電子」「新聞」「教室」「世界」「コンピュータ」などがいずれも
>ヒット数ゼロになります。

他にダメなもの:「講義」「大学」「学生」「専門」「学」「学園」「試験」
「企業」「機関」「株式」「就職」「国際」「経済」「安全」
「インターネット」「サイト」「技術」「工業」「満載」「駅前」「クラブ」「英語」
「旅行」「時刻」「時間」「新宿」「コーヒー」「キー」「ニュース」

これらが検索語の一部として使われている場合も要注意です。「大学院」の
検索結果は「院」の結果とほぼ同じ(多少違うが、理由は不明)。「英語教育」と
「教育」の関係も同様。「新宿区役所」を検索しても他の区役所がヒットする。
これでは、サーチエンジンとしての利用価値にも疑問が出るのではなかろうか。

なお、「学校」「学院」「研究」「会社」「日本」「情報」「ページ」「リンク」「プロバイダ」などは
OKです。頻度だけが理由ではないかもしれない。



後藤斉 さんからのコメント

( Date: 2000年 8月 30日 水曜日 14:55:17)


>他にダメなもの:

追加

「チケット」「ビジネス」「プレゼント」「サーチ」「仕事」「映画」「フリー」「パソコン」「海外」
「ドライブ」「家」「人材」「グルメ」
gooのトップメニューの項目に関係ある語句がダメなのかとも思いましたが、それだけでも
なさそうです。
「活用」「用語」「論文」「知識」「注意」「方法」「入門」「女子」「男子」「勤務」「設備」「普及」
「普及」「完全」「スーツ」

疲れたのでこれくらいにしますが、gooは一体どのような方針転換をしたのでしょうか。



後藤斉 さんからのコメント

( Date: 2000年 8月 31日 木曜日 10:59:27)


さらに追加

「社会」「団体」「会員」「会場」「管理」「運営」「運用」「事務」「人事」「採用」「事業」「募集」「交差」
「調査」「アンケート」「相談」「発表」「講演」「教養」「資料」「出版」「速報」「レポート」「問題」「制度」
「対応」「参加」「準備」「体験」「自由」「反対」「「環境」「スタッフ」「実習」「時代」「金融」「日記」「掲示」
「主題」「日常」「便利」「主要」全般」
「デジタル」「ネット」「リサイクル」「トップ」「アップ」「チェック」「アドレス」「マガジン」「リスト」
「ナンバー」
「述語」「修飾」「構造」「副詞」
「史」「財」「用」「権」「板」「点」「線」「名」「表」「店」「句」

なんとなく、傾向が見えないでもないが、同じジャンルに属していそうなのに検索できる語
(「社員」「計算」「研究」「メール」「紹介」「番号」など)も多い(というか、検索できて当たり前)。
gooにとって検索上邪魔な語を排除したつもりかもしれないが、基準が分からない。
一般の利用者としては、信頼して使うのは難しいのではないか。

国語     25294
国語学    25300
国語史    25281
国語学史  25281

(「学」も「史」も上のリストにあることに注意。ちなみに「英語学史」「経済学史」はゼロ。)
この数字をどう解釈すればいいのだろうか。

これとは別に、SJISで8EA0〜8EDFの漢字(「自」「式」「社」「者」など)はEUCの半角かなと
解釈されてしまい、うまく検索できないようだ。「自社」「実質」「痔疾」「車軸」「実写」「自社車」
「湿式」などの熟語も同様。



後藤斉 さんからのコメント

( Date: 2000年 8月 31日 木曜日 12:31:53)


>「述語」「修飾」「構造」「副詞」

これは「構造」以外は撤回。gooがbusyかなにかでうまく返事をくれなかったのか、私の
ミスか。ダブルチェックはいれていませんので、適宜ご自身でご確認下さい。

さらに追加。
「中止」「業界」「委員」「事故」「決算」「次第」「商品」「ハウス」「高田」「屋」




後藤斉 さんからのコメント

( Date: 2000年 9月 01日 金曜日 12:08:56)


>これは「構造」以外は撤回。gooがbusyかなにかでうまく返事をくれなかったのか、私の
>ミスか。

今見ると、「英語」「経済」「新宿」業界」「出版」など、検索できるようになっています。「社会」
「コンピュータ」「アンケート」「大学」などは依然としてダメです。また「公開」「ワード」などもダメな
ようです。gooのシステムが不安定なのか、すこしずつ対策をとりつつあるか、なのでしょう。
それでも、
英語       48585
というヒット数は多少少ないような気がします。
英語学        16
は、そのままでは信じられないくらいに少ない。
英語学研究 4580000
にはたまげてしまう。これは
研究     4691658
とどういう関係にあるのだろう。「研究」が400万以上というのは多すぎるような気もする。

レスポンスは早くなったように感じるが、とにかく検索結果の信頼性が疑わしいようでは
意味がない。


#8月11日に書いたように、「鮟鱇」はそのままでは検索できません。「デジタル鮟鱇」「株式鮟鱇」
#のように排除語をつけてやると「鮟鱇」を含むページ(63件)がめでたくヒットします。



後藤斉 さんからのコメント
( Date: 2004年 02月 05日 木曜日 12:49:15)

最近はGoogleを使うのが普通になりました。サーチエンジンによる

検索は、広い範囲での使用例を集めるのには有効ですが、マッチした

件数は何を意味するかは、サーチエンジンの癖によって違い、さまざまな

偶然的要因に左右されます。件数は、おおざっぱな傾向をしる下調べとしては

役に立つかもしれませんが、生の数字は慎重に扱うほうがいいと思っています。


Googleで「ロマンス "Romance Studies" gothit」を検索すると私の

http://www.sal.tohoku.ac.jp/~gothit/romance.html が

ヒットしますが、このページは

<HTML LANG="en"≷

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=iso-8859-1">

と書いている通り、日本語は一切使っていませんし、過去にも使ったことは

ありません。



Google [



後藤斉 さんからのコメント
( Date: 2004年 02月 05日 木曜日 12:52:57)

途中で書き込んでしまいました。上のリンク先はGoogleでの「18歳未満」の

検索結果です。Yahoo! Japan のトップページが先頭に表示されますが、

このページには「18歳未満」という文字列はないはずです。


なぜこのようなことが起きるかを理解するには、Googleの癖を知る必要が

あります。



Yeemar さんからのコメント
( Date: 2004年 02月 06日 金曜日 00:58:37)

Google内に溜められている「Romance Linguistics」のキャッシュを見ますと、冒頭に

These terms only appear in links pointing to this page: ????
と表示されています。この「????」は文字化けで「ロマンス」なのでしょうね。つまり、どこかのサイトが「Romance Linguistics」にリンクを張る際、「<A HREF="http:.....">ロマンスなんとか……</A>」というふうに記しているのだと理解してよろしいのでしょう。


「18歳未満」も同様で、Googleのキャッシュに

これらのキーワードは、このページにむけて張られているリンクに含まれています: 18 歳 未満
と書かれていますね。どこかのサイトで、「18歳未満」の文字をクリックするとYahoo!に飛ばされることになっているのでしょうね。どのような種類のサイトかは、容易にわかります。


Googleで語句検索をしていると、よくこのようなケース(キーワードが当該ページになく、そこにリンクしている他ページにある場合)に出会います。しからばその他ページはどのページかということが分からず、困ります。



hiroy さんからのコメント
( Date: 2004年 02月 06日 金曜日 03:27:22)

Googleのリンク検索(link:)を使うとリンク元を検索できますが、これ

を通常のキーワード検索と組み合わせて使えれば便利そうですよね

(例えば、「link:yahoo.co.jp」と「18歳未満」を同時に検索、とか)。

Googleのヘルプによると、このような検索は現状できないようです。


「ロマンス "Romance Studies" gothit」での検索結果は、サイト内

からのリンクのアンカーテキスト「ロマンス語学関連WWWサイト」が

効いているようですね。


このリンク検索機能、Googleのヘルプでは、

「例えば、"link:www.google.com"は、Google のホームページにリンク

しているすべてのページが表示されます」と言い切っているのですが、

本当に「全ての」リンク元(Googleインデックス内にしても)を検索する

ことができるのかは疑問です。所詮、検証のしようがないのですが……。



後藤斉 さんからのコメント
( Date: 2004年 02月 06日 金曜日 09:29:56)

>「ロマンス "Romance Studies" gothit」での検索結果は、サイト内

>からのリンクのアンカーテキスト「ロマンス語学関連WWWサイト」が

>効いているようですね。

はい、明らかにそう考えられます。


>キーワードが当該ページになく、そこにリンクしている他ページにある場合

他にも理由はありますが、「件数」の数字は、このようなGoogleの癖を

理解した上で慎重に扱うべきでしょう。複数の語句の「件数」を比較する

場合は特にそうです。


>本当に「全ての」リンク元(Googleインデックス内にしても)を検索する

>ことができるのかは疑問です。所詮、検証のしようがないのですが……。

いえ、否であることが検証できます。

Googleでの「gothit net_law」の検索結果には「情報倫理学とは」

http://home.hiroshima-u.ac.jp/er/Etc_JK_JR.html

が含まれており、

http://www.sal.tohoku.ac.jp/~gothit/net_law.html

に対してリンクが張られていることが確認できますが、

link:http://www.sal.tohoku.ac.jp/~gothit/net_law.html

の検索結果には上記広島大学のページは含まれていません。

link:http://www.sal.tohoku.ac.jp/~gothit/net_law.html



後藤斉 さんからのコメント
( Date: 2004年 02月 06日 金曜日 18:25:16)

Googleでは、フレーズ検索においてさえ句読点が無視される場合がある

(厳密な発生条件は不明)ことも、Googleを使う際の注意事項として

ここでついでに指摘しておきます。

"食べたから" site:higa2.hp.infoseek.co.jp



hiroy さんからのコメント
( Date: 2004年 02月 07日 土曜日 07:42:39)

後藤さん、実例の提示ありがとうございました。「全てでない」ことを

検証するのは反例を1つだけ調べればいいので難しくはなかったですね。

しかしそのような結果となるということは、キーワード検索のインデッ

クスとリンク検索のインデックス(PageRankに利用?)があり、それらの

収集ページ数に格差があるのか、リンクの取りこぼし(または敢えて無視)

があるのか、あるいはリンク検索の結果を表示する際に端折られている

のか……。


Yeemerさんの例にもありますが、Googleがどのようにフレーズを分解して

いるかは、キャッシュを見るとその一端を垣間見ることができますね。

カタカナの表記ゆれについても、例えば「水の都ベネチア」で検索すると、


これらのキーワードがハイライトされています: 水 の 都 ベネチア|ヴェネチア


という結果を得ることができます。ところが「ベネチア」あるいは「ヴェネチア」

と単独で検索すると、正規化はされているようですが、キャッシュのヘッダ部

を見ても他の候補は表示されません。単独の場合でも、「ベネチア|ヴェネチア」

と表示されることを期待してしまうのですが。しかし逆に、他の候補を見たい場合

は、何か言葉を付け加えてフレーズにすればいいのかも知れません。

ちなみに「ベネチア」と「ヴェネチア」の検索結果は1ページ目だけを見ると

同じように見えますが、ヒット件数は異なります。



後藤斉 さんからのコメント
( Date: 2004年 02月 07日 土曜日 19:34:29)

「ウィ/ウイ」も「べ/ヴェ」と似たような振る舞いをするようです。単独で

「ウィスキー」をキーワードにしても「ウイスキー」が検索され、キャッシュの

ヘッダにもそれしか表示されませんが、「ウィスキー工場」の検索では

「ウィスキー|ウイスキー 工場」となります。


ところで、現在のGoogleで「〇」(漢数字ゼロ)や「々」はどういう扱いを

受けているのでしょう。utf-8を通すとまずいのでしょうか。


Google: 次々



hiroy さんからのコメント
( Date: 2004年 02月 08日 日曜日 02:48:28)

「々」や「〇」はストップ語のように思えるのですが、英単語のストップ語

とはまた扱いが違うようです。Googleのヘルプに書いてあるように"+"を

付けて検索しても、効果がありません。フレーズ検索も効きません。


有名な「IT革命」の例では、


"IT" は一般すぎる言葉のため、 検索には使用されていません。 [ 詳細 ]


と親切にも検索結果のページで説明してくれ、"+"やフレーズ検索も機能する

ようです。


日本語版の機能は英語版に後付けされていると思われますが、そのため

英語版で提供される機能が効かない部分があるのかも知れませんね。


ところで今回初めて気が付いたのですが、IE (6.0SP1)で「々」を検索

(Ctrl-F)すると「ー」がヒットします。逆に「ー」で検索しても「々」が

ヒットして、同一に見做しているように見えます。メモ帳やMozilla(1.5)

では正しく検索できます。この件についてGoogleで調べようと思ったの

ですが、正しく検索できません(^^;。



hiroy さんからのコメント
( Date: 2004年 02月 08日 日曜日 08:33:01)

その後ちょっとだけ確認してみました。

場当たり的で申し訳ありませんが、報告しておきます。


現在Googleでは概ね次のようになるようです(キャッシュで確認)。


・検索後中の「々」は省略される → 「酒々井」は「酒 井」に「佐々木」は「佐 木」となる。

・検索後中の「ゝ」「ゞ」「ヽ」「ヾ」は文字通り検索 → 「あゝ」、「すゞらん」はそのまま。


「酒 井」または「佐 木」と分解されても、キーワード同士の距離が勘案されてラン

キングされるため、実用上は概ね求める結果が得られるようです。但し「次々」の

ように「々」が最後にくるケースや、「々」が連続するケースでは上手くいきません。

「々」と「ゝ」「ゞ」「ヽ」「ヾ」とで扱いが異なるのは、興味深いところです。


また、IE (6.0SP2/Windows XP)の検索(Ctrl-F)についても簡単に確認してみました。


・「ヾ」「ヽ」「ゞ」「ゝ」「々」「ー」

 → 同一と見做される(「大文字と小文字を区別する」は無関係)

・但し単語で検索の場合は全ての区別する。

 つまり「佐々木」「酒々井」「すゞらん」「佐ー木」「酒ー井」「すーらん」は全て区別される。

 但し「すゞらん」と「すヾらん」は区別されない。「すゞらん」と「スヾラン」とは区別される。


・「-」と「−」、「A」と「A」(半角と全角)

 → 「大文字と小文字を区別する」がONだと区別、OFFだと区別しない。

・単語で検索の場合も同様。

 つまり「プロジェクトA」と「プロジェクトA」、「ア-」と「ア−」

 を区別するかどうかは「大文字と小文字を区別する」の設定に依存する。



後藤斉 さんからのコメント
( Date: 2004年 02月 08日 日曜日 18:06:48)

>「酒 井」または「佐 木」と分解されても、キーワード同士の距離が勘案されてラン

キングされるため、実用上は概ね求める結果が得られるようです。


Google本来の使い方としては実用上概ね差し支えないのですが、その「件数」は

「酒々井」や「佐々木」のヒット数ではなく、あくまで「酒 井」や「佐 木」の

ヒット数であるわけです。


「二〇〇三」がうまく検索できないというのは、Google本来の使い方からしても

不都合だと思うのですが。


「大間町」検索の「件数」は「大間々町」の検索と微妙に違うようですが、

上位に表示されるのはほぼ共通で、トップはいずれの場合も「群馬県大間々町

ホームページ」です。

Google: 大間町



hiroy さんからのコメント
( Date: 2004年 02月 09日 月曜日 00:29:45)

「二〇〇三」がうまく検索できないのは困りますね。

"+"が正しく機能してくれればいいのですが。


数調べの目的で使用する場合、「大間町」の例のように、検索語自身に

「々」等のストップ語(?)が含まれなくても、検索結果には含まれてしまう

可能性がある、という点は要注意なのですね。


ところで昨年12月にGoogleをベースとしたgooの新検索サービスが始まり、

表記ゆれや送り仮名等、日本語固有の問題についての対処が強化された、

とのことなのですが、「二〇〇三」や「大間町」については、少なくとも

1ページ目だけを見る限り、Googleと同じような振る舞いをします。但し

goo固有の日本語処理も効いてはいるようで、件数はGoogleと異なる場合が

多いようです(日本語の問題よりもPageRankの方が優先されるため、1ページ

目だけを見ても違いが分からないことが多いのかも知れません)。



後藤斉 さんからのコメント
( Date: 2004年 02月 09日 月曜日 16:58:28)

4ヶ月ほど前(2003年10月05日)に「大学で目についたことば、耳にしたことば」のスレッドでGoogleの注意点に関連して

>下のリンクの検索結果は、現在、396件となっていますが、

>これは現在のGoogleのくせといくつかの偶然が複合した結果であり、ちょっと

>事情が変われば、一桁になったり、ゼロになったりするかもしれません。

>Googleの「件数」はその程度(あるいはその数倍の)変動は見越しておく

>必要のある数字なのです。

と書いた「"上回生" dosanko」の検索結果は、やはりすでに「見つかりません」

になってしまっていました。


>数調べの目的で使用する場合、「大間町」の例のように、検索語自身に

>「々」等のストップ語(?)が含まれなくても、検索結果には含まれてしまう

>可能性がある、という点は要注意なのですね。


はい、検索する人がまったく意図しないし、意識もしないだろうものが検索対象になっている、

というのがここでの問題点です。「大間町」の場合には1ページ目の表示でおかしな結果に

気がつくことは容易ですが、常にそうとは限りません。下のリンク先の用例はサイトを

限定しない検索であれば大量の「山です」に埋もれてしまっているはずです。


こういったことが個々の検索事例の「件数」にどの程度影響しているかを知ることはなかなか

困難であるように思えます。

Google: "山です" site:board.biglobe.ne.jp



hiroy さんからのコメント
( Date: 2004年 02月 10日 火曜日 08:04:04)

「山です -"山々"」と検索しても「-"山"」と見做されるようで、ヒット

件数0となります。「山です -"々"」とすると、「山です」の結果と同じ

ように見えます。"+"やフレーズ検索の場合と同様に、"-"もまた「々」

に対しては無力のようです。


また"-"演算子自身も要注意のようで、Googleのヘルプにあるように

「オリンピック -冬季」で検索すると「冬季」を含まないページがヒット

するようなのですが、「オリンピック -冬」で検索すると、「冬季」等

の言葉を含むページもヒットしてしまいます。Googleが何をキーワードと

見做して区別しているかが分からないと、使いこなすのが難しいですね。


後藤さんが仰られているように、Googleを使って大雑把な目安を調べる

のは問題ないと思いますが、その場合でもなるべく""で囲む(フレーズ

検索にする)ようにすることが肝要かな、と思いました。""で囲まずに

検索語が分解されてしまう場合は、検索語にもよりますが、そのヒット

件数はかなり(場合によっては数倍、数十倍に)水増しされていそうです。


「18歳未満」 →「18 歳 未満」 →約390,000件

「"18歳未満"」→「"18 歳 未満"」→約172,000件


フレーズ検索にすると検索語の分解は行われるものの、分解されたキー

ワード間の距離がより重視されるようになる結果、完璧ではありませんが、

""無しで検索するよりは期待するヒット数に近い数字が得られるように

思われます。



NISHIO さんからのコメント
( Date: 2004年 02月 10日 火曜日 16:59:17)

"" で囲んだ場合とそうでない場合の誤差が大きい顕著な例が、道浦俊彦さんの「平成ことば事情」でとりあげられている下記のことばです。


店休日   約375,000件 (2004/1/30時点では「店休日」が37万1000件)

"店 休 日" 約341,000件

"店 休日"  約375,000件

"店休 日"    約867件

"店休日"   約27,600件


休店日   約345,000件 (2004/2/2時点では「休店日」が34万5000件)

"休 店 日" 約345,000件

"休 店日"  約346,000件

"休店 日"   約4,270件

"休店日"    約4,270件


googleでは「休日」以外は単語として認識していない?


◆ことばの話1572「店休日」



後藤斉 さんからのコメント
( Date: 2004年 02月 10日 火曜日 22:43:49)

2003年9月30日

打設   39万件

"打設"  約22,900件

2004年2月10日

打設   約252,000件

"打設"  約 20,900件

も十数倍の違いを示します。数ヶ月を経ての数字の変動を記録する意味で挙げておきます。


「休店日」くらいの数だと、

"休店日" -site:jp 540

"休店日" site:ne.jp 314

"休店日" site:or.jp 254

"休店日" site:rakuten.co.jp 233

"休店日" site:honda.co.jp 約1400

"休店日" site:co.jp -site:rakuten.co.jp -site:honda.co.jp 約650

"休店日" site:jp -site:co.jp -site:ne.jp -site:or.jp 857

のように場合分けをすると、ほぼ全例を目視確認できそうです(特定企業に偏っていることが

明らかですが)。

これ以上の数になると、場合分けはあまり現実的でなくなるので、いつでも使える手では

ないのですが。

posted by 岡島昭浩 at 10:36| Comment(1) | TrackBack(0) | ■初代「ことば会議室」 | このブログの読者になる | 更新情報をチェックする
この記事へのコメント
>「狐につつまれ 狐に包まれ」11。
>この言い方は、学術雑誌『国語学』の論文中でも使われたことのある(はずの……捜し出せず)言い方です。


http://www.joao-roiz.jp/SJL/search/
「きつねにつつまれ」
で検索するとみつかります。
Posted by 岡島昭浩 at 2008年01月10日 23:30
コメントを書く
お名前: [必須入力]

メールアドレス:

ホームページアドレス:

コメント: [必須入力]

認証コード: [必須入力]


※画像の中の文字を半角で入力してください。

この記事へのトラックバック