Tam o sırada, başka bir pillinetwork sitesi olan 10marifet.org'da: "şapkalar"

Etiketler: 

Arkadaslar yalnizca turk bloglar uzerinde arama yapilabilecek bir arama motoru yada bolumu fikrine ne dersiniz? (Asil dusunce taci tirsak'dan gelmistir) Biliyormusunuz bilmiyorum ama aramanetin cesitli bolumler icin hazirladigi robotlar vardir. Bir robot ta bloglar icin hazirladim. deneme amacli olarak 15 e yakin blog adresi de girdim vs vs. Aramalar tum sayfalarda 'free text search' olarak yapilacaktir. Bu konuda onerisi olan? bloglar ne siklikta ziyaret edilmeli, ayri bir alan adi olmalimi, html olarak yardim alabilirmiyim?

Spacer
Spacer
 | 35 yorum var 
 | 21 Haziran 2005 09:06 

Yorumlar

bence bu konuda blogkardeşliği ile ortak bir çalışma yapılmalıdır. çünkü herkes $uan blogkardeşliğine üye olmak , bloglarını sanal aleme göstermek istiyor..

eğer böyle bir arama motoru yapılacaksa ( ki yapılması gerçekten güzel olur ) bu tür topluluk siteleri ile ortak çalışma içinde yapılmalıdır.

ayrıca unutulmamalıdır ki, bazı blogcu arkadaşlar verimli bilgiden yana hayatını yazmak isteyebilirler.. buna göre arama motoruda kategorilere ayrılabilinir tabii :)

chirkinordek  |  (0 puan) 21 Haziran 2005 15:49

chirkinordek tesekkurler yorumlarin icin. Sen herhalde o kardesligin bir uyesisin, senin haberinin olmasi yeterlimidir bu konuda? bir kardeslik yonetim kurulu gibi bir sey sozkonusumu? Kardeslik bu tur kararlari nasil aliyor veya aliyormu?

ap  |  (0 puan) 21 Haziran 2005 20:50

çok çok hoş bir fikir, ama üzerinde bir o kadar da düşünülmesi lazım bu fikrin. öncelikle ap bu spiderların nasıl çalıştığı, nasıl içerik aldığı hakkındaki bir bilgiyi pk77@blogkardesligi.com adresine yollarsan biz de kardeşlik adına istek, görüş ve önerilerimizi belirtiriz.

hem böylece iki taraf adına da yararlı bir çalışma olur. bizim de search ve kategori benzeri bir çalışmamız var ama şimdilik local'de komunitenin isteklerine göre yön vereceğiz.

plasticwings ~ değişik konularda yazan birkaç kişinin web günlüğü. blogkardeşliği ~ blog yumağı

plush  |  (0 puan) 22 Haziran 2005 02:14

bence türkçe içerik tek başına bir kriter olmamalı yani şimdilik sayı makul olduğu için mantıklı görünebilir, ama blog sayısı 30.000+ olduğunda ve chirkinordek'in de değindiği gibi aynı konular farklı açılardan ele alınırsa arama sonuçlarındaki verim bir hayli düşer.

En mantıklısı ilgi gruplarının oluşması bu da zamanla olacak gibime geliyor şu anda blog kavramı fazla *trendy*. Bir süre sonra istikamet, zevkler, renkler kalite vs. çeşitlenecektir. O andan itibaren seçim ve gruplama kolaylaşacak tahminimce.

morigo[pilli_silinen_hesap]  |  (0 puan) 22 Haziran 2005 11:20

efendim google zaten boyle bir hizmet sunuyor size. aramanizi soyle yapin olsun bitsin:

+"aradigim kelimeler" +aradigim +diger +kelime -aramadigim -kelime site:*.blogspot.com

bir de aramayi sadece turkce siteler icinde yaparsaniz iste size turkce bloglar icin bir arama motoru. tabii ki blogspot harici bloglarda arama yapmak isterseniz oraya uygun site adresini yazmaniz gerekecek.

burada kullanilan + ve - nedir, arama yaparken ne ise yararlar, site veya domain icinde arama secenekleri nelerdir hepsi ve daha fazlasi icin google'in 'advanced search' veya 'gelismis arama' kismina bir bakin derim.

bu arada tez vakitte internette bilgi arama teknikleri hakkinda bir seyler yazmanin faydali olacagini dusunuyorum cunku gorunuyor ki bu acil bir ihtiyac.

koray k  |  (0 puan) 22 Haziran 2005 15:37

Koray pek anlamadim acikcasi. Yani o dedigin sekilde arama yaparsan, yalnizca .blogspot.com da arama yapmis oluyormusun? Peki ya diger bloglar?

ap  |  (0 puan) 22 Haziran 2005 16:49

blogspot altindaki tum bloglar icin arama ornegi bahsettigim sekilde. baska blog domainleri icin bunu *.blogspot.com yerine *.baskablogservisi.com gibi degistirmek gerekecek tabii ki.

ornekte verdigim bu arama kriteri (site:*.blogspotcom) blogspot domaininden hizmet alan tum blog sayfalari icinde arama yaptiriyor. yani 'hede.blogspot.com' da 'hodo.blogspot.com' da araniyor bu kriter uyarinca.

'blog arama motoru' gelistirmek yerine, google icinde bilinen blog domainlerinde arama yaptiracak basit bir scriptle bu hizmet saglanabilir zahmetsizce. hatta bence tum blog gruplari da bunu kendi ana sayfalarinda sunabilirler.

koray k  |  (0 puan) 22 Haziran 2005 19:39

koray k'nın söylemeye çalıştığı şeyde haklılık payı bir miktar var ama tam da doğru değil. ana akışa google'ın ustalık gerektiren arama tekniklerini öğretmek yıllar alacaktır. özellikle türkiye'de..

blog arama motoru kulağa hoş geliyor ama karşılaşacağı da çok pürüz var. insanlara ne sunup da onların google'dan başka bir arama motoruna geçmesini sağlayabilirsin ki? yahoo'nun da en büyük sorunu bu mesela. onca yatırıma rağmen istediğini yakalayamıyor.

technorati örneğini inceleyebilirsiniz, eğer bu projeye girmeye karar verirseniz.. google dururken, gerçekten kullanılacak bir sistem icad ettiler. şu an bir çok insan technorati hayranı..

blogdex de çok önemli bir araç idi.. ne kötü ki çürümeye terkettiler.

daypop.com da bloglar hedefleyen bir araç.

ne yapılırsa yapılsın, google'ın beceremediği bir şey üzerinden gitmeli bence. yoksa kimseye kullandıramazsınız, büyük paralar yatırmadan..

aftermath  |  (0 puan) 22 Haziran 2005 23:22

Bence Koray'in sundugu cozum tum turkce bloglari bir seferede arayamayacagin icin eksik kalacaktir. Ayrica olayi sen ben olarak dusunmemek gerekir. interneti ve kullanmasini bilen insanlari iceriyor 'sen ben'. Turkiye'de internet kullanan insanlarin yas ortalamasi halen 20 lerin icindedir. Bu batidada boyle idi ilk basladiginda. Dolayisi ile Bolu'daki bir ev haniminin interneti kullanmaya basladiginda google in help sayfalarini okuyacagini ve detayli olarak nasil arama yapacagini ogrenecegini ben pek sanmiyorum. (yurt disindada insanlarin o sayfalari pek okudugunu sanmiyorum-insanlarin tembelligi , zaman azligi falan gibi bir suru nedeni var tabiki. Insanlar bir iki kelime yazip sonuc bekliyorlar acikcasi)

Aftermath'in soyledigi ise genel anlamada 'arama motorlari' icin dusunulerek yazilmis gibi geldi bana. Bircok dedigine katiliyorum. technorati'yi de inceledim. benim yapmak istedigimde onun gibi bir seydi zaten. Ama yalnizca Turkce bloglar icin. technorati ve diger sitelerle ilgili olarak Yine ayni tip yaklasimda bulunacagim: Bolu'daki bir ev hanimi o bahsettigin sitelere gitse birsey anlamaz bence. Turkce icerik konusunda ise israrliyim ben. Aksi halde buyuk bir bilinmeze aciliyorsunuz. Altindan maddi, programsal, veri tabani olarak kalkilmaz hale geliyor. 'yalnizca turkce' ile sinirlarinizi belirlediginizde ise 'yapilabilir' 'altindan kalkilabilir' hale geliyor olay.

ap  |  (0 puan) 24 Haziran 2005 14:33

Kusura bakmayin arkadaslar ama technorati nin ne ozelligi var? Ne yaptigini tam olarak anlayabilmis degilim. icerikte arama yapmiyormus gibi bir his icimde. Dogrumu? icerikte arama yapmiyormu?

ap  |  (0 puan) 27 Haziran 2005 20:17

blogarama.com var bitane. :) Bir bak derim. daha iyisini yapabilirsin.

Selim Topaloğlu | selim.topaloglu.net

byselim  |  (0 puan) 27 Haziran 2005 20:38

Yahu daha iki gun once o alan adi kimse tarafindan alinmamisti:) Neyse, o siteyi pek begendigimi soyleyemem acikcasi. O site ingilizce. Birde 'tipyedi' veya 'aftermath' yazdiginda bir iki sonuc gelmesi lazim. Ben uzerine bir cizik atiyorum o sitenin :)

ap  |  (0 puan) 27 Haziran 2005 21:41

Açıkçası ben hiç beğenmedim. O yüzden daha iyisini yapabilirsin dedim.. Yardımcı olmaya hazırım ben bunun için.

byselim  |  (0 puan) 27 Haziran 2005 22:00

@byselim ..cok tesekkurler. ben birseyler hazirladim biraz. http://www.aramanet.com/blogindex.jsp Burasi cikis noktamiz olsun derim. En azindan programlama acisindan -html acisindan degil !!!-. Su an bir robot surekli calisiyor. Yukaridaki sayfada gorecegin web sitelerini 1 saat araliklarla ziyaret ediyor - veya ziyaret etmeye calisiyor- (bu rakam 6-12 saat gibi bir sey olmali aslinda.) Sayet yeni eklenen sayfalar var ise veritabanina 'insert' yapiyor, guncelleme gerekiyorsa 'update' yapiyor. Daha sonra robot u tekrar gozden geciririm (hatalari var ise duzeltirim). Html olarak - buyurun abicim alin istediginizi yapin :) - Fonksiyonlarini ise buyurun tartisalim: Nasil calismasi gerektigini, hangi siklikta guncelleme yapilmasi gerektigini vs.

ap  |  (0 puan) 28 Haziran 2005 01:45

sadece blog lar içi arama olayını da bloglar arası link takibini de uzun zaman önce düşünmüş ve hatta bir şekilde yapma eylemine girişmiştim, ancak imkanlar ve sistemin gerektirdikleri beni 3-4 boy aştığı için projeleri hep çürümeye terkettim, ki en çok kastığım referer projesine bile en son ne zaman baktığımı unuttum :)

sonuçta blog lar bize bile konuşurken internetin ufak bir parçası gibi gelsede, içinde devasa bir kitle var, bir kere çok sık güncelleniyor, sistemin arama sonuçlarının güncel olabilmesi için, ya çok ciddi internet çıkışı olan 2-3 makinenin 7/24 tarama yapması gerekiyor, yada bir exe program ile projeye destek verecek kişilerin arama işlemine boş zamanlarında destek olması gerekiyor.

işin aslı benim bu projeden gözüm korktu biraz ve bıraktım, @ap nin güzel bir server sistemine sahip olduğunu düşünüyorum, eğer altyapı da düzgün kurulursa bence gayet hoş bir çalışma olur. gerçi bu konuştuğumuz mevzuyu technorati çoktan yapmış görünüyor ama ben yne de türkçeye indirgenmesinden yanayım.

Kısaca, ben bu projenin destekçisi olurum her anlamda, elimde ki arama datasını zamanında @ap e göndermiştim zaten.

son olarak @ap nin nasıl bir sisteme sahip olduğunu bilmiyorum, ama bir exe program ve projeye destek olacak kişilerin yardımı olmadan arama sonuçlarının sağlıklı ve güncel olmayacağı kanaatindeyim.

ps:@ap hocam bu index te ben yokum :)))

tt

Taci TIRSAK  |  (0 puan) 28 Haziran 2005 15:50

technorati, siteleri crawl etmiyor. xml'lerinden aldığı bilgiler kadarıyla indeksliyor. araması da anahtar sözcükler (tag) üzerinde..

"sağlık" kelimesini aratırsanız bu anahtar sözcüğe veya kategoriye ait blogları listeleyecektir, yazılma tarihlerine göre..

kısaca, bloglardan hareketle blog sitelerini indeksliyor. odak, blog yazıları ve konuları..

aftermath  |  (0 puan) 29 Haziran 2005 00:20

Acikcasi pek tutmadim yalnizca xml bilgilerini indexlemesini. xml vermeyen bir suru site var. yalnizca anahtar sozcukler uzerinden arama yapmak iside ayri bir yontem. 'anahtar sozcukler uzerinden arama yapmak' bence 'fonsiyonel anlamda' yetersiz, teknik anlamda ise yapmasi kolay. Sistem olarakta ucuza kurulabilecek bir sistem. Kocaman bir index yerine kucuk bir index ile ugrasirsin veri tabaninda. Yontemin eksikligi ise tipyedi ve koray kelimelerini ayni anda aradiginda sonuc bulamamasi . Oysa icerik aransa idi bulunabilirdi :)

@tt o ilk sayfadaki liste yalnizca deneme anlaminda bir liste . Bir blog sitesine girip linklerini direkt olarak kopyalayip veri tabanina atmistim. Kimler var kimler yok diye hic dikkat etmedim :( Neyse senin sitenide ekledim. Yaklasik 109 sayfan (image lerde dahil) indexlenmis. Simdi , biraz teknik kacsada, sistem hakkinda bilgi vereyim: veritabaninda url, saat, sonrobotgezmesaati gibi bir 'table' im var. bir programim-thread- her 10 dkda bir uyanip bu tabloyu kontrol ediyor. now ()- sonrobotgezmesaati saat tan buyuk ise (ki 6 saat yaptim su an) o url i aliyor ve bir robot baslatiyor (5 adet robotu ayni anda calistiriyorum su an -yani 5 url i ayni anda gezebilyorum- tabiki 5 rakami benim verdigim bir deger, arttirilabilir-. Robot o url ile basliyor (ki genellikle ana sayfadir bu), text i cikariyor, veritabanindaki degerler ile karsilastiriyor sayet farkli ise 'update' ediyor, sayet veritabaninda bu sayfa yok ise yok ise 'insert' yapiyor (bu karsilastirma islemi biraz ozeldir isteyen olur ise acabilirim). sayet update yada insert ise cikarttigi linkleri geziyor. bu islemi her link icin tekrarliyor (bu islemi yaparken her sayfada bir 10 sn bekliyor-gezilen siteyi kasmamak icin). Robot icin verilen parametrelerden biride derinlik, robot su anda derinlik =3 parametresi ile calisiyor -derinlemesine kac kat inilecek sorusunun cevabidir bu-. isi biten robot ben isimi bitirdim deyip obur dunyaya gocuyor :) Tabi geriye donup o ilk tablodaki o url icin songezmesaat'ini degistiriyor. Robotlari yaratan o thread de ' ha tamam bir robot un isi bitti' baska varmi deyip, tekrar veri tabanini arastiriyor. yoksa uykuya yatiyor. vs vs yani..:) Makinalar ise: Aramanet in asil serveri 2.8 ghz cpu, 4 gig ram, 3scsi, 1 ide hard drive dan olusan dell serverdir. Linux kullanir, programlar java ile yazilmistir, veri tabani postgres tir. Su an deneme amacli calisan blog veritabani ise 2.8 ghz, 750 mb, i ide hd dan olusan ikinci serverde calismakta (bu server yalnizca veri tabanina sahip bir server- web sunucusu ise aramanet in oldugu ana makinadadir).

bandwidth im 512/256 buradan takib edilebilir. Su an 100 kusur blog bir problem cikarmadan devam ediyor gozukuyor.

@tt bir sorum var: exe program derken neyi kastetmistin? "Yardim olmadan arama sonuclari saglikli olmayacaktir" dusuncesinde ise ayni fikirdeyiz.

ap  |  (0 puan) 29 Haziran 2005 02:58

exe derken neyi kastetmiştim??? kısaca arama işlemini bir ana server üzerinden yapmak yerine projeye destek olacak kişlerin pc lerini kullanarak yapmaktı amaç, ama fikrini sorduğum bir kaç kişi ilk olarak "ee sen benim pc nin içinide görücen dimi o zaman??" dediği için vazcaymıştım projeden:) bu anlamda pek destek bulmak zor gibi görünüyor :)

tt

Taci TIRSAK  |  (0 puan) 29 Haziran 2005 09:47

@tt Abi farkli bilgisayar kullanma olayi pek saglikli gozukmuyor bana. veriyi farkli yerlerden toplayip bir sunucudan kullaniciya sonuclari sunma isi bircok parametrelere bagli ve calismama olasiligi veya cok yavas calisma olasiligi yuksek olan bir alternatif. herhalde senin soyledigin 'distributed database' denilen olay. Calistigim yerde ingiltere uzerinden almanya' daki bir iki veritabanini kendi veritabaniniz ile birlestirmeye kalktik, sistem calismadi. zaman zaman hatlar yavas kaldi. enbuyuk problemde farkli veritabanlarindan gelen sonuclarin hizi oldu. bence bu fikri oldurmeyelim. html ve sistemin nasil calismasi gerektigi acilarindan beni yalniz birakmayin diyorum. Robotllarimi tekrar kontrol ettim.. bir iki duzeltme yaptim. bir iki ek bilgi daha toplamaya basladim. (ornegin her kontrolde kac link update oluyor kac link insert oluyor gibilerinden ...). Ama sistem genellikle calisiyor gozukuyor. Bir arakadas html/arayuz konusunda yardimci olursa sevinirim. Ayrica bir iki sorumda olacak (ozellikle @tt ye): ornegin anasayfa degismemisse diger linkleri gezip degismismi degismemismi diye kontrola gerek varmi sizce (su an gerek var deyip linkler tekrar kontrol ediliyor). Bir diger soruda hangi siklikta ve ne zaman gezilmesi olayi..(su an 6 saat te bir geziliyor.) Ornegin yalnizca gece yarisi ve 06 saatleri arasinda gezilse yeterli olurmu? Kolay gelsin.

ap  |  (0 puan) 04 Temmuz 2005 11:16

ayrica @plush, sizlere bir email gonderdim..Halen cevap vermenizi bekliyorum.

ap

ap  |  (0 puan) 05 Temmuz 2005 00:02

bize böyle bir bilgi gelmedi, ziyaretçi var siteden gelen ama hala maili alamadım ben bekliyorum mailini oysa ki :)

plasticwings ~ değişik konularda yazan birkaç kişinin web günlüğü. blogkardeşliği ~ blog yumağı

plush  |  (0 puan) 08 Temmuz 2005 01:37

mail tekrar gonderilmistir.

ap  |  (0 puan) 08 Temmuz 2005 01:56

taci bey, bir çok makinanın boş zamanlarında indeksleme yapıp verileri bir ana sunucuya göndermesi teoride güzel bir çözüm. Kanser araştırmalar, uzay araştırmaları vb konularda bu tip programların varlığını biliyoruz. Güzel de bir uygulama fakat; iş indeksleme olunca gözü açık site sahipleri bu sistemi kendi sitelerini ön plana çıkartacak şekilde değiştirmeye çalışabilir. bu olay %100 gerçekleşir demiyorum fakat gerçekleşmesi durumunda projeyi bir anda batırabilir de. Çünkü bu tip bir modifikasyonu kimlerin yaptığını bilemeyeceğimizden veritabanındaki hangi verilerin gerçek hangilerinin ise sahte olduğunun ayırdını yapamayız. Bütün veritabanı boşa gider.

@ap tasarım/html vb konularda ortağımla bir konuştuktan sonra size döneceğim. Belki bir yardımımız olabilir. (kendi sitemizi bitiremedik henüz ama :))

kara  |  (0 puan) 08 Temmuz 2005 09:51

@lowest, böylesi bir durum pek olası değil, çünkü exe program indexlenecek adresleri ana sunucudan bir xml dosya olarak alacak, ve xml dosya o an sırada bekleyen adreslerden oluşturulacak, kısaca programı kullanarak sisteme yardımcı olan kişinin exe e veya sunucu dosyalarına direkt erişimi olmadığı sürece sistemi kendi lehine kullanması mümkün değil

tt

Taci TIRSAK  |  (0 puan) 08 Temmuz 2005 10:22

@ap, bence ana sayfa değişsin değişmesin diğer bütün linkler kontrol edilmeli, senin de ifade ettiğin gibi blogların hepsi blogger tabanlı olmadığı değil, hazır yazılım kullanan var, oturup kendi yazan var, ana sayfada bir değişiklik olmaz ama alt sayfalarda bazı değişiklikler yada eklemeler olablir, bence kontrol edilmeli

kaç saatte bir kontrol edilmesi gerektiğine gelirsek, bunun için bir zaman aralığı vermek zor, önce bir devir daim yapması lazım, yani bir başlangıç noktasından yola çıkarak türkçe blogları komple bir dolaşmalı ve bitirmeli, önce bu bitirme süresinin ne kadar olduğunu hesaplamalıyız, daha sonra buradan yola çıkarak hangi saatler arasında yada kaç saatte bir dönmeli diye bakılaibir, ama asıl mesele şu bence, türkçe içerikte blog olanları ve olmayanları nasıl ayıracağız? yada yeni eklenen bloğun max 2 gün içinde arama motoru kayıtlarına girmesini nasıl sağlıyabiliriz?

bu anlamda blogkardeşliği, bloglar alemi ve türkçe blog indexi güzel bir çözüm gibi duruyor, bu oluşumlarla irtibata geçilip kayıtlı blogların xml formatında alınması sağlanabilir, bu sayede eklenen yeni bloglardan anında haber alınabilir, bu konuda özellikle turkce blog index in çılgın bir indexi var, ve yanılmıyorsam her geçen gün yenilerini ekliyor, bu site ile yakın temas halinde olunursa güzel olacağı kanaatindeyim, yine aynı şekilde blog kardeşliği ve bloglar alemi bu arama işlemi için kaynak olarak kullanılabilir,

tt

Taci TIRSAK  |  (0 puan) 08 Temmuz 2005 10:41

@tt bir çok değişik yöntem ile araya girilebilir. Amaç sistemi kendi çıkarına kullanmaksa ortaya bir çok yöntem çıkarılabilir. Benim demek istediğim buydu.

indekslenecek siteleri sunucudan XML ile aldığımızı düşünelim. XML modifikasyona gayet açık bir veri formatı. Not defteri ile açıp içinden indekslenecek siteler değiştirilebilir. Böylece rakip sitelerin indekslenmesi engellenmeye çalışabilir. Bunun önüne geçmek için ikinci bir kontrol yapılması gerekir, bu da iş yoğunluğuna yol açar.

Indeksleme işlemi idle bilgisayarda yapıldı diyelim, elde edilen verilerin sunucuya geri gönderilmesi lazım. Bunun içinde ilk etapta en kolay yol XML olabilir. Yine bu XML verileri değiştirilebilir.

Benim burada asıl değinmek istediğim bir şekilde ana sunucuya giden veriler modifikasyona uğrarsa, ya da bu tip bir sistem yapılırsa veritabanının içindeki verilerin sağlıksız olacağıdır. verilerin kontrolüne girişmekte astar ile yüz arasındaki fiyat dengesini bozacaktır.

Herkesin bilgisayar konusunda engin bilgi ve deneyimi olmadığını da göz önünde bulundurursak sizin de bahsettiğiniz gibi güven problemlerinin ortaya çıkması muhtemeldir. Bilgisayarım boş kaldığında çalışacak ve süreli internette bilmediğim başka bir yere veri gönderecek bir program kuracağım. İnsan ister istemez işkilleniyor.

kara  |  (0 puan) 08 Temmuz 2005 11:28

@kara, zaten bu proje bir açmazda :)

şöyle ki verilerin güvenliğini kontrol etmek zannettiğin kadar zor bir olay değil, yani evet xml dosyası bir notepad ile değiştirilebilir, ama xml dosyasına sen erişemeyeceksin ki? şöyle düşün misal bildirgeç in xml ile verilerini herhangi bir rss programı ile takip edebiliyorsun, peki bildirgeç in xml dosyasında değişiklik yapabiliyor musun? yapamazsın çünki bu sunucu tarafında oluşturulur, okursun ve sadece veri alaiblirsin, programın genel mantığı da bu şekilde olacak, zaten temelde işlevini gerçekleştirmesi için internet bağlantısının online olması gerekiyor, program çalıştığı anda önce ilgili xml adresine bakacak, sıradaki adresi bir değişken olarak alacak, bu adresi işleyecek ve veriyi gönderecek, bu arada hiçbir şekilde xml dosyasına müdahale edemezsin, kaldı ki bir cache bellek durumu söz konusu olmayacağı için mevcut veriye de müdahale edemeyeceksin, yani veri bir değişken olarak alınacak işlenecek ve yine bir değişken olarak sunucuya yüklenecek, prgramın çalıştığı pc de herhangi bir veri yazma işlemi olmayacağı için gönderilecek verilerin de modifikasyona uğraması söz konusu değil, ancak şu olaiblir, programın post ettiği adrese bir şekilde fake gönderimler yapılabilir, ama bunu da çok basit bir kaç kontrolden sonra fake olup olmadığını anlayabilirsin. Kısaca programın gerçek veri ile çalışıp çalışmadığını anlamak sorun değil, asıl sorun şu, insanları bu projeye nasıl dahil edebilirsiniz?

Sizin sorduğunuz soruyu ben önce kendime soruyorum, "nasıl bir sistem olmalı ki? ben pc başında değilken bu sistemin internetten veri almasına ve veri yollamasına izin verebileyim?" bu soruya gönül rahatlığı ile verebileceğim bir cevap olursa ben bu projeye girerim zaten :)

belki sourceforge tabanlı bir açık kaynak sistem düşünülebilir, ama üzerine çok çalışmak lazım çook :)

tt

Taci TIRSAK  |  (0 puan) 08 Temmuz 2005 13:07

Bu tip bir programı nasıl yazarım diye aklımdan geçirip bunları yazıyorum bende.

inan buraya çok şeyler yazdım sildim. konu gereksiz yere çok uzayacağı için sildim genelde. Bu tip bir program yazılırsa varsa açıkları bulmak ve kapatılmasını sağlamak için elimden geleni yaparım. Bu tip bir sistemi aşmak için bir çok yol geliyor aklıma.

amacım köstek olmak değil destek olmak.

Bu arada lowest bendim, ufak bir değişim geçirdim. yorumları baştan okuyan birisi olursa @tt' nin lowest diye kime yazdığını merak edebilir. nickim değişti sadece. :)

kara  |  (0 puan) 08 Temmuz 2005 13:48

@kara sen yukardaki soruma samimi ve arkasında durabileceğimiz bir cevap bul, ben o sistemin güvenliğini herşekilde sağlarım :)

konu istediği kadar uzayabilir bu arada, soru-cevap bölümündeyiz, bu bir soru ve bizler cevabını arıyoruz :)

tt

Taci TIRSAK  |  (0 puan) 08 Temmuz 2005 14:06

programın açık kaynak kodlu olması güven vermesi açısından da geliştirilmesi açısından da iyi olur kanaatindeyim.

Her sezonda yapılan işlemlerin ve veri alışverişinin kaydı tutulmalı ve kullanıcı isterse bu kayıtlara bakabilmeli.

boş zaman süresince program çalışarak indeksleme işlemlerini yapar fakat arama motoru sunucusuna veri göndermez. Kullanıcı bilgisayar başına geldiğinde bir uyarı penceresi çıkar ve yapılan işlemler bunlar, gönderilecek veriler bunlar, onaylıyor musunuz diye sorulur. Kullanıcı isterse inceler, uygun bulursa gönderir.

tüm bunları yazarken güvenliği hiç düşünmüyorum, onu sen hallederim dedin çünkü.

aklıma gelenler şimdilik bunlar. biraz da iş yeri için birşeyler üretmem lazım yoksa kötü olacak. :)

kara  |  (0 puan) 08 Temmuz 2005 15:09

verilerin gönderilme selahiyetini kullanıcıya bırakamayız, o zaman suistimal olur işte, misal adam bildirgeç e gıcıktır, bakar ki bildirgeçin sayfaları indexlenmiş, yollama der, olmaz :)

kullanıcı program üzerinde yapılan her işlemi görsün, ona kesinlikle katılıyorum ama giden verileri durdurma hakkı kullanıcıda olmamalı, derim ben.

tt

Taci TIRSAK  |  (0 puan) 08 Temmuz 2005 15:19

selamlar, Yazilariniz gordum ama ancak su an cevap yazabiliyorum :( -is guc tabiki, calistigim firmadaki ana sunuculardan bir 99.9% cpu ile calisiyor su an, bende nedenini anlamaya calisiyorum :) )

Dun aksam robotu 12 ile 04 arasinda calistirdim yalnizca, yapabildigi: sum ------- 10295

yapamadigi ise sum ------ 3931

bu rakamlar gezilen sayfa sayilari. Robot halen 5 url ayni anda ve her sayfada 10 sn bekleyerek calisiyor su an. Birde robot yaratan thread, 5 dk da bir uyanip isi bitmis olan robot varmi diye kontrol ediyor. buda yaklasik 2 sn/sayfa demektir (teorik olarak). 10295/(4*60) ise 42 sayfa/dakika sonucunu veriyor.

Bu aksam o 5 dk yi 2 dk ya, 5 robot uda 10 a cikaracagim. Bakalim ne kadar is yapabilecek. Hangilerinin turkce olup olmamasi olayi ile ilgili olarak: Bu konu benim gecelerimi yiyen bir konu olmustur. En son verdigim kararlar ise: 0-site url i .tr icerir karar=turkce sayet karar turkce degil ise 1-content-type'i bul 1a- iso-8859-9 ise veya windows-1254 ise karar =turkce 1b- sayet degil ve utf-8 veya iso-8859-1 ise dilbul programina gonder. (aslen textcat diye bir program, programi uygun buldugun bir text ile 'train' ediyorsun -ben cetin altan'in bi yazisi ile train ettim programi). Dilbul programi sana birtakim alternatifler sunuyor -turkce , ingilizce vs- sayet dilbulun cevaplari arasinda turkce var ise karar=turkce 2- content-language tagini bul sayet tr ise karar=turkce (aradigim yalnizca tr- tr,en,fin,gr vs- olur ise karar =turkce degil ) (bu arada belirtmekte yarar var. ozellikle hollandadan, bir suru site dedigim sekilde 15-20 adet farkli dili content-language taginda kullaniyor) 3- sayet dedigim taglar yok ise dilbul karari verir. dilbul programi ni buradan deneyebilirsiniz. (bir iki yaziyi kopyalayip yapistirin derim ben) Bu benim (yuzbinlerce kore, hollanda veya japon site sayfalarinin turkce zannedip aramanet'de indexledikten ve sildikten sonra :) ) bulabildigim cozum. Onerilere acigim.

exe'li ve farkli bilgisayar kullanimi konusundaki cozumler konusunda ise dusuncelerimi toparlamaya calisiyorum. Beyin hucrelerim ofisteki 99.9% cpu kullanan sunucudan ayrilir ayrilmaz konuya donecegim. ap blog arama procesi

ap  |  (0 puan) 08 Temmuz 2005 17:20

Robot un parametrelerini degistirdim. su an ayni anda 10 url ile calisiyor. Birde derinlik konusunda bir hata yapmisim (derinlik 1 ile calisiyormus :( derinligi 3 e cikarttim) Bu hali ile ne kadar bandwith kullandigini buradan izleyebiliriz. turkiye saati ile 01-06 arasi calismasi lazim. (boylece kimsenin sitesinide kasmamis oluruz bu denemelerle)

@tt abi sen su kafanda ki modeli biraz daha acarmisin? simdi dusunuyorumda : simdi deki sen, ben ve kara bu ise birer bilgisayar ayirdik. deki sen 3, ben 3, kara 5 siteyi takib ediyor. ana site senin siten olsun ve birisi bir arama yapiyor. arama senin sitene geldi. senin siten benim bilgisayarima, karanin bilgisayarina aranan kelimeleri aktardi. ben aramami yaptim, kara aramasini yapti ve sana sonuclari -herhalde xml olarak- gonderdik. Olayin akisi yukaridaki bahsettigim gibi mi olacak senin dusundugun tasarimda?

Birde aklimda iken, uzun zamandir haber sitelerinin bu rss/xml cikislarini kullanip onlarin kucuk ozetlerini aramanet'in haber bolumune koymayi dusunmustum (bir turlu firsatim olmadi acikcasi). Saga sola baktim nasil yapiyorlar diye bu aksam. Pek zor bir seye benzemiyor. sayet firsat bulabilirsem uzerinde biraz calisacagim. En azindan yalnizca rss leri okuyan bir robot turu dusunuyorum. (Gerci oda yalnizca technorati gibi olurya neyse) dedigim gibi firsat bulur bulmaz birseyler yazacagim program olarak. Gorelim bakalim rss lerden neler cikartabiliyoruz!! En azindan sitelerin rss/xml feed leri vasitasi ile sayfa ozetleri bir yada birkac sayfada gosterilebilir. (yani xml ->xslt->html i kastediyorum ) kolay gelsin

ap  |  (0 puan) 09 Temmuz 2005 02:43

@ap aktif arama sırasında bizim bilgisayarlarımızın bir işlevi olmayacak. @tt' nin bahsettiği sistem şu şekilde işliyor.

bu iş için yazılmış programımızın ismi indeksleyici olsun şimdilik. Ben indeksleyiciyi bilgisayarıma kuruyorum. Aramanet' ten bir kullanıcı adı ve şifre alıyorum. Bunları programa giriyorum. Program arka planda çalışmaya başlıyor. Sağ alt köşede de bir simgesi olabilir belki. Neyse program ben bilgisayarı kullanırken herhangi bir işlem yapmıyor. Benim çalışmamı ve bandwith' imi kullanmasın diye. Ne zaman ki ben öğle yemeğine çıkıyorum (bilgisayarımı açık bırakarak), benim bilgisayarı boş bırakmamdan itibaren 5 dakika sonra indeksleyici çalışmaya başlıyor.

Önce aramanet sunucularına bağlanıp indeksleme yapacağı sitelerin adreslerini alıyor. Daha sonra senin geceleri çalıştırdığın robotlardan bir (ya da bir kaç) tanesi benim bilgisayarımda çalışmış oluyor. Ben yemekten döndüğümde program duruyor ve o ana kadar yaptığı taramalar sonucu ortaya çıkan veriyi aramanet sunucularına gönderiyor.

Böylece senin geceleri çalışan sunucular yerine bir çok bilgisayar çalışarak iş gücünü artırıyor.

Bu sistem kanser araştırmalarında, uzay araştırmalarında vb uygulamalarda kullanılıyor. şimdi zamanım olmadığından onların linklerini bulup veremiyorum.

kara  |  (0 puan) 09 Temmuz 2005 09:19
aftermath  |  (0 puan) 14 Temmuz 2005 19:28

üye olunpillinetwork sitelerine yorum ekleyebilmek ve daha fazlası için, üye olun ya da giriş yapın.

Bu yazıyı rapor et. Kural dışı içeriğe rastladığınızda editörlerimize rapor ederek müdahale edilmesini sağlayabilirsiniz. (Hangi durumlarda rapor edebilirim?)
bildirgec.org bölümleri
pillinetwork hesabınızla giriş yapın.

son yorumlar

bildirgecinfo

bildirgec.org içeriği kullanıcıları tarafından üretilen kolektif bir blogdur.

network siteleri

RSS Dosyası
pillikutu